Tiny Star

IT

[데이터] Kaggle (캐글)

하얀지 2025. 5. 5. 14:26

프로젝트에 활용할 데이터셋을 찾다가 Kaggle(캐글) 이라는 사이트를 알게되었다.

 


 

Kaggle

데이터 과학자와 머신러닝 엔지니어들이 모여 서로 문제를 풀고, 데이터를 분석하고, 학습하는 플랫폼

Kaggle은 수십만 개의 데이터를 자유롭게 검색하고 활용할 수 있는 데이터 저장소 제공
CSV부터 이미지, JSON까지 다양한 형식의 데이터셋이 있고, 무료로 이용 가능

 

 

데이터셋 예시

주제 예시 데이터셋
건강/의료 코로나 확진자 현황, 의학 이미지
스포츠 월드컵 경기 결과, NBA 선수 스탯
경제/금융 주식 시장, 암호화폐 가격
게임 포켓몬 정보, 롤 챔피언 통계
일상/기타 넷플릭스 영화 목록, 음식 영양 정보

 

⭐ 실제 업무용 데이터뿐만 아니라, 흥미로운 주제의 캐주얼한 데이터도 많아서 초보자도 쉽게 접근 가능

 

 

사용하는 법

 

데이터셋 필터에서 확인해보면 Filter Types: CSV,  JSON, SQLite, BigQuery 네 가지를 확인할 수 있다.

 

 

 

CSV

import pandas as pd

# 같은 폴더 내 CSV 파일 불러오기
df = pd.read_csv("netflix_titles.csv")

# 데이터 미리 보기
print(df.head())

* 예시 데이터: Neflix Movies and TV Shows

 

 

JSON

import json

# JSON 파일 열기
with open('iris.json', encoding='utf-8') as f:
    data = json.load(f)

# 첫 번째 데이터 출력
print(data[0])

* 예시 데이터: Iris Dataset (JSON Version)

 

 

SQLight

import sqlite3
import pandas as pd

# DB 연결
conn = sqlite3.connect("sakila.db")

# 모든 테이블 이름 확인
query = "SELECT name FROM sqlite_master WHERE type='table';"
tables = pd.read_sql(query, conn)
print(tables)

* 예시 데이터: SQLite Sakila Sample Database

 

 

BigQuery

* 예시 데이터: USA Name Data

페이지에서 bigquery 에서 링크 바로 접속해도 되고, 아래처럼 따로 데이터 추가할 수도 있다.

 

 

데이터추가 > 공개 데이터 세트 > 검색(usa-names) > 데이터세트 보기

 

# 1910년부터 2013년까지 미국에서 가장 많이 등록된 상위 10개의 이름
SELECT
  name,
  SUM(number) AS total
FROM
  `bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
  name
ORDER BY
  total DESC
LIMIT
  10;

 

 

 


 

 

여태 국내 공공데이터를 활용했는데, API 한도가 있기 때문에 대용량 테스트에는 적합하지 않았다.

캐글 데이터를 활용해봐야겠다.

top