[데이터] Kaggle (캐글)

하얀지 2025. 5. 5. 14:26

프로젝트에 활용할 데이터셋을 찾다가 Kaggle(캐글) 이라는 사이트를 알게되었다.

Kaggle

데이터 과학자와 머신러닝 엔지니어들이 모여 서로 문제를 풀고, 데이터를 분석하고, 학습하는 플랫폼

Kaggle은 수십만 개의 데이터를 자유롭게 검색하고 활용할 수 있는 데이터 저장소 제공
CSV부터 이미지, JSON까지 다양한 형식의 데이터셋이 있고, 무료로 이용 가능

데이터셋 예시

주제	예시 데이터셋
건강/의료	코로나 확진자 현황, 의학 이미지
스포츠	월드컵 경기 결과, NBA 선수 스탯
경제/금융	주식 시장, 암호화폐 가격
게임	포켓몬 정보, 롤 챔피언 통계
일상/기타	넷플릭스 영화 목록, 음식 영양 정보

⭐ 실제 업무용 데이터뿐만 아니라, 흥미로운 주제의 캐주얼한 데이터도 많아서 초보자도 쉽게 접근 가능

사용하는 법

데이터셋 필터에서 확인해보면 Filter Types: CSV, JSON, SQLite, BigQuery 네 가지를 확인할 수 있다.

CSV

import pandas as pd

# 같은 폴더 내 CSV 파일 불러오기
df = pd.read_csv("netflix_titles.csv")

# 데이터 미리 보기
print(df.head())

* 예시 데이터: Neflix Movies and TV Shows

JSON

import json

# JSON 파일 열기
with open('iris.json', encoding='utf-8') as f:
    data = json.load(f)

# 첫 번째 데이터 출력
print(data[0])

* 예시 데이터: Iris Dataset (JSON Version)

SQLight

import sqlite3
import pandas as pd

# DB 연결
conn = sqlite3.connect("sakila.db")

# 모든 테이블 이름 확인
query = "SELECT name FROM sqlite_master WHERE type='table';"
tables = pd.read_sql(query, conn)
print(tables)

* 예시 데이터: SQLite Sakila Sample Database

BigQuery

* 예시 데이터: USA Name Data

페이지에서 bigquery 에서 링크 바로 접속해도 되고, 아래처럼 따로 데이터 추가할 수도 있다.

데이터추가 > 공개 데이터 세트 > 검색(usa-names) > 데이터세트 보기

# 1910년부터 2013년까지 미국에서 가장 많이 등록된 상위 10개의 이름
SELECT
  name,
  SUM(number) AS total
FROM
  `bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
  name
ORDER BY
  total DESC
LIMIT
  10;

여태 국내 공공데이터를 활용했는데, API 한도가 있기 때문에 대용량 테스트에는 적합하지 않았다.

캐글 데이터를 활용해봐야겠다.

'IT' 카테고리의 다른 글

[Spring Boot] 대용량 데이터 이관 JPA vs JDBC vs MyBatis 비교 (1)	2025.06.27
[Spring Boot] Spring Security 추가 후 CORS/401/403 오류 해결 (0)	2025.06.27
[Spring] @Transactional 트랜잭션 어노테이션 (0)	2025.04.28
Redis란? (1)	2025.04.28
[Spring Boot] MyBatis VS JPA (0)	2025.04.23

현재글[데이터] Kaggle (캐글)

개발 기록