프로젝트에 활용할 데이터셋을 찾다가 Kaggle(캐글) 이라는 사이트를 알게되었다.

Kaggle
데이터 과학자와 머신러닝 엔지니어들이 모여 서로 문제를 풀고, 데이터를 분석하고, 학습하는 플랫폼
Kaggle은 수십만 개의 데이터를 자유롭게 검색하고 활용할 수 있는 데이터 저장소 제공
CSV부터 이미지, JSON까지 다양한 형식의 데이터셋이 있고, 무료로 이용 가능
데이터셋 예시
| 주제 | 예시 데이터셋 |
| 건강/의료 | 코로나 확진자 현황, 의학 이미지 |
| 스포츠 | 월드컵 경기 결과, NBA 선수 스탯 |
| 경제/금융 | 주식 시장, 암호화폐 가격 |
| 게임 | 포켓몬 정보, 롤 챔피언 통계 |
| 일상/기타 | 넷플릭스 영화 목록, 음식 영양 정보 |
⭐ 실제 업무용 데이터뿐만 아니라, 흥미로운 주제의 캐주얼한 데이터도 많아서 초보자도 쉽게 접근 가능
사용하는 법

데이터셋 필터에서 확인해보면 Filter Types: CSV, JSON, SQLite, BigQuery 네 가지를 확인할 수 있다.
CSV
import pandas as pd
# 같은 폴더 내 CSV 파일 불러오기
df = pd.read_csv("netflix_titles.csv")
# 데이터 미리 보기
print(df.head())
* 예시 데이터: Neflix Movies and TV Shows
JSON
import json
# JSON 파일 열기
with open('iris.json', encoding='utf-8') as f:
data = json.load(f)
# 첫 번째 데이터 출력
print(data[0])
* 예시 데이터: Iris Dataset (JSON Version)
SQLight
import sqlite3
import pandas as pd
# DB 연결
conn = sqlite3.connect("sakila.db")
# 모든 테이블 이름 확인
query = "SELECT name FROM sqlite_master WHERE type='table';"
tables = pd.read_sql(query, conn)
print(tables)
* 예시 데이터: SQLite Sakila Sample Database
BigQuery
* 예시 데이터: USA Name Data

페이지에서 bigquery 에서 링크 바로 접속해도 되고, 아래처럼 따로 데이터 추가할 수도 있다.



데이터추가 > 공개 데이터 세트 > 검색(usa-names) > 데이터세트 보기
# 1910년부터 2013년까지 미국에서 가장 많이 등록된 상위 10개의 이름
SELECT
name,
SUM(number) AS total
FROM
`bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
name
ORDER BY
total DESC
LIMIT
10;

여태 국내 공공데이터를 활용했는데, API 한도가 있기 때문에 대용량 테스트에는 적합하지 않았다.
캐글 데이터를 활용해봐야겠다.
'IT' 카테고리의 다른 글
| [Spring Boot] 대용량 데이터 이관 JPA vs JDBC vs MyBatis 비교 (1) | 2025.06.27 |
|---|---|
| [Spring Boot] Spring Security 추가 후 CORS/401/403 오류 해결 (0) | 2025.06.27 |
| [Spring] @Transactional 트랜잭션 어노테이션 (0) | 2025.04.28 |
| Redis란? (1) | 2025.04.28 |
| [Spring Boot] MyBatis VS JPA (0) | 2025.04.23 |