Tiny Star

프로젝트/대용량 이관

[대용량 이관] 데이터 찾기 (Kaggle)

흰둥아 2025. 5. 7. 16:07

대용량 데이터 이관을 진행하기에 앞서, 어떤 데이터를 이관하면 좋을지 찾아봤다.

이관량 자체가 목적이라면 랜덤 데이터 생성해서 넣을 수도 있으나, 추후 파일(CSV, JSON 등)을 활용한 배치작업이 필요할 수도 있기 때문에 구조까지 고려해서 작업해보려고 한다.

 


(이미지 클릭 시 Kaggle 페이지로 연결됩니다.)

 

 

 

Yelp Dataset

이 데이터 세트는 Yelp의 사업체, 리뷰 및 사용자 데이터의 일부입니다. 원래는 학생들이 Yelp 데이터를 조사하거나 분석하고 그 결과를 공유할 수 있는 기회인 Yelp 데이터 세트 챌린지를 위해 마련되었습니다. 최신 데이터 세트에는 미국과 캐나다 8개 대도시 지역의 사업체 정보가 포함되어 있습니다.

 

용량 기준으로 데이터를 찾고 있었는데 대부분 용량이 큰 데이터는 '리뷰' 데이터였다. Yelp는 지역 검색 서비스인데, 그만큼 다양한 파일을 확인할 수 있었다.

 

Business - 사업자 정보(가게 정보)
Review - 리뷰 정보
Tip - 사업자에 대한 팁 리뷰
User - 사용자 정보
Checkin - ?? (사업자아이디, 날짜 컬럼만 있는데 뭔지 모르겠음)

 

리뷰데이터가 5기가 이상으로 500만건정도 있지 않을까 예상된다. FK까지 완벽하게 구현하고 싶다면 적합해보인다.

 

 

 

 

Amazon Books Reviews

BookDetails, Reviews 두 개의 데이터로 구성된 데이터셋이다. 약 20만건의 책과 300백만건의 리뷰 데이터가 있다. 

 

User 정보는 없기 때문에 간단히 테이블을 구성 후 이관 테스트만 진행하기에 좋아보인다.

 

 

 

 

MyAnimeList Dataset

이 데이터셋은 애니메이션과 이를 시청하는 오타쿠에 대한 정보를 담고 있습니다. 이미 유사한 데이터셋이 있지만, 크기가 훨씬 작고 많은 정보가 누락되어 있습니다. 이 데이터셋은 인터넷 오타쿠 커뮤니티의 인구 통계 분석 및 트렌드 분석을 위한 대표 표본을 목표로 합니다. 사용자 정보(성별, 거주지, 생년월일 등), 애니메이션 정보(방영일, 장르, 제작자 등), 그리고 애니메이션 목록 정보를 포함합니다.

 

우연히 마주친 데이터인데 시청하는 '사용자'가 아니라 '오타쿠'라고 표현된게 웃겨서 살펴본 데이터이다.

30만건의 사용자 정보와 8천만건의 사용자 애니메이션 목록이 있다. 

생각보다 데이터 정리가 잘 되어 있어서 3개의 테이블로 구성해서 인서트 테스트 할 수 있을 것 같다. cleaned 버전이 이상한 데이터를 제거한 버전 같은데, 이걸 사용하면 데이터량이 줄어들 것으로 보인다.

 

 

 


 

 

조금 더 고민이 필요하지만 두 번째 Book 데이터가 이관 테스트 목적에 적합해보인다.

JSON 데이터라서 컬럼 파악하는게 어렵지만 첫 번째 Yelp 데이터는 나중에 통계데이터를 활용하고 싶을 때 사용하면 좋을 것 같다.

 

 

 

 

 

 

 

 

 

 

top