Tiny Star

프로젝트/대용량 이관 2

[대용량 이관] ItemWriter 선택 (Jpa vs Jdbc vs MyBatis)

파일 형식에 따라 Reader가 달라지기 때문에 이건 차치하고, 어떤 Writer를 써야할지 고민했다.MyBatisBatchItemWriter만 사용해봤는데, 실무에서 이걸 사용했던 이유는 테이블명이 기간에 따라 변경되기도 하고, if 문을 활용한 분기처리를 위한 동적매핑이 필요했기 때문이다.현재는 동적 매핑이 필요하지 않고 단순 Insert 처리만 하면 되기 때문에 굳이 이걸로 구현해야할까?란 생각이 들었기에 JdbcBatchItemWriter를 고려하게 됐다. JpaItemWriter는 [Spring Batch ItemWriter 성능 비교]를 보고 속도상 제외했다. 하지만!실제로 속도차이가 많이 나는지 궁금해서 테스트해보기로 했다. 구성공통 설정 (Entity)// BookRating.java@N..

[대용량 이관] 데이터 찾기 (Kaggle)

대용량 데이터 이관을 진행하기에 앞서, 어떤 데이터를 이관하면 좋을지 찾아봤다.이관량 자체가 목적이라면 랜덤 데이터 생성해서 넣을 수도 있으나, 추후 파일(CSV, JSON 등)을 활용한 배치작업이 필요할 수도 있기 때문에 구조까지 고려해서 작업해보려고 한다. (이미지 클릭 시 Kaggle 페이지로 연결됩니다.) Yelp Dataset이 데이터 세트는 Yelp의 사업체, 리뷰 및 사용자 데이터의 일부입니다. 원래는 학생들이 Yelp 데이터를 조사하거나 분석하고 그 결과를 공유할 수 있는 기회인 Yelp 데이터 세트 챌린지를 위해 마련되었습니다. 최신 데이터 세트에는 미국과 캐나다 8개 대도시 지역의 사업체 정보가 포함되어 있습니다. 용량 기준으로 데이터를 찾고 있었는데 대부분 용량이 큰 데이터는 '리..

top