Online Appendix D — 데이터셋

학생들이 데이터 과학 프로젝트를 시작할 때 종종 겪는 가장 큰 어려움 중 하나는 적절한 데이터셋을 선택하는 것입니다. 흔히 Kaggle이나 UCI 머신러닝 저장소와 같이 대중적인 옵션을 먼저 떠올리곤 하지만, 가급적 이러한 출처는 피하는 것이 좋습니다. 데이터 과학의 관점에서 볼 때, 이처럼 잘 알려진 데이터셋들은 이미 거의 모든 중요한 분석적 결정(데이터 정제, 변수 선택 등)이 내려진 상태이며, 그 결정 과정이 투명하게 문서화되지 않았을 가능성이 큽니다. 또한 커리어 측면에서도 다른 수많은 이들이 동일한 데이터를 활용해 이미 수많은 분석물을 완성했기 때문에, 여러분만의 개성과 실력을 돋보이게 할 수 있는 차별화된 포트폴리오를 만들기 어렵습니다. 이를 보완할 수 있는 몇 가지 훌륭한 대안적 출처는 다음과 같습니다: