이 부분에서 우리의 목표는 아래 그림과 같이 데이터를 불러오고, 정리하고, 변환하고, 시각화하는 데이터 과학의 주요 도구들에 대한 신속한 개요를 제공하는 것입니다. 우리는 여러분이 실제 데이터셋을 다룰 수 있을 만큼 모든 주요 조각들을 충분히 제공하여 데이터 과학의 “전체 과정”을 보여드리고자 합니다. 책의 뒷부분에서는 이러한 각 주제를 더 깊이 다루어 여러분이 해결할 수 있는 데이터 과학 과제의 범위를 넓혀나갈 것입니다.
시각화는 파이썬 프로그래밍을 시작하기에 매우 좋은 장소입니다. 그 보상이 매우 명확하기 때문입니다: 데이터를 이해하는 데 도움이 되는 우아하고 유익한 플롯을 만들 수 있습니다. 데이터 시각화 (Data Visualisation) 에서는 시각화를 깊이 있게 다루며, 플롯의 기본 구조와 데이터를 플롯으로 변환하는 강력한 기술들을 배울 것입니다.
시각화만으로는 대개 충분하지 않으므로, 데이터 변환 (Data Transformation) 에서는 중요한 변수를 선택하고, 핵심 관측치를 필터링하고, 새로운 변수를 만들고, 요약치를 계산할 수 있게 해주는 핵심 동사들을 배울 것입니다.
깔끔한 데이터 (Tidy Data) 에서는 데이터 정리, 특히 변환, 시각화 및 모델링을 쉽게 만들어주는 일관된 표 형태 데이터 저장 방식인 “깔끔한(tidy)” 데이터에 대해 배울 것입니다. 기저 원칙과 데이터를 “깔끔한” 형식으로 만드는 방법을 배울 것입니다.
데이터를 변환하고 시각화하기 전에, 먼저 데이터를 파이썬 세션으로 가져와야 합니다. 데이터 불러오기 (Data Import) 에서는 .csv 파일을 파이썬 세션으로 가져오는 기초를 배울 것입니다.