전체 과정 (Whole Game)

이 부분에서 우리의 목표는 아래 그림과 같이 데이터를 불러오고, 정리하고, 변환하고, 시각화하는 데이터 과학의 주요 도구들에 대한 신속한 개요를 제공하는 것입니다. 우리는 여러분이 실제 데이터셋을 다룰 수 있을 만큼 모든 주요 조각들을 충분히 제공하여 데이터 과학의 “전체 과정”을 보여드리고자 합니다. 책의 뒷부분에서는 이러한 각 주제를 더 깊이 다루어 여러분이 해결할 수 있는 데이터 과학 과제의 범위를 넓혀나갈 것입니다.

코드 보기
# remove-input
import graphviz

dot = graphviz.Digraph(comment="Data science workflow")
dot.attr(compound="true")
dot.edge("Import", "Clean")

with dot.subgraph(name="cluster_0") as c:
    c.attr(style="filled", color="lightgrey")
    c.node_attr.update(style="filled", color="white")
    c.edges(
        [("Visualise", "Analyse"), ("Analyse", "Transform"), ("Transform", "Visualise")]
    )
    c.attr(label="Understand")

dot.edge("Clean", "Analyse", lhead="cluster_0")

dot.edge("Analyse", "Communicate", ltail="cluster_0")

dot

이 장 이후에는 데이터 과학 도구들에 집중하는 네 가지 주요 장이 있습니다:

이 장들 사이에는 파이썬 워크플로우에 집중하는 다른 네 장이 섞여 있습니다:

마지막으로 후기: 추가 도움 받기 (Postscript: Getting Further Help) 에는 도움을 받고 학습을 이어가는 방법에 대한 짧은 조언이 담겨 있습니다.