
양
이 장에서는 데이터를 시각화할 때 흔히 사용하는 다양한 그래프와 차트의 시각적 요약본을 제공합니다. 특정 시각화 방법의 이름이 궁금할 때 목차처럼 활용할 수도 있고, 일상적으로 그리는 그림 대신 새로운 아이디어가 필요할 때 영감을 얻는 도구로 사용할 수도 있습니다.
수량(특정 범주 집합에 대한 수치 데이터)을 시각화하는 가장 일반적인 방법은 수직 또는 수평으로 배열된 막대 그래프를 사용하는 것입니다(양 시각화하기 장). 막대 대신 데이터가 끝나는 지점에 점을 찍어 점 그래프로 표현할 수도 있습니다(양 시각화하기 장).

시각화하려는 범주 집합이 두 개 이상인 경우, 막대를 그룹으로 묶거나 위로 쌓아 올릴 수 있습니다(양 시각화하기 장). 또한 범주들을 x축과 y축에 배치하고 수치를 색상으로 나타내는 히트맵을 사용할 수도 있습니다(양 시각화하기 장).
분포

히스토그램과 밀도 그림(분포 시각화: 히스토그램 및 밀도 그림 장)은 분포를 가장 직관적으로 보여주지만, 파라미터(구간 너비 등) 선택에 따라 결과가 달라지므로 주의가 필요합니다. 누적 밀도 그림과 분위수-분위수(Q-Q) 그림(분포 시각화: 경험적 누적 분포 함수 및 q-q 그림 장)은 데이터를 있는 그대로 충실하게 보여주지만, 해석하기가 다소 까다로울 수 있습니다.

상자 그림, 바이올린 그림, 스트립 차트, 시나(sina) 그림 등은 여러 분포를 한꺼번에 비교하거나 전반적인 변화 양상에 주목할 때 유용합니다(세로축을 기준으로 분포 시각화하기 장). 누적 히스토그램과 중첩 밀도 그림은 소수의 분포를 자세히 비교하기 좋지만, 특히 누적 히스토그램은 해석이 어려워 피하는 것이 좋습니다(여러 분포를 동시에 시각화하기 장). 능선(ridgeline) 그림은 바이올린 그림의 좋은 대안이며, 아주 많은 수의 분포나 시간에 따른 변화를 보여줄 때 효과적입니다(가로축을 기준으로 분포 시각화하기 장).
비율

비율은 원형 차트, 나란한 막대, 또는 누적 막대로 시각화할 수 있습니다(비율 시각화하기 장). 막대는 수직이나 수평으로 모두 배치 가능합니다. 원형 차트는 개별 조각이 모여 전체를 이룬다는 점과 단순한 비율 관계를 강조하는 데 유용합니다. 반면, 개별 항목 간의 크기 비교는 나란히 놓인 막대 그래프가 더 수월합니다. 누적 막대 그래프는 단일 비율 데이터를 보여주기에는 다소 어색할 수 있으나, 여러 세트의 비율을 비교할 때는 매우 효과적입니다(아래 참고).

여러 개의 비율 세트를 비교하거나 조건에 따른 변화를 보여줄 때, 원형 차트는 공간을 많이 차지하고 관계를 파악하기 어렵게 만듭니다. 비교 대상이 적을 때는 그룹 막대 그래프가 잘 작동하며, 대상이 많아지면 누적 막대 그래프가 유리합니다. 비율이 연속적인 변수에 따라 변하는 경우에는 누적 밀도 그림(비율 시각화하기 장)이 적합합니다.

비율이 여러 그룹 변수에 의해 결정되는 경우에는 모자이크 그림(mosaic plot), 트리맵(treemap), 또는 병렬 집합 그림(parallel sets)이 유용한 대안이 됩니다(중첩된 비율 시각화 장). 모자이크 그림은 모든 그룹 변수의 수준이 서로 결합될 수 있다고 가정하는 반면, 트리맵은 그런 제약이 없습니다. 트리맵은 그룹 간의 하위 구조가 완전히 다른 경우에도 잘 작동합니다. 병렬 집합 그림은 그룹 변수가 세 개 이상일 때 모자이크 그림이나 트리맵보다 더 효과적인 경우가 많습니다.
x–y 관계

산점도는 한 수치형 변수를 다른 변수와 비교할 때 사용하는 가장 전형적인 시각화 도구입니다(산점도 장). 세 개의 수치형 변수를 다룰 때는 점의 크기에 변수 하나를 매핑한 버블 차트를 활용할 수 있습니다. x축과 y축의 변수가 같은 단위로 측정된 쌍을 이룬 데이터(paired data)의 경우, 보통 x=y 선을 추가하여 비교를 돕습니다(쌍을 이룬 데이터 장). 또한 두 지점을 직선으로 연결한 경사 그래프(slopegraph)로 쌍을 이룬 관계를 나타낼 수도 있습니다(쌍을 이룬 데이터 장).

데이터 포인트가 너무 많으면 산점도는 점들이 겹쳐서 정보를 파악하기 어려워질 수 있습니다. 이럴 때는 밀도 등고선, 2D 구간(binning), 또는 육각 구간(hex binning) 그림이 좋은 대안이 됩니다(중첩된 점 처리하기 장). 한편, 여러 변수 사이의 관계를 한꺼번에 보고 싶을 때는 원시 데이터 대신 상관 계수를 시각화한 상관도(correlogram)를 활용하기도 합니다(상관도 장).

x축이 시간이나 투여량처럼 순차적으로 늘어나는 값일 때는 대개 선 그래프를 그립니다(시계열 및 시간 흐름에 따른 데이터 시각화 장). 두 반응 변수 사이의 시간적 선후 관계를 보여주고 싶을 때는, 산점도 위에 인접한 시점의 데이터를 연결한 연결 산점도(connected scatter plot)를 사용할 수 있습니다(두 가지 반응 변수의 시계열 장). 대규모 데이터 세트의 전반적인 추세를 보여주려면 평활선(smooth line)을 활용합니다(추세 시각화하기 장).
지리 공간 데이터

지리 공간 데이터를 표시하는 주요 방법은 지도 형태입니다(챕터 지리 공간 데이터 시각화). 지도는 지구상의 좌표를 가져와 평평한 표면에 투영하여 지구상의 모양과 거리가 2D 표현의 모양과 거리로 대략적으로 표현되도록 합니다. 또한 데이터에 따라 해당 지역을 색칠하여 다른 지역의 데이터 값을 표시할 수 있습니다. 이러한 지도를 단계 구분도라고 합니다(챕터 ?sec-choropleth-mapping). 경우에 따라 다른 양(예: 인구 수)에 따라 다른 지역을 왜곡하거나 각 지역을 정사각형으로 단순화하는 것이 도움이 될 수 있습니다. 이러한 시각화를 카토그램이라고 합니다.
불확실성

오차 막대는 일부 추정치 또는 측정값에 대한 가능한 값의 범위를 나타냅니다. 추정치 또는 측정값을 나타내는 일부 참조점에서 수평 및/또는 수직으로 확장됩니다(챕터 불확실성 시각화하기). 참조점은 점이나 막대와 같은 다양한 방식으로 표시할 수 있습니다. 등급 오차 막대는 동시에 여러 범위를 표시하며 각 범위는 다른 신뢰도 수준에 해당합니다. 사실상 서로 다른 선 두께를 가진 여러 오차 막대를 서로 겹쳐 그린 것입니다.

오차 막대 또는 등급 오차 막대로 가능한 것보다 더 자세한 시각화를 얻으려면 실제 신뢰 구간 또는 사후 분포를 시각화할 수 있습니다(챕터 불확실성 시각화하기). 신뢰 구간은 불확실성에 대한 명확한 시각적 감각을 제공하지만 정확하게 읽기 어렵습니다. 눈 모양 그림과 반쪽 눈 모양 그림은 오차 막대와 분포 시각화 접근 방식(각각 바이올린 및 능선 그림)을 결합하여 일부 신뢰 수준에 대한 정확한 범위와 전체 불확실성 분포를 모두 보여줍니다. 분위수 점 그림은 불확실성 분포의 대안적인 시각화 역할을 할 수 있습니다(챕터 확률을 빈도로 구성하기). 분포를 이산 단위로 표시함으로써 분위수 점 그림은 바이올린 또는 능선 그림으로 표시되는 연속 분포만큼 정확하지는 않지만 읽기 더 쉬울 수 있습니다.

평활 선 그래프의 경우 오차 막대에 해당하는 것은 신뢰대입니다(챕터 곡선 적합의 불확실성 시각화). 주어진 신뢰 수준에서 선이 통과할 수 있는 값의 범위를 보여줍니다. 오차 막대의 경우와 마찬가지로 여러 신뢰 수준을 한 번에 표시하는 등급 신뢰대를 그릴 수 있습니다. 신뢰대 대신 또는 신뢰대에 추가하여 개별 적합된 추출을 표시할 수도 있습니다.