소개

데이터 시각화는 예술과 과학의 만남입니다. 가장 큰 과제는 과학적 정확성을 유지하면서도 예술적인 표현을 완벽하게 해내는 것, 그리고 그 반대의 균형을 맞추는 일입니다. 무엇보다 데이터 시각화는 정보를 정확하게 전달해야 합니다. 상대를 오도하거나 사실을 왜곡해서는 안 됩니다. 예를 들어 한 수치가 다른 수치보다 두 배 큼에도 불구하고 시각화에서는 비슷해 보인다면, 그 시각화는 실패한 것입니다. 동시에 데이터 시각화는 심미적으로도 만족스러워야 합니다. 보기 좋은 시각적 표현은 전달하려는 메시지를 강화해 줍니다. 그림에 거슬리는 색상을 사용하거나 시각적 요소의 균형이 맞지 않는 등 주의를 분산시키는 특징이 있다면, 독자가 그림을 자세히 살펴보고 정확하게 해석하는 데 방해가 됩니다.

저의 경험상 과학자들은 대체로 데이터를 크게 오도하지 않는 방식으로 시각화하는 법을 잘 알고 있습니다. (물론 항상 그런 것은 아니지만요!) 하지만 시각적 미학에 대한 감각이 충분히 발달하지 않아, 의도치 않게 전달하려는 메시지의 힘을 떨어뜨리는 시각적 선택을 하기도 합니다. 반면 디자이너들은 아름답게 보이지만 데이터를 가볍게 여기거나 느슨하게 다루는 시각화 자료를 만들곤 합니다. 저의 목표는 이 두 그룹 모두에게 유용한 정보를 제공하는 것입니다.

이 책은 출판물, 보고서 혹은 프레젠테이션을 위한 데이터 시각화에 필요한 주요 원칙과 방법, 그리고 개념들을 다룹니다. 데이터 시각화는 매우 광범위한 분야입니다. 넓게 보면 기술 설계도나 3D 애니메이션, 사용자 인터페이스 등 다양한 주제를 포함할 수 있기에, 이 책에서는 그 범위를 명확히 제한했습니다. 저는 특히 인쇄물, 온라인 문서 또는 발표용 슬라이드에서 쓰이는 정적(static) 시각화 사례를 중점적으로 다룹니다. 이 책에서는 불확실성 시각화를 다루는 장의 한 단락을 제외하면, 인터랙티브 시각 자료나 동영상 등은 다루지 않습니다. 따라서 이 책 전반에서 ‘시각화’와 ’그림(figure)’이라는 단어를 비슷한 의미로 섞어서 사용하겠습니다. 또한, 이 책은 특정 시각화 소프트웨어나 프로그래밍 라이브러리를 사용하여 그림을 그리는 방법은 직접적으로 가르쳐주지 않습니다. 대신 책 끝부분에 있는 ’주석이 달린 참고 문헌’ 섹션에서 관련 주제를 다루는 적절한 텍스트들을 소개합니다.

이 책은 총 세 부분으로 나뉩니다. 첫 번째 부분인 ‘데이터에서 시각화까지’에서는 막대 그래프, 산점도, 원형 차트 등 다양한 유형의 그래프와 차트를 설명합니다. 여기서는 시각화의 ’과학적 측면’을 강조합니다. 단순히 생각할 수 있는 모든 시각화 방식을 백과사전식으로 나열하기보다는, 논문 등에서 자주 접하거나 실제 작업에서 꼭 필요할 법한 핵심 시각화 기법들을 논의합니다. 이 부분을 구성할 때 단순히 데이터의 유형별로 나누기보다는 전달하고자 하는 ’메시지’의 유형에 따라 그룹화하려고 노력했습니다. 통계학 교재에서는 흔히 데이터 유형(연속 변수 하나, 이산 변수 하나, 연속 변수 두 개 등)에 따라 분석과 시각화를 설명하곤 합니다. 하지만 저는 이런 방식이 통계학자들에게만 유용하다고 생각합니다. 대다수 독자는 ’무엇이 얼마나 큰지’, ‘전체가 어떻게 구성되어 있는지’, ’서로 어떤 관련이 있는지’와 같은 메시지 관점에서 생각하기 때문입니다.

두 번째 부분인 ’그림 디자인의 원칙’에서는 데이터 시각화를 구성할 때 마주하는 다양한 디자인 문제를 다룹니다. 여기서는 주로 시각화의 ’심미적 측면’을 강조합니다. 데이터에 적합한 그래프 유형을 선택했다면, 그다음에는 색상, 기호, 글꼴 크기 등 시각적 요소들을 어떻게 배치할지 결정해야 합니다. 이러한 선택은 시각화 결과물이 얼마나 명확하고 우아해 보이는지에 결정적인 영향을 미칩니다. 두 번째 부분의 각 장에서는 실제 응용 과정에서 반복적으로 발생하는 가장 일반적인 문제들을 다룹니다.

세 번째 부분인 ’기타 주제’에서는 앞의 두 부분에서 다루지 못한 남은 이슈들을 정리합니다. 이미지와 그래프를 저장할 때 흔히 쓰이는 파일 형식을 논의하고, 시각화 소프트웨어 선택에 대한 저의 생각을 공유하며, 개별 그림을 더 큰 문서 맥락에 효과적으로 배치하는 방법을 설명합니다.

보기 흉하고, 나쁘고, 잘못된 그림

이 책 전반에 걸쳐 저는 같은 그림의 여러 버전을 제시할 것입니다. 어떤 것은 좋은 시각화의 예시이고, 어떤 것은 그렇지 못한 예시입니다. 어떤 사례를 따르고 어떤 사례를 피해야 할지 시각적으로 명확한 가이드를 제공하기 위해, 문제가 있는 그림에는 ‘보기 흉함(Ugly)’, ‘나쁨(Bad)’, ’잘못됨(Wrong)’이라는 라벨을 붙였습니다(그림 Figure 3.1).

  • 보기 흉함(Ugly): 미적인 결함은 있지만, 정보 자체는 명확하고 유익한 그림입니다.
  • 나쁨(Bad): 인지적인 측면에서 문제가 있는 그림입니다. 불분명하거나 혼란스럽고, 지나치게 복잡하거나 독자를 기만할 우려가 있습니다.
  • 잘못됨(Wrong): 수학적으로 문제가 있는 그림입니다. 객관적으로 정확하지 않습니다.

(ref:ugly-bad-wrong-examples) 보기 흉하고, 나쁘고, 잘못된 그림의 예시. (a) 세 가지 값(A = 3, B = 5, C = 4)을 보여주는 막대 그래프. 큰 결함이 없는 합리적인 시각화입니다. (b) (a)의 ‘보기 흉한’ 버전. 기술적으로는 정확하지만 심미적으로 조잡합니다. 색상이 너무 밝고 불필요하게 화려하며, 배경 격자가 지나치게 두드러집니다. 또한 텍스트에 세 가지 다른 글꼴과 크기가 사용되었습니다. (c) (a)의 ‘나쁜’ 버전. 각 막대가 서로 다른 y축 눈금을 사용하고 있습니다. 눈금이 일치하지 않아 독자를 오도할 위험이 큽니다. 세 수치가 실제보다 더 비슷한 것처럼 보입니다. (d) (a)의 ‘잘못된’ 버전. 명시적인 y축 눈금이 없어 막대가 나타내는 수치를 정확히 알 수 없습니다. 실제 수치는 3, 5, 4여야 하지만 막대의 길이는 1, 3, 2 정도로 보입니다.

Figure 3.1: (ref:ugly-bad-wrong-examples)

좋은 그림에는 명시적인 라벨을 붙이지 않았습니다. 즉, 결함이 있다고 표시되지 않은 그림은 최소한 수용 가능한 수준의 시각화라고 생각하시면 됩니다. 정보를 잘 전달하며 보기에도 좋아 그대로 인쇄해서 사용하기에 손색이 없는 그림들입니다. 물론 좋은 그림 사이에도 품질의 차이는 존재하며, 어떤 그림은 다른 그림보다 더 뛰어날 수 있습니다.

저는 대개 특정 라벨을 붙인 이유를 설명하겠지만, 일부는 취향의 영역일 수도 있습니다. 일반적으로 ‘보기 흉함’ 라벨은 ‘나쁨’이나 ’잘못됨’보다 조금 더 주관적입니다. 또한 ’보기 흉함’과 ’나쁨’ 사이의 경계가 모호할 때도 있습니다. 때로는 잘못된 디자인 선택이 독자의 인지를 심각하게 방해하여 ‘나쁨’ 급의 문제가 되기도 합니다. 아무쪼록 여러분이 이 책을 통해 자신만의 안목을 키우고, 저의 선택 또한 비판적으로 평가해 보시기를 권합니다.