색상 척도

데이터 시각화에서 색상을 사용하는 경우는 크게 세 가지로 나뉩니다. 첫째, 데이터 그룹을 서로 구별하기 위해 사용합니다. 둘째, 데이터의 수치 값을 나타내기 위해 사용합니다. 셋째, 특정 부분을 강조하기 위해 사용합니다. 이 세 가지 목적에 따라 선택해야 할 색상의 종류와 활용 방식은 크게 달라집니다.

지도상의 국가나 제품의 제조사처럼 본질적인 순서가 없는 개별 항목이나 그룹을 구분할 때 색상을 자주 활용합니다. 이때는 범주형(qualitative) 색상 척도를 사용합니다. 이 척도는 서로 명확히 구분되면서도, 시각적 무게감은 비슷하게 느껴지도록 설계된 몇 가지 색상으로 구성됩니다. 중요한 점은 특정 색상이 다른 색상보다 유독 눈에 띄어서는 안 된다는 것입니다. 또한 명도가 점진적으로 변하는 등의 방식을 피해서, 데이터 사이에 존재하지도 않는 순서가 있는 것처럼 오해를 불러일으키지 않아야 합니다.

시중에는 이미 잘 설계된 범주형 색상 척도가 많이 나와 있습니다. 그림 ?fig-qualitative-scales에 세 가지 대표적인 사례가 있습니다. 특히 ColorBrewer 프로젝트에서는 밝기나 채도를 고려한 다양한 범주형 색상 척도를 제공합니다(Brewer 2017).

(ref:qualitative-scales) 대표적인 범주형 색상 척도. 오카베 이토(Okabe-Ito) 척도는 본 도서에서 기본으로 사용하는 척도입니다(Okabe and Ito 2008). ColorBrewer Dark2는 ColorBrewer 프로젝트에서 제공하는 척도이며(Brewer 2017), ggplot2 색조(hue) 척도는 시각화 도구인 ggplot2의 기본 설정값입니다.

Figure 6.1: (ref:qualitative-scales)

범주형 색상 척도를 활용한 예로 그림 ?fig-popgrowth-US를 살펴봅시다. 2000년부터 2010년까지 미국의 주별 인구 증가율을 보여주는 그래프입니다. 주들을 증가율 순서대로 정렬하고, 각 주가 속한 지리적 권역별로 색상을 입혔습니다. 이렇게 하면 같은 권역에 속한 주들이 비슷한 인구 증가 추세를 보였다는 점이 눈에 띕니다. 서부와 남부 지역은 인구가 크게 늘어난 반면, 중서부와 북동부 지역은 성장세가 훨씬 더뎠음을 알 수 있습니다.

(ref:popgrowth-US) 2000년부터 2010년까지 미국의 인구 증가율. 서부와 남부 지역의 주들이 큰 성장세를 보인 반면, 중서부와 북동부 지역은 성장이 더디거나 미시간주처럼 인구가 줄어든 곳도 있습니다. 데이터 출처: 미국 인구조사국

Figure 6.2: (ref:popgrowth-US)

소득, 기온, 속도와 같은 수치형 데이터를 표현할 때도 색상을 사용합니다. 이때는 순차적(sequential) 색상 척도를 씁니다. 순차적 척도는 (i) 어떤 값이 더 크고 작은지, (ii) 두 값의 차이가 얼마나 나는지를 시각적으로 명확히 전달해야 합니다. 즉, 색상의 변화가 전체 범위에 걸쳐 인지적으로 균일하게 느껴져야 합니다.

순차적 척도는 단색(예: 짙은 파랑에서 밝은 파랑으로)으로 만들 수도 있고, 여러 색(예: 짙은 빨강에서 밝은 노랑으로)을 섞어서 만들 수도 있습니다(그림 Figure 6.3). 다중 색상 척도는 대개 자연계에서 볼 수 있는 색 변화(예: 짙은 빨강/초록/파랑에서 밝은 노랑으로, 혹은 짙은 보라에서 밝은 초록으로)를 따릅니다. 반대로 짙은 노랑에서 밝은 파랑으로 변하는 식의 조합은 부자연스러울 뿐만 아니라 정보를 효과적으로 전달하지 못합니다.

(ref:sequential-scales) 순차적 색상 척도의 예시. ColorBrewer Blues는 짙은 파랑에서 밝은 파랑으로 이어지는 단색 척도입니다. Heat와 Viridis는 각각 짙은 빨강에서 밝은 노랑으로, 짙은 파랑에서 초록을 거쳐 밝은 노랑으로 변하는 다중 색상 척도입니다.

Figure 6.3: (ref:sequential-scales)

수치를 색상으로 표현하는 것은 특히 지리적 위치에 따른 데이터 변화를 보여줄 때 효과적입니다. 지도상의 각 지역을 데이터 값에 맞게 색칠하는 방식인데, 이를 단계 구분도(choropleth map)라고 부릅니다. 그림 ?fig-map-Texas-income은 텍사스주 각 카운티의 가구당 연간 소득 중앙값을 지도로 나타낸 예시입니다.

(ref:map-Texas-income) 텍사스 카운티의 연간 중간 소득. 가장 높은 중간 소득은 주요 텍사스 대도시 지역, 특히 휴스턴과 댈러스 근처에서 나타납니다. 서부 텍사스의 러빙 카운티에 대한 중간 소득 추정치는 없으므로 해당 카운티는 회색으로 표시됩니다. 데이터 출처: 2015년 5개년 미국 지역사회 조사

Figure 6.4: (ref:map-Texas-income)

때로는 중립적인 기준점을 중심으로 양방향으로 벌어지는 데이터의 편차를 시각화해야 할 때가 있습니다. 가장 단순한 예는 양수와 음수가 섞여 있는 데이터입니다. 특정 값이 양수인지 음수인지, 그리고 0에서 어느 쪽으로 얼마나 떨어져 있는지를 한눈에 보여주고 싶을 것입니다. 이때 적합한 것이 발산형(diverging) 색상 척도입니다. 발산형 척도는 보통 밝은색인 중앙 지점을 기준으로 두 개의 순차적 척도를 양옆으로 이어 붙인 형태라고 볼 수 있습니다(그림 Figure 6.5). 발산형 척도는 대칭과 균형이 중요합니다. 중앙의 밝은색에서 양 끝의 짙은 색으로 변하는 정도가 양쪽 모두 비슷해야 독자가 데이터의 크기를 왜곡 없이 받아들일 수 있습니다.

(ref:diverging-scales) 발산형 색상 척도의 예시. 공통된 중간색을 중심으로 두 개의 순차적 척도가 연결된 형태입니다. 갈색-청록색, 분홍-연두색, 파랑-빨강 조합이 흔히 쓰입니다.

Figure 6.5: (ref:diverging-scales)

발산형 척도를 적용한 사례로 그림 ?fig-map-Texas-race를 봅시다. 텍사스주 각 카운티에서 백인이라고 답한 인구의 비율을 보여줍니다. 비율은 항상 양수이지만, 여기서는 50%를 중간 기준으로 삼는 것이 의미가 있습니다. 50%보다 높으면 백인이 다수임을, 낮으면 소수임을 뜻하게 되죠. 이 지도를 통해 백인이 다수인 곳과 소수인 곳, 그리고 비율이 엇비슷한 지역을 명확히 구분할 수 있습니다.

(ref:map-Texas-race) 텍사스주 각 카운티에서 백인이라고 답한 인구의 비율. 백인은 북부와 동부 텍사스에서 다수이지만, 남부나 서부 텍사스에서는 그렇지 않습니다. 데이터 출처: 2010년 미국 인구조사

Figure 6.6: (ref:map-Texas-race)

색상은 데이터의 특정 요소를 부각할 때도 매우 유용합니다. 전체 데이터 중에서 우리가 하려는 이야기의 핵심이 되는 범주나 값이 있을 때, 이를 강조해서 보여주면 설득력이 높아집니다. 나머지 부분에는 차분한 색을 쓰고 강조하고 싶은 요소에만 강렬하고 채도가 높은 색을 입히는 방식인데, 이를 강조(accent) 색상 척도라고 합니다(그림 Figure 6.7).

(ref:accent-scales) 강조 색상 척도의 예시. 각 척도는 4개의 기본색과 3개의 강조색으로 구성되어 있습니다. 강조 척도를 만드는 방법은 여러 가지입니다. (위) 오카베 이토 같은 기존 척도에서 몇몇 색을 밝게 하거나 채도를 낮추고, 나머지는 어둡게 보정합니다. (중간) 회색 톤에 원색 계열을 섞습니다. (아래) ColorBrewer에서 제공하는 강조 전용 척도를 활용합니다.

Figure 6.7: (ref:accent-scales)

색상 활용 방식에 따라 같은 데이터로도 전혀 다른 이야기를 할 수 있습니다. 그림 ?fig-popgrowth-US-highlight는 앞서 본 인구 증가율 그래프를 변형하여 텍사스와 루이지애나 두 주를 강조한 것입니다. 두 주는 남부 지역에서 서로 이웃하고 있지만, 텍사스는 미국에서 5번째로 빠르게 성장한 반면 루이지애나는 같은 기간 3번째로 낮은 성장률을 기록했습니다. 색상 강조를 통해 이 극명한 대비가 한눈에 들어옵니다.

(ref:popgrowth-US-highlight) 2000년부터 2010년까지 이웃한 남부 주인 텍사스와 루이지애나는 미국 전역에서 가장 높은 인구 증가율과 가장 낮은 인구 증가율을 경험했습니다. 데이터 출처: 미국 인구 조사국

Figure 6.8: (ref:popgrowth-US-highlight)

강조 색상을 쓸 때는 기본이 되는 색들이 시선을 분산시키지 않도록 죽여주는 것이 중요합니다. 그림 ?fig-popgrowth-US-highlight에서 바탕이 되는 색들이 얼마나 차분한지 확인해 보세요. 덕분에 강조된 부분이 명확히 살아납니다. 강조하려는 대상 외의 나머지 부분에도 화려한 색을 입히면 독자의 주의력이 흩어지는 결과가 초래됩니다. 가장 확실한 해결 방법은 강조할 지점 외의 모든 요소에서 색을 완전히 빼버리는 것입니다. 그림 ?fig-Aus-athletes-track이 좋은 예시입니다.

(ref:Aus-athletes-track) 육상 선수는 인기 있는 스포츠에 참여하는 남자 프로 선수 중 가장 키가 작고 마른 편에 속합니다. 데이터 출처: Telford and Cunningham (1991)

Figure 6.9: (ref:Aus-athletes-track)
Brewer, Cynthia A. 2017. “ColorBrewer 2.0. Color Advice for Cartography.” http://www.ColorBrewer.org.
Okabe, M., and K. Ito. 2008. Color Universal Design (CUD): How to Make Figures and Presentations That Are Friendly to Colorblind People.” http://jfly.iam.u-tokyo.ac.jp/color/.
Telford, R. D., and R. B. Cunningham. 1991. “Sex, Sport, and Body-Size Dependency of Hematology in Highly Trained Athletes.” Medicine and Science in Sports and Exercise 23: 788–94.