중첩된 비율 시각화

이전 장에서는 정당, 회사 또는 건강 상태와 같은 하나의 범주형 변수로 정의된 조각으로 데이터 세트가 분할되는 시나리오에 대해 논의했습니다. 그러나 한 번에 여러 범주형 변수로 데이터 세트를 더 자세히 분석하려는 경우가 드물지 않습니다. 예를 들어 의회 의석의 경우 정당별 및 대표자 성별별 의석 비율에 관심이 있을 수 있습니다. 마찬가지로 사람들의 건강 상태의 경우 건강 상태가 결혼 상태별로 어떻게 더 세분화되는지 물어볼 수 있습니다. 저는 이러한 시나리오를 중첩된 비율이라고 부르는데, 추가하는 각 범주형 변수가 이전 비율 내에 중첩된 데이터의 더 미세한 하위 구분을 만들기 때문입니다. 이러한 중첩된 비율을 시각화하는 데 적합한 몇 가지 접근 방식이 있으며, 여기에는 모자이크 그림, 트리맵 및 병렬 집합이 포함됩니다.

잘못된 중첩 비율 시각화

먼저 중첩된 비율을 시각화하는 두 가지 잘못된 접근 방식을 보여주는 것으로 시작하겠습니다. 이러한 접근 방식은 숙련된 데이터 과학자에게는 터무니없어 보일 수 있지만 실제로는 본 적이 있으므로 논의할 가치가 있다고 생각합니다. 이 장 전체에서 저는 피츠버그의 106개 다리에 대한 데이터 세트를 사용할 것입니다. 이 데이터 세트에는 건설 자재(강철, 철 또는 목재) 및 건설 연도와 같은 다리에 대한 다양한 정보가 포함되어 있습니다. 건설 연도에 따라 다리는 1870년 이전에 건설된 공예 다리와 1940년 이후에 건설된 현대 다리와 같이 뚜렷한 범주로 그룹화됩니다.

강철, 철 또는 목재로 만들어진 다리의 비율과 공예 또는 현대 다리의 비율을 모두 시각화한다고 가정해 보겠습니다. 결합된 원형 차트를 그려 그렇게 하고 싶을 수 있습니다(그림 Figure 13.1). 그러나 이 시각화는 유효하지 않습니다. 원형 차트의 모든 조각은 100%가 되어야 하지만 여기서는 조각이 135%가 됩니다. 데이터 세트의 모든 다리가 강철, 철 또는 목재로 만들어졌기 때문에 이 세 조각의 파이는 이미 다리의 100%를 나타냅니다. 모든 공예 또는 현대 다리는 강철, 철 또는 목재 다리이기도 하므로 원형 차트에서 두 번 계산됩니다.

(ref:bridges-pie-wrong) 건설 자재(강철, 목재, 철) 및 건설 날짜(공예, 1870년 이전, 현대, 1940년 이후)별 피츠버그 다리 분석, 원형 차트로 표시. 숫자는 전체 다리 중 해당 유형의 다리 비율을 나타냅니다. 이 그림은 백분율이 100%를 초과하므로 유효하지 않습니다. 건설 자재와 건설 날짜 사이에 중복이 있습니다. 예를 들어 모든 현대 다리는 강철로 만들어졌으며 대부분의 공예 다리는 목재로 만들어졌습니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

비율이 100%가 되지 않아도 되는 시각화를 선택하면 이중 계산이 반드시 문제가 되지는 않습니다. 이전 장에서 논의했듯이 나란히 놓인 막대는 이 기준을 충족합니다. 다리의 다양한 비율을 단일 플롯의 막대로 표시할 수 있으며 이 플롯은 기술적으로 잘못된 것은 아닙니다(그림 Figure 13.2). 그럼에도 불구하고 표시된 일부 범주 간에 중복이 있음을 즉시 보여주지 않기 때문에 “나쁨”으로 표시했습니다. 부주의한 관찰자는 그림 ?fig-bridges-bars-bad에서 5개의 개별 다리 범주가 있으며 예를 들어 현대 다리는 강철, 목재 또는 철로 만들어지지 않았다고 결론을 내릴 수 있습니다.

(ref:bridges-bars-bad) 건설 자재(강철, 목재, 철) 및 건설 날짜(공예, 1870년 이전, 현대, 1940년 이후)별 피츠버그 다리 분석, 막대 그래프로 표시. 그림 ?fig-bridges-pie-wrong과 달리 이 시각화는 막대 높이가 100%가 되어야 한다는 것을 의미하지 않으므로 기술적으로 잘못된 것은 아닙니다. 그러나 여러 그룹 간의 중복을 명확하게 나타내지 않으므로 “나쁨”으로 표시했습니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

모자이크 그림과 트리맵

범주가 겹치는 경우 서로 어떻게 관련되는지 명확하게 보여주는 것이 가장 좋습니다. 이는 모자이크 그림으로 수행할 수 있습니다(그림 Figure 13.3). 언뜻 보기에 모자이크 그림은 누적 막대 그래프와 유사해 보입니다(예: 그림 Figure 12.5). 그러나 누적 막대 그래프와 달리 모자이크 그림에서는 개별 음영 영역의 높이와 너비가 모두 다릅니다. 그림 ?fig-bridges-mosaic에서는 두 가지 추가 건설 시대인 신흥기(1870년~1889년)와 성숙기(1890년~1939년)를 볼 수 있습니다. 공예 및 현대와 결합하여 이러한 건설 시대는 세 가지 건축 자재와 마찬가지로 데이터 세트의 모든 다리를 포함합니다. 이것은 모자이크 그림의 중요한 조건입니다. 표시된 모든 범주형 변수는 데이터 세트의 모든 관찰을 포함해야 합니다.

(ref:bridges-mosaic) 건설 자재(강철, 목재, 철) 및 건설 시대(공예, 신흥, 성숙, 현대)별 피츠버그 다리 분석, 모자이크 그림으로 표시. 각 사각형의 너비는 해당 시대에 건설된 다리 수에 비례하고 높이는 해당 자재로 건설된 다리 수에 비례합니다. 숫자는 각 범주 내 다리 수를 나타냅니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

모자이크 그림을 그리려면 먼저 하나의 범주형 변수(x 축, 여기서는 다리 건설 시대)를 배치하고 범주를 구성하는 상대적 비율에 따라 x 축을 세분화합니다. 그런 다음 다른 범주형 변수(y 축, 여기서는 건축 자재)를 배치하고 x 축의 각 범주 내에서 y 변수의 범주를 구성하는 상대적 비율에 따라 y 축을 세분화합니다. 결과는 두 범주형 변수의 가능한 각 조합을 나타내는 사례 수에 비례하는 면적을 가진 사각형 집합입니다.

피츠버그 다리 데이터 세트는 트리맵이라는 관련 있지만 별개의 형식으로도 시각화할 수 있습니다. 트리맵에서는 모자이크 그림의 경우와 마찬가지로 둘러싸는 사각형을 가져와 면적이 비율을 나타내는 더 작은 사각형으로 세분화합니다. 그러나 더 작은 사각형을 더 큰 사각형에 배치하는 방법은 모자이크 그림과 다릅니다. 트리맵에서는 사각형을 재귀적으로 중첩합니다. 예를 들어 피츠버그 다리의 경우 먼저 총 면적을 세 가지 건축 자재인 목재, 철, 강철을 나타내는 세 부분으로 세분화할 수 있습니다. 그런 다음 각 건축 자재에 대해 표시되는 건설 시대를 나타내기 위해 해당 영역을 각각 더 세분화합니다(그림 Figure 13.4). 원칙적으로 점점 더 작은 하위 구분을 서로 중첩하여 계속 진행할 수 있지만 비교적 빨리 결과가 다루기 어렵거나 혼란스러워질 수 있습니다.

(ref:bridges-treemap) 건설 자재(강철, 목재, 철) 및 건설 시대(공예, 신흥, 성숙, 현대)별 피츠버그 다리 분석, 트리맵으로 표시. 각 사각형의 면적은 해당 유형의 다리 수에 비례합니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

모자이크 그림과 트리맵은 밀접하게 관련되어 있지만 강조점과 적용 분야가 다릅니다. 여기서 모자이크 그림(그림 Figure 13.3)은 공예 시대부터 현대 시대까지 건축 자재 사용의 시간적 진화를 강조하는 반면 트리맵(그림 Figure 13.4)은 강철, 철, 목재 다리의 총 수를 강조합니다.

더 일반적으로 모자이크 그림은 표시된 모든 비율이 두 개 이상의 직교 범주형 변수의 조합을 통해 식별될 수 있다고 가정합니다. 예를 들어 그림 ?fig-bridges-mosaic에서 모든 다리는 건축 자재(목재, 철, 강철) 선택과 기간(공예, 신흥, 성숙, 현대) 선택으로 설명할 수 있습니다. 또한 원칙적으로 이러한 두 변수의 모든 조합이 가능하지만 실제로는 그렇지 않을 수도 있습니다. (여기서는 강철 공예 다리가 없고 목재 또는 철 현대 다리가 없습니다.) 반대로 트리맵에는 이러한 요구 사항이 없습니다. 실제로 트리맵은 비율을 여러 범주형 변수를 결합하여 의미 있게 설명할 수 없는 경우에 잘 작동하는 경향이 있습니다. 예를 들어 미국을 4개 지역(서부, 북동부, 중서부, 남부)으로 나누고 각 지역을 개별 주로 나눌 수 있지만 한 지역의 주는 다른 지역의 주와 아무런 관련이 없습니다(그림 Figure 13.5).

(ref:US-states-treemap) 트리맵으로 시각화된 미국의 주. 각 사각형은 하나의 주를 나타내며 각 사각형의 면적은 해당 주의 육지 면적에 비례합니다. 주는 서부, 북동부, 중서부, 남부의 4개 지역으로 그룹화됩니다. 색칠은 각 주의 주민 수에 비례하며 어두운 색일수록 주민 수가 많음을 나타냅니다. 데이터 출처: 2010년 미국 인구 조사

모자이크 그림과 트리맵은 모두 일반적으로 사용되며 조명 효과를 줄 수 있지만 누적 막대와 유사한 한계가 있습니다(챕터 Table 12.1). 여러 사각형이 시각적 비교를 가능하게 하는 기준선을 공유하지 않기 때문에 조건 간의 직접적인 비교가 어려울 수 있습니다. 모자이크 그림이나 트리맵에서는 여러 사각형의 모양이 다를 수 있다는 사실로 인해 이 문제가 더욱 악화됩니다. 예를 들어 신흥 다리와 성숙 다리에는 동일한 수의 철 다리(3개)가 있지만 두 사각형이 이러한 두 그룹의 3개 다리를 나타내는 모양이 완전히 다르기 때문에 모자이크 그림(그림 Figure 13.3)에서 이를 식별하기 어렵습니다. 이 문제에 대한 해결책이 반드시 있는 것은 아닙니다. 중첩된 비율을 시각화하는 것은 까다로울 수 있습니다. 가능하면 독자가 음영 처리된 영역에 대한 직관적인 해석이 올바른지 확인할 수 있도록 플롯에 실제 개수나 백분율을 표시하는 것이 좋습니다.

중첩된 원형 차트

이 장의 시작 부분에서 저는 결함이 있는 원형 차트(그림 Figure 13.1)로 다리 데이터 세트를 시각화한 다음 모자이크 그림이나 트리맵이 더 적절하다고 주장했습니다. 그러나 이러한 후자의 플롯 유형은 모두 면적을 사용하여 데이터 값을 나타내므로 원형 차트와 밀접하게 관련되어 있습니다. 주요 차이점은 원형 차트의 경우 극좌표, 모자이크 그림이나 트리맵의 경우 데카르트 좌표와 같은 좌표계 유형입니다. 이러한 여러 플롯 간의 이러한 밀접한 관계는 이 데이터 세트를 시각화하는 데 원형 차트의 일부 변형을 사용할 수 있는지 여부에 대한 의문을 제기합니다.

두 가지 가능성이 있습니다. 첫째, 내부 원과 외부 원으로 구성된 원형 차트를 그릴 수 있습니다(그림 Figure 13.6). 내부 원은 하나의 변수(여기서는 건축 자재)별 데이터 분석을 보여주고 외부 원은 내부 원의 각 조각을 두 번째 변수(여기서는 다리 건설 시대)별로 분석한 결과를 보여줍니다. 이 시각화는 합리적이지만 저는 유보적인 입장이므로 “못생김”으로 표시했습니다. 가장 중요한 것은 두 개의 개별 원이 데이터 세트의 각 다리가 건축 자재와 다리 건설 시대를 모두 가지고 있다는 사실을 모호하게 만든다는 것입니다. 사실상 그림 ?fig-bridges-nested-pie에서는 여전히 각 다리를 이중으로 계산하고 있습니다. 두 원에 표시된 모든 숫자를 더하면 212가 되는데, 이는 데이터 세트의 다리 수의 두 배입니다.

(ref:bridges-nested-pie) 건설 자재(강철, 목재, 철, 내부 원) 및 건설 시대(공예, 신흥, 성숙, 현대, 외부 원)별 피츠버그 다리 분석. 숫자는 각 범주 내 다리 수를 나타냅니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

또는 먼저 하나의 변수(예: 재료)에 따라 비율을 나타내는 조각으로 파이를 자른 다음 다른 변수(건설 시대)에 따라 이러한 조각을 더 세분화할 수 있습니다(그림 Figure 13.7). 이러한 방식으로 사실상 많은 작은 파이 조각으로 구성된 일반적인 원형 차트를 만듭니다. 그러나 그런 다음 색칠을 사용하여 파이의 중첩된 특성을 나타낼 수 있습니다. 그림 ?fig-bridges-nested-pie2에서 녹색은 목재 다리, 주황색은 철 다리, 파란색은 강철 다리를 나타냅니다. 각 색상의 어두움은 건설 시대를 나타내며 어두운 색일수록 최근에 건설된 다리에 해당합니다. 이러한 방식으로 중첩된 색상 척도를 사용하면 기본 변수(건축 자재)와 보조 변수(건설 시대)별로 데이터 분석을 시각화할 수 있습니다.

(ref:bridges-nested-pie2) 건설 자재(강철, 목재, 철) 및 건설 시대(공예, 신흥, 성숙, 현대)별 피츠버그 다리 분석. 숫자는 각 범주 내 다리 수를 나타냅니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

그림 ?fig-bridges-nested-pie2의 원형 차트는 다리 데이터 세트의 합리적인 시각화를 나타내지만 동등한 트리맵(그림 Figure 13.4)과 직접 비교하면 트리맵이 더 바람직하다고 생각합니다. 첫째, 트리맵의 직사각형 모양은 사용 가능한 공간을 더 잘 활용할 수 있도록 합니다. 그림 ?fig-bridges-treemap과 ?fig-bridges-nested-pie2는 정확히 같은 크기이지만 그림 ?fig-bridges-nested-pie2에서는 그림의 많은 부분이 공백으로 낭비됩니다. 그림 ?fig-bridges-treemap인 트리맵에는 불필요한 공백이 거의 없습니다. 이는 트리맵의 음영 처리된 영역 내에 레이블을 배치할 수 있게 해주기 때문에 중요합니다. 내부 레이블은 항상 외부 레이블보다 데이터와 더 강력한 시각적 단위를 만들므로 선호됩니다. 둘째, 그림 ?fig-bridges-nested-pie2의 일부 파이 조각은 매우 얇아서 보기 어렵습니다. 반대로 그림 ?fig-bridges-treemap의 모든 사각형은 합리적인 크기입니다.

병렬 집합

두 개 이상의 범주형 변수로 설명되는 비율을 시각화하려는 경우 모자이크 그림, 트리맵, 원형 차트 모두 빠르게 다루기 어려워질 수 있습니다. 이 경우 실행 가능한 대안은 병렬 집합 그림일 수 있습니다. 병렬 집합 그림에서는 전체 데이터 세트가 각 개별 범주형 변수별로 어떻게 분류되는지 보여준 다음 하위 그룹이 서로 어떻게 관련되는지 보여주는 음영 처리된 띠를 그립니다. 예를 들어 그림 ?fig-bridges-parallel-sets1을 참조하십시오. 이 그림에서는 건설 자재(철, 강철, 목재), 각 다리의 길이(장, 중, 단), 각 다리가 건설된 시대(공예, 신흥, 성숙, 현대), 각 다리가 가로지르는 강(앨러게니, 모논가헬라, 오하이오)별로 다리 데이터 세트를 분류했습니다. 병렬 집합을 연결하는 띠는 건설 자재별로 색상이 지정됩니다. 예를 들어 목재 다리는 대부분 중간 길이(짧은 다리 몇 개 포함)이며 주로 공예 시대에 건설되었으며(신흥 및 성숙 시대에 건설된 중간 길이의 다리 몇 개 포함) 주로 앨러게니 강을 가로지릅니다(모논가헬라 강을 가로지르는 공예 다리 몇 개 포함). 반대로 철 다리는 모두 중간 길이이며 주로 공예 시대에 건설되었으며 앨러게니 강과 모논가헬라 강을 거의 같은 비율로 가로지릅니다.

(ref:bridges-parallel-sets1) 건설 자재, 길이, 건설 시대, 가로지르는 강별 피츠버그 다리 분석, 병렬 집합 그림으로 표시. 띠의 색칠은 여러 다리의 건설 자재를 강조 표시합니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

Figure 13.8: (ref:bridges-parallel-sets1)

강별로 색칠하는 등 다른 기준으로 색칠하면 동일한 시각화가 상당히 다르게 보입니다(그림 Figure 13.9). 이 그림은 교차하는 띠가 많아 시각적으로 복잡하지만 거의 모든 유형의 다리가 각 강을 가로지르는 것을 볼 수 있습니다.

(ref:bridges-parallel-sets2) 건설 자재, 길이, 건설 시대, 가로지르는 강별 피츠버그 다리 분석. 이 그림은 그림 ?fig-bridges-parallel-sets1과 유사하지만 이제 띠의 색칠은 여러 다리가 가로지르는 강을 강조 표시합니다. 이 그림은 그림 중앙의 색칠된 띠 배열이 매우 복잡하고 띠를 오른쪽에서 왼쪽으로 읽어야 하기 때문에 “못생김”으로 표시되었습니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

Figure 13.9: (ref:bridges-parallel-sets2)

그림 ?fig-bridges-parallel-sets2가 지나치게 복잡하고 혼란스럽다고 생각하여 “못생김”으로 표시했습니다. 첫째, 왼쪽에서 오른쪽으로 읽는 데 익숙하므로 색칠을 정의하는 집합이 오른쪽이 아니라 맨 왼쪽에 나타나야 한다고 생각합니다. 이렇게 하면 색칠이 어디에서 시작되고 데이터 세트를 통해 어떻게 흐르는지 더 쉽게 알 수 있습니다. 둘째, 교차하는 띠의 양을 최소화하도록 집합의 순서를 변경하는 것이 좋습니다. 이러한 원칙을 따르면 그림 ?fig-bridges-parallel-sets2보다 선호하는 그림 ?fig-bridges-parallel-sets3에 도달합니다.

(ref:bridges-parallel-sets3) 강, 건설 시대, 길이, 건설 자재별 피츠버그 다리 분석. 이 그림은 병렬 집합의 순서만 그림 ?fig-bridges-parallel-sets2와 다릅니다. 그러나 수정된 순서는 읽기 쉽고 덜 복잡한 그림을 만듭니다. 데이터 출처: 요람 라이히 및 스티븐 J. 펜베스, UCI 머신 러닝 저장소 경유(Dua and Karra Taniskidou 2017)

Figure 13.10: (ref:bridges-parallel-sets3)

Dua, D., and E. Karra Taniskidou. 2017. “UCI Machine Learning Repository.” University of California, Irvine, School of Information; Computer Sciences. https://archive.ics.uci.edu/ml.