불확실성 시각화하기

데이터 시각화에서 가장 까다로운 부분 중 하나는 불확실성(uncertainty)을 보여주는 일입니다. 사람들은 그래프에 점이 찍혀 있으면 그 값이 절대적인 진실이라고 믿는 경향이 있습니다. 그 점이 실제로는 그 근처 어디쯤일 수도 있다는 사실을 상상하기란 쉽지 않죠. 하지만 우리가 다루는 거의 모든 데이터에는 어느 정도의 불확실성이 섞여 있습니다. 이 불확실성을 어떻게, 얼마나 보여주느냐에 따라 독자가 데이터의 의미를 받아들이는 방식은 완전히 달라집니다.

불확실성을 나타낼 때 과학계에서 흔히 쓰는 방식은 오차 막대(error bars)나 신뢰대(confidence bands)입니다. 공간을 적게 차지하면서도 수치를 정확히 전달하지만, 비전문가가 직관적으로 이해하기에는 문턱이 높습니다. 반면 대중을 위한 시각화에서는 여러 가능한 시나리오를 구체적으로 보여주거나(빈도 프레이밍), 애니메이션으로 가능한 결과들을 번갈아 보여주는 방식이 더 효과적일 때가 많습니다. 비록 수치적 정확도는 조금 떨어지더라도, 불확실성이라는 개념 자체를 훨씬 강렬하게 전달할 수 있기 때문입니다.

확률을 빈도로 구성하기

불확실성을 어떻게 시각화할지 고민하기 전에, 먼저 불확실성이 무엇인지부터 짚어봅시다. 미래에 일어날 일로 생각하면 쉽습니다. 동전을 던질 때 결과가 어떻게 나올지 미리 알 수 없는 것이 바로 불확실성입니다. 하지만 과거의 일이라도 모를 수 있습니다. 어제 아침 8시에는 차가 있었는데 오후 4시에는 없었다면, 그사이 언제쯤 차가 떠났다는 것만 알 뿐 정확한 시간(8시 1분인지, 낮 12시인지)은 알 수 없는 것과 같습니다.

수학에서는 이 불확실성을 다루기 위해 확률을 씁니다. 확률의 정의는 복잡하지만, 실질적으로는 상대적 빈도로 생각하면 충분합니다. 10%의 확률이란, 수많은 시도를 반복했을 때 10번 중 1번꼴로 성공한다는 뜻입니다.

문제는 ’단일한 숫자’로서의 확률을 시각화하기가 무척 어렵다는 점입니다. 복권 당첨 확률을 막대그래프로 그린들, 독자가 그 수치를 체감하기는 힘듭니다. 전문가가 아닌 이상 확률 숫자가 실생활에서 어떤 의미인지 직관적으로 와닿지 않기 때문입니다.

이를 해결하는 한 방법이 무작위로 색칠된 칸들을 보여주는 것입니다(그림 Figure 18.1). 1%, 10%, 40% 확률을 각각 100개의 칸 중 몇 개가 칠해졌는지로 보여주면, 독자는 “아, 1%는 정말 뽑기 힘들겠구나” 혹은 “40% 정도면 해볼 만하겠는데?” 하고 직관적으로 느낍니다. 이런 방식을 이산 결과 시각화(discrete outcome visualization) 또는 빈도 프레이밍(frequency framing)이라고 합니다. 확률이라는 추상적인 개념을 ’몇 번 중 몇 번’이라는 구체적인 횟수(빈도)로 바꾸어 보여주는 것입니다.

(ref:probability-waffle) 빈도로서의 확률 시각화. 각 격자에는 100개의 정사각형이 있으며 각 정사각형은 어떤 무작위 시행에서 성공 또는 실패를 나타냅니다. 1% 성공 확률은 어두운 정사각형 1개와 밝은 정사각형 99개에 해당하고, 10% 성공 확률은 어두운 정사각형 10개와 밝은 정사각형 90개에 해당하며, 40% 성공 확률은 어두운 정사각형 40개와 밝은 정사각형 60개에 해당합니다. 밝은 정사각형 사이에 어두운 정사각형을 무작위로 배치함으로써 단일 시행 결과의 불확실성을 강조하는 무작위성의 시각적 인상을 만들 수 있습니다.

성공 또는 실패라는 두 가지 이산적인 결과에만 관심이 있다면 그림 ?fig-probability-waffle과 같은 시각화가 잘 작동합니다. 그러나 무작위 시행의 결과가 수치 변수인 더 복잡한 시나리오를 다루는 경우가 많습니다. 일반적인 시나리오 중 하나는 선거 예측이며, 여기서 누가 이길 뿐만 아니라 얼마나 많은 차이로 이길 것인지에 관심이 있습니다. 노란색 정당과 파란색 정당이라는 두 정당이 있는 가상의 다가오는 선거 예를 생각해 보겠습니다. 라디오에서 파란색 정당이 노란색 정당보다 1% 포인트 우세할 것으로 예측되며 오차 범위는 1.76% 포인트라고 들었다고 가정해 보겠습니다. 이 정보는 선거의 가능한 결과에 대해 무엇을 알려줍니까? “파란색 정당이 이길 것이다”라고 듣는 것은 인간의 본성이지만 현실은 더 복잡합니다. 첫째, 가장 중요한 것은 다양한 가능한 결과 범위가 있다는 것입니다. 파란색 정당이 2% 포인트 차이로 이기거나 노란색 정당이 0.5% 포인트 차이로 이길 수 있습니다. 관련 가능성이 있는 가능한 결과 범위는 확률 분포라고 하며 가능한 결과 범위에 걸쳐 상승했다가 하강하는 부드러운 곡선으로 그릴 수 있습니다(그림 Figure 18.2). 특정 결과에 대한 곡선이 높을수록 해당 결과가 더 가능성이 높습니다. 확률 분포는 챕터 ?sec-histograms-density-plots에서 논의된 히스토그램 및 커널 밀도와 밀접하게 관련되어 있으므로 해당 장을 다시 읽어 기억을 되살리는 것이 좋습니다.

(ref:election-prediction) 가상 선거 결과 예측. 파란색 정당은 노란색 정당보다 약 1% 포인트 우세할 것으로 예측되지만(“최적 추정치”로 표시됨) 해당 예측에는 오차 범위가 있습니다(여기서는 가능한 결과의 95%를 포함하도록 그려졌으며 최적 추정치에서 양방향으로 1.76% 포인트). 파란색으로 음영 처리된 영역은 전체의 87.1%에 해당하며 파란색이 이기는 모든 결과를 나타냅니다. 마찬가지로 노란색으로 음영 처리된 영역은 전체의 12.9%에 해당하며 노란색이 이기는 모든 결과를 나타냅니다. 이 예에서 파란색은 선거에서 이길 확률이 87%입니다.

계산해보면 노란색 정당이 이길 확률은 12.9%입니다. 앞서 본 10% 확률 시나리오보다 조금 나은 셈이죠. 파란색 정당 지지자라면 안심할 수도 있겠지만, 노란색 정당 입장에서도 아주 희망이 없는 수치는 아닙니다. 여기서 중요한 점은 그림 ?fig-election-prediction의 매끄러운 곡선보다 그림 ?fig-probability-waffle의 이산적인 칸들이 불확실성을 훨씬 더 피부에 와닿게 전달한다는 것입니다. 이것이 바로 이산 결과 시각화의 힘입니다. 인간은 넓이를 비교하는 것보다 개별 물체의 개수가 몇 개인지(빈도)를 판단하는 데 훨씬 능숙하기 때문입니다.

그림 ?fig-probability-waffle의 이산 결과 특성과 그림 ?fig-election-prediction과 같은 연속 분포를 결합하여 분위수 점 그림을 그릴 수 있습니다(Kay et al. 2016). 분위수 점 그림에서는 곡선 아래 전체 영역을 균등한 크기의 단위로 세분화하고 각 단위를 원으로 그립니다. 그런 다음 원을 쌓아 원래 분포 곡선을 대략적으로 나타내도록 합니다(그림 Figure 18.3).

(ref:election-quantile-dot) 그림 ?fig-election-prediction의 선거 결과 분포의 분위수 점 그림 표현. (a) 부드러운 분포는 각각 2% 확률을 나타내는 50개의 점으로 근사됩니다. 따라서 6개의 노란색 점은 12% 확률에 해당하며 실제 값 12.9%에 상당히 가깝습니다. (b) 부드러운 분포는 각각 10% 확률을 나타내는 10개의 점으로 근사됩니다. 따라서 하나의 노란색 점은 10% 확률에 해당하며 여전히 실제 값에 가깝습니다. 점 수가 적은 분위수 점 그림은 읽기 쉬운 경향이 있으므로 이 예에서는 50개 점 버전보다 10개 점 버전이 더 바람직할 수 있습니다.

Figure 18.3: (ref:election-quantile-dot)

일반적인 원칙으로 분위수 점 그림은 적당한 수의 점을 사용해야 합니다. 점이 너무 많으면 개별적인 이산 단위가 아닌 연속체로 인식하는 경향이 있습니다. 이는 이산 플롯의 장점을 상쇄합니다. 그림 ?fig-election-quantile-dot는 50개의 점이 있는 변형(그림 Figure 18.3 (a))과 10개의 점이 있는 변형(그림 Figure 18.3 (b))을 보여줍니다. 50개의 점이 있는 버전은 실제 확률 분포를 더 정확하게 포착하지만 점 수가 너무 많아 개별 점을 쉽게 구별하기 어렵습니다. 10개의 점이 있는 버전은 파란색 또는 노란색이 이길 상대적 확률을 더 즉각적으로 전달합니다. 10개 점 버전에 대한 한 가지 반론은 그다지 정확하지 않다는 것입니다. 노란색이 이길 확률을 2.9% 포인트 과소평가하고 있습니다. 그러나 특히 일반 청중에게 전달할 때 결과 시각화에 대한 더 정확한 인간 인식을 위해 약간의 수학적 정밀도를 희생하는 것이 종종 가치가 있습니다. 수학적으로는 정확하지만 제대로 인식되지 않는 시각화는 실제로는 그다지 유용하지 않습니다.

점 추정치의 불확실성 시각화

그림 ?fig-election-prediction에서는 “최적 추정치”와 “오차 한계”를 보여주었지만 이러한 양이 정확히 무엇인지 또는 어떻게 얻을 수 있는지 설명하지 않았습니다. 이를 더 잘 이해하려면 통계적 표본 추출의 기본 개념을 간략하게 살펴보아야 합니다. 통계학에서 우리의 가장 중요한 목표는 세상의 작은 부분을 살펴봄으로써 세상에 대해 무언가를 배우는 것입니다. 선거 예를 계속 들면 여러 선거구가 있고 각 선거구의 시민들이 파란색 정당이나 노란색 정당에 투표한다고 가정해 보겠습니다. 각 선거구가 어떻게 투표할지, 그리고 선거구 전체의 평균 투표 결과를 예측하고 싶을 수 있습니다. 선거 전에 예측하려면 각 선거구의 모든 개별 시민에게 어떻게 투표할 것인지 설문 조사를 할 수 없습니다. 대신 일부 선거구의 일부 시민을 대상으로 설문 조사를 하고 해당 데이터를 사용하여 최상의 추측을 해야 합니다. 통계 용어로 모든 선거구의 모든 시민의 가능한 투표 총 집합을 모집단이라고 하며 우리가 설문 조사하는 시민 및/또는 선거구의 하위 집합을 표본이라고 합니다. 모집단은 세상의 기본적이고 진정한 상태를 나타내며 표본은 그 세상으로 통하는 창입니다.

우리는 일반적으로 모집단의 중요한 속성을 요약하는 특정 양에 관심이 있습니다. 선거 예에서는 이것이 선거구 전체의 평균 투표 결과 또는 선거구 결과 간의 표준 편차일 수 있습니다. 모집단을 설명하는 양을 모수라고 하며 일반적으로 알 수 없습니다. 그러나 표본을 사용하여 실제 모수 값에 대한 추측을 할 수 있으며 통계학자들은 이러한 추측을 추정치라고 합니다. 표본 평균(또는 평균)은 모수인 모집단 평균에 대한 추정치입니다. 개별 모수 값의 추정치를 점 추정치라고도 하는데, 각 추정치를 선 위의 점으로 나타낼 수 있기 때문입니다.

그림 ?fig-sampling-schematic은 이러한 주요 개념이 서로 어떻게 관련되어 있는지 보여줍니다. 관심 변수(예: 각 선거구의 투표 결과)는 모집단에서 모집단 평균과 모집단 표준 편차를 갖는 어떤 분포를 갖습니다. 표본은 특정 관찰값 집합으로 구성됩니다. 표본의 개별 관찰값 수를 표본 크기라고 합니다. 표본에서 표본 평균과 표본 표준 편차를 계산할 수 있으며 이는 일반적으로 모집단 평균 및 표준 편차와 다릅니다. 마지막으로 표본 추출 과정을 여러 번 반복하면 얻을 수 있는 추정치 분포인 표본 분포를 정의할 수 있습니다. 표본 분포의 너비를 표준 오차라고 하며 이는 추정치가 얼마나 정확한지 알려줍니다. 즉, 표준 오차는 모수 추정치와 관련된 불확실성의 척도를 제공합니다. 일반적인 규칙으로 표본 크기가 클수록 표준 오차는 작아지고 따라서 추정치의 불확실성은 줄어듭니다.

(ref:sampling-schematic) 통계적 표본 추출의 주요 개념. 우리가 연구하는 관심 변수는 모집단에서 실제 모집단 평균과 표준 편차를 갖는 어떤 실제 분포를 갖습니다. 해당 변수의 유한한 표본은 모집단 모수와 다른 표본 평균과 표준 편차를 갖습니다. 반복적으로 표본을 추출하고 매번 평균을 계산하면 결과 평균은 평균의 표본 분포에 따라 분포됩니다. 표준 오차는 표본 분포의 너비에 대한 정보를 제공하며, 이는 관심 모수(여기서는 모집단 평균)를 얼마나 정확하게 추정하고 있는지 알려줍니다.

표준 편차와 표준 오차를 혼동하지 않는 것이 중요합니다. 표준 편차는 모집단의 속성입니다. 우리가 할 수 있는 개별 관찰값 사이에 얼마나 많은 분산이 있는지 알려줍니다. 예를 들어 투표 구역 모집단을 고려하면 표준 편차는 여러 구역이 서로 얼마나 다른지 알려줍니다. 반대로 표준 오차는 모수 추정치를 얼마나 정확하게 결정했는지 알려줍니다. 모든 구역의 평균 투표 결과를 추정하려는 경우 표준 오차는 평균 추정치가 얼마나 정확한지 알려줍니다.

모든 통계학자는 표본을 사용하여 모수 추정치와 그 불확실성을 계산합니다. 그러나 이러한 계산에 접근하는 방식에서 베이즈주의자와 빈도주의자로 나뉩니다. 베이즈주의자는 세상에 대한 사전 지식이 있다고 가정하고 표본을 사용하여 이 지식을 업데이트합니다. 반대로 빈도주의자는 사전 지식 없이 세상에 대한 정확한 진술을 하려고 합니다. 다행히 불확실성을 시각화하는 경우 베이즈주의자와 빈도주의자는 일반적으로 동일한 유형의 전략을 사용할 수 있습니다. 여기서는 먼저 빈도주의적 접근 방식을 논의한 다음 베이즈주의적 맥락에 고유한 몇 가지 특정 문제를 설명합니다.

빈도주의자들은 가장 일반적으로 오차 막대를 사용하여 불확실성을 시각화합니다. 오차 막대는 불확실성을 시각화하는 데 유용할 수 있지만 챕터 ?sec-boxplots-violins에서 이미 언급했듯이(그림 Figure 11.1 참조) 문제가 없는 것은 아닙니다. 독자가 오차 막대가 무엇을 나타내는지 혼동하기 쉽습니다. 이 문제를 강조하기 위해 그림 ?fig-cocoa-data-vs-CI에서는 동일한 데이터 세트에 대해 다섯 가지 다른 오차 막대 사용법을 보여줍니다. 데이터 세트에는 여러 다른 국가에서 제조된 초콜릿 바에 대한 전문가 평가(1점에서 5점까지)가 포함되어 있습니다. 그림 ?fig-cocoa-data-vs-CI의 경우 캐나다에서 제조된 초콜릿 바에 대한 모든 평가를 추출했습니다. 지터 처리된 점의 스트립 차트로 표시된 표본 아래에는 표본 평균 더하기/빼기 표본의 표준 편차, 표본 평균 더하기/빼기 표준 오차, 80%, 95%, 99% 신뢰 구간이 표시됩니다. 다섯 개의 오차 막대는 모두 표본의 변동에서 파생되며 모두 수학적으로 관련되어 있지만 의미는 다릅니다. 그리고 시각적으로도 상당히 다릅니다.

(ref:cocoa-data-vs-CI) 초콜릿 바 평가 예에서 표본, 표본 평균, 표준 편차, 표준 오차 및 신뢰 구간 간의 관계. 표본을 구성하는 관찰값(녹색 점으로 표시됨)은 캐나다 제조업체의 125개 초콜릿 바에 대한 전문가 평가를 나타내며 1점(불쾌함)에서 5점(최상급)까지 평가됩니다. 큰 주황색 점은 평가의 평균을 나타냅니다. 오차 막대는 위에서 아래로 표준 편차의 두 배, 표준 오차(평균의 표준 편차)의 두 배, 평균의 80%, 95%, 99% 신뢰 구간을 나타냅니다. 데이터 출처: 브래디 브렐린스키, 맨해튼 초콜릿 협회

오차 막대로 불확실성을 시각화할 때는 항상 오차 막대가 나타내는 양 및/또는 신뢰 수준을 지정해야 합니다.

표준 오차는 대략 표본 표준 편차를 표본 크기의 제곱근으로 나눈 값으로 주어지며 신뢰 구간은 표준 오차에 작은 상수 값을 곱하여 계산됩니다. 예를 들어 95% 신뢰 구간은 평균에서 양방향으로 표준 오차의 약 2배만큼 확장됩니다. 따라서 표본 크기가 클수록 표준 편차는 동일하더라도 표준 오차와 신뢰 구간은 좁아지는 경향이 있습니다. 캐나다산 초콜릿 바와 스위스산 초콜릿 바의 평가를 비교할 때 이러한 효과를 볼 수 있습니다(그림 Figure 18.6). 캐나다산 초콜릿 바와 스위스산 초콜릿 바의 평균 평가와 표본 표준 편차는 비슷하지만 캐나다산 바는 125개, 스위스산 바는 38개만 평가되었으므로 스위스산 바의 평균에 대한 신뢰 구간이 캐나다산 바의 평균에 대한 신뢰 구간보다 훨씬 넓습니다.

(ref:cocoa-CI-vs-n) 표본 크기가 작을수록 신뢰 구간이 넓어집니다. 캐나다와 스위스의 초콜릿 바는 평균 평가와 표준 편차가 비슷합니다(단순한 검은색 오차 막대로 표시됨). 그러나 스위스 바보다 캐나다 바가 3배 이상 많이 평가되었으므로 스위스 평가 평균에 대한 신뢰 구간(여러 색상과 두께의 오차 막대를 서로 겹쳐 그린 것으로 표시됨)이 캐나다 평가 평균에 대한 신뢰 구간보다 훨씬 넓습니다. 데이터 출처: 브래디 브렐린스키, 맨해튼 초콜릿 협회

그림 ?fig-cocoa-CI-vs-n에서는 여러 신뢰 구간을 동시에 표시하며 낮은 신뢰 수준을 나타내는 구간에 더 어두운 색상과 더 두꺼운 선을 사용합니다. 저는 이러한 시각화를 등급 오차 막대라고 부릅니다. 등급은 독자가 여러 가능성 범위가 있다는 것을 인식하는 데 도움이 됩니다. 단순한 오차 막대(등급 없음)를 여러 사람에게 보여주면 적어도 일부는 오차 막대를 결정론적으로 인식할 가능성이 높습니다. 예를 들어 데이터의 최소값과 최대값을 나타내는 것으로 인식하거나 오차 막대가 가능한 매개변수 추정치 범위를 나타낸다고 생각할 수 있습니다. 즉, 추정치가 오차 막대 밖으로 벗어날 수 없다고 생각할 수 있습니다. 이러한 유형의 오인식을 결정론적 해석 오류라고 합니다. 결정론적 해석 오류의 위험을 최소화할수록 불확실성 시각화가 더 좋아집니다.

오차 막대는 많은 추정치와 그 불확실성을 한 번에 표시할 수 있기 때문에 편리합니다. 따라서 일반적으로 전문가 청중에게 많은 양의 정보를 전달하는 것이 주요 목표인 과학 출판물에 일반적으로 사용됩니다. 이러한 유형의 응용 프로그램의 예로 그림 ?fig-mean-chocolate-ratings는 6개국의 초콜릿 바에 대한 평균 초콜릿 등급과 관련 신뢰 구간을 보여줍니다.

(ref:mean-chocolate-ratings) 6개국의 제조업체에서 생산한 초콜릿 바의 평균 초콜릿 맛 평가 및 관련 신뢰 구간. 데이터 출처: 브래디 브렐린스키, 맨해튼 초콜릿 협회

그림 ?fig-mean-chocolate-ratings을 보면 평균 평점의 차이에 대해 무엇을 알 수 있는지 궁금할 수 있습니다. 캐나다, 스위스, 오스트리아 바의 평균 평점은 미국 바의 평균 평점보다 높지만 이러한 평균 평점의 불확실성을 고려할 때 평균 차이가 유의미한가요? 여기서 “유의미한”이라는 단어는 통계학자들이 사용하는 전문 용어입니다. 관찰된 차이가 무작위 표본 추출로 인해 발생했다는 가정을 어느 정도 신뢰 수준으로 기각할 수 있는 경우 차이가 유의미하다고 합니다. 캐나다 및 미국 바의 유한한 수만 평가되었으므로 평가자는 우연히 더 나은 캐나다 바를 더 많이 고려하고 더 나은 미국 바를 덜 고려했을 수 있으며 이러한 무작위 기회는 캐나다 바가 미국 바보다 체계적으로 높은 평가를 받는 것처럼 보일 수 있습니다.

그림 ?fig-mean-chocolate-ratings에서 유의성을 평가하기는 어렵습니다. 캐나다 평균 평점과 미국 평균 평점 모두 불확실성이 있기 때문입니다. 평균이 다른지 여부에 대한 질문에는 두 불확실성 모두 중요합니다. 통계 교과서와 온라인 튜토리얼에서는 때때로 오차 막대가 겹치는지 여부에 따라 유의성을 판단하는 방법에 대한 경험 법칙을 게시합니다. 그러나 이러한 경험 법칙은 신뢰할 수 없으므로 피해야 합니다. 평균 평점에 차이가 있는지 평가하는 올바른 방법은 차이에 대한 신뢰 구간을 계산하는 것입니다. 이러한 신뢰 구간이 0을 제외하면 해당 신뢰 수준에서 차이가 유의미하다는 것을 알 수 있습니다. 초콜릿 평점 데이터 세트의 경우 캐나다산 바만 미국산 바보다 유의미하게 높은 평점을 받았습니다(그림 Figure 18.8). 스위스산 바의 경우 차이에 대한 95% 신뢰 구간이 0 값을 간신히 포함합니다. 따라서 미국산 초콜릿 바와 스위스산 초콜릿 바의 평균 평점 차이는 5% 수준에서 간신히 유의미하지 않습니다. 마지막으로 오스트리아산 바가 미국산 바보다 체계적으로 높은 평균 평점을 갖는다는 증거는 전혀 없습니다.

(ref:chocolate-ratings-contrasts) 5개국의 제조업체에서 생산한 초콜릿 바의 평균 초콜릿 맛 평가, 미국 초콜릿 바의 평균 평가 대비. 캐나다 초콜릿 바는 미국 바보다 유의미하게 높은 평가를 받았습니다. 다른 4개국의 경우 미국과 평균 평가에 유의미한 차이가 95% 신뢰 수준에서 없습니다. 신뢰 수준은 더넷 방법을 사용하여 다중 비교에 대해 조정되었습니다. 데이터 출처: 브래디 브렐린스키, 맨해튼 초콜릿 협회

이전 그림에서는 등급이 매겨진 오차 막대와 단순한 오차 막대의 두 가지 다른 유형을 사용했습니다. 더 많은 변형이 가능합니다. 예를 들어 끝에 캡이 있거나 없는 오차 막대를 그릴 수 있습니다(그림 Figure 18.9 (a), c 대 그림 Figure 18.9 (b), d). 이러한 모든 선택에는 장단점이 있습니다. 등급이 매겨진 오차 막대는 여러 신뢰 수준에 해당하는 여러 범위의 존재를 강조합니다. 그러나 이러한 추가 정보의 이면에는 시각적 노이즈가 추가된다는 단점이 있습니다. 그림이 얼마나 복잡하고 정보 밀도가 높은지에 따라 등급이 매겨진 오차 막대보다 단순한 오차 막대가 더 바람직할 수 있습니다. 캡이 있거나 없는 오차 막대를 그릴지 여부는 주로 개인적인 취향의 문제입니다. 캡은 오차 막대가 정확히 어디에서 끝나는지 강조하는 반면(그림 Figure 18.9 (a), c) 캡이 없는 오차 막대는 간격의 전체 범위에 동일한 강조를 둡니다(그림 Figure 18.9 (b), d). 또한 캡은 시각적 노이즈를 추가하므로 오차 막대가 많은 그림에서는 캡을 생략하는 것이 더 바람직할 수 있습니다.

(ref:confidence-visualizations) 4개국의 제조업체에서 생산한 초콜릿 바의 평균 초콜릿 맛 평가, 미국 초콜릿 바의 평균 평가 대비. 각 패널은 동일한 불확실성 정보를 시각화하는 다른 접근 방식을 사용합니다. (a) 캡이 있는 등급 오차 막대. (b) 캡이 없는 등급 오차 막대. (c) 캡이 있는 단일 간격 오차 막대. (d) 캡이 없는 단일 간격 오차 막대. (e) 신뢰 구간. (f) 신뢰 분포.

Figure 18.9: (ref:confidence-visualizations)

오차 막대 대신 점차 사라지는 신뢰 구간을 그릴 수 있습니다(그림 Figure 18.9 (e)). 신뢰 구간은 여러 가능한 값이 얼마나 가능성이 있는지에 대한 명확한 시각적 감각을 제공하지만 읽기가 어렵습니다. 특정 신뢰 수준이 어디에서 끝나는지 결정하려면 여러 색상 음영을 시각적으로 통합해야 합니다. 그림 Figure 18.9 (e)에서 페루 초콜릿 바의 평균 평점이 미국 초콜릿 바의 평균 평점보다 유의미하게 낮다고 결론을 내릴 수 있지만 실제로는 그렇지 않습니다. 명시적인 신뢰 분포를 표시할 때도 유사한 문제가 발생합니다(그림 Figure 18.9 (f)). 곡선 아래 면적을 시각적으로 통합하고 특정 신뢰 수준이 정확히 어디에 도달하는지 결정하기가 어렵습니다. 그러나 이 문제는 그림 ?fig-election-quantile-dot에서와 같이 분위수 점 그림을 그려 다소 완화할 수 있습니다.

단순한 2D 그림의 경우 오차 막대는 불확실성에 대한 더 복잡한 표시보다 한 가지 중요한 장점이 있습니다. 여러 다른 유형의 플롯과 결합할 수 있다는 것입니다. 거의 모든 시각화에 대해 오차 막대를 추가하여 불확실성을 어느 정도 표시할 수 있습니다. 예를 들어 오차 막대가 있는 막대 그래프를 그려 불확실성이 있는 양을 표시할 수 있습니다(그림 Figure 18.10). 이러한 유형의 시각화는 과학 출판물에서 일반적으로 사용됩니다. 또한 산점도에서 x 및 y 방향 모두를 따라 오차 막대를 그릴 수도 있습니다(그림 Figure 18.11).

(ref:butterfat-bars) 네 가지 소 품종 우유의 평균 유지방 함량. 오차 막대는 평균의 표준 오차 +/-를 나타냅니다. 이러한 유형의 시각화는 과학 문헌에서 자주 볼 수 있습니다. 기술적으로는 정확하지만 각 범주 내의 변동이나 표본 평균의 불확실성을 특별히 잘 나타내지는 못합니다. 개별 품종 내 유지방 함량 변동은 그림 ?fig-butterfat-densitites를 참조하십시오. 데이터 출처: 캐나다 순종 젖소 생산 능력 기록

(ref:median-age-income) 펜실베이니아 67개 카운티의 중간 소득 대 중간 연령. 오차 막대는 90% 신뢰 구간을 나타냅니다. 데이터 출처: 2015년 5개년 미국 지역사회 조사

빈도주의자와 베이즈주의자라는 주제로 돌아가 보겠습니다. 빈도주의자는 신뢰 구간으로 불확실성을 평가하는 반면 베이즈주의자는 사후 분포와 신뢰 구간을 계산합니다. 베이즈 사후 분포는 입력 데이터를 고려할 때 특정 모수 추정치가 얼마나 가능성이 있는지 알려줍니다. 신뢰 구간은 사후 분포에서 계산된 특정 확률로 모수 값이 존재할 것으로 예상되는 값의 범위를 나타냅니다. 예를 들어 95% 신뢰 구간은 사후 분포의 중앙 95%에 해당합니다. 실제 모수 값은 95% 신뢰 구간에 있을 확률이 95%입니다.

통계학자가 아니라면 신뢰 구간에 대한 제 정의에 놀랄 수 있습니다. 실제로 신뢰 구간의 정의라고 생각했을 수도 있습니다. 그렇지 않습니다. 베이즈 신뢰 구간은 실제 모수 값이 어디에 있을 가능성이 있는지 알려주고 빈도주의 신뢰 구간은 실제 모수 값이 어디에 없을 가능성이 있는지 알려줍니다. 이러한 구분이 의미론처럼 보일 수 있지만 두 접근 방식 사이에는 중요한 개념적 차이가 있습니다. 베이즈 접근 방식에서는 데이터와 연구 중인 시스템에 대한 사전 지식(사전 분포라고 함)을 사용하여 실제 모수 값이 어디에 있을 것으로 예상되는지 알려주는 확률 분포(사후 분포)를 계산합니다. 반대로 빈도주의 접근 방식에서는 먼저 반증하려는 가정을 세웁니다. 이 가정을 귀무 가설이라고 하며 종종 모수가 0과 같다는 가정(예: 두 조건 간에 차이가 없음)입니다. 그런 다음 귀무 가설이 참인 경우 무작위 표본 추출이 관찰된 것과 유사한 데이터를 생성할 확률을 계산합니다. 신뢰 구간은 이 확률의 표현입니다. 특정 신뢰 구간이 귀무 가설 하의 모수 값(즉, 값 0)을 제외하면 해당 신뢰 수준에서 귀무 가설을 기각할 수 있습니다. 또는 신뢰 구간을 반복적인 표본 추출 하에서 지정된 가능성으로 실제 모수 값을 포착하는 간격으로 생각할 수 있습니다(그림 Figure 18.12). 따라서 실제 모수 값이 0이라면 95% 신뢰 구간은 분석된 표본의 5%에서만 0을 제외합니다.

(ref:ci-frequentist-expl) 신뢰 구간의 빈도 해석. 신뢰 구간(CI)은 반복적인 표본 추출의 맥락에서 가장 잘 이해됩니다. 각 표본에 대해 특정 신뢰 구간은 실제 모수(여기서는 평균)를 포함하거나 제외합니다. 그러나 반복적으로 표본을 추출하면 신뢰 구간(여기서는 68% 신뢰 구간, 표본 평균 +/- 표준 오차에 해당)이 약 68%의 경우 실제 평균을 포함합니다.

요약하자면 베이즈 신뢰 구간은 실제 모수 값에 대한 진술을 하고 빈도주의 신뢰 구간은 귀무 가설에 대한 진술을 합니다. 그러나 실제로는 베이즈 추정치와 빈도주의 추정치가 종종 매우 유사합니다(그림 Figure 18.13). 베이즈 접근 방식의 한 가지 개념적 장점은 효과의 크기에 대한 생각을 강조하는 반면 빈도주의적 사고는 효과가 존재하거나 존재하지 않는다는 이분법적 관점을 강조한다는 것입니다.

(ref:bayes-vs-ols) 평균 초콜릿 평점에 대한 빈도주의 신뢰 구간과 베이즈 신뢰 구간 비교. 두 접근 방식 모두 유사하지만 정확히 동일하지는 않은 결과를 생성함을 알 수 있습니다. 특히 베이즈 추정치는 약간의 축소를 보이는데, 이는 가장 극단적인 모수 추정치를 전체 평균으로 조정하는 것입니다. (스위스에 대한 베이즈 추정치가 약간 왼쪽으로 이동하고 페루에 대한 베이즈 추정치가 해당 빈도주의 추정치에 비해 약간 오른쪽으로 이동한 방식을 확인하십시오.) 여기에 표시된 빈도주의 추정치와 신뢰 구간은 그림 ?fig-mean-chocolate-ratings에 표시된 95% 신뢰도에 대한 결과와 동일합니다.

베이즈 신뢰 구간은 “실제 모수 값이 어디에 있을 것으로 예상합니까?”라는 질문에 답합니다. 빈도주의 신뢰 구간은 “실제 모수 값이 0이 아니라고 얼마나 확신합니까?”라는 질문에 답합니다.

베이즈 추정의 중심 목표는 사후 분포를 얻는 것입니다. 따라서 베이즈주의자들은 종종 신뢰 구간으로 단순화하는 대신 전체 분포를 시각화합니다. 따라서 데이터 시각화 측면에서 챕터 분포 시각화: 히스토그램 및 밀도 그림, 분포 시각화: 경험적 누적 분포 함수 및 q-q 그림, ?sec-boxplots-violins에서 논의된 모든 분포 시각화 접근 방식이 적용 가능합니다. 구체적으로 히스토그램, 밀도 그림, 상자 그림, 바이올린, 능선 그림은 모두 베이즈 사후 분포를 시각화하는 데 일반적으로 사용됩니다. 이러한 접근 방식은 해당 장에서 자세히 논의되었으므로 여기서는 평균 초콜릿 평점의 베이즈 사후 분포를 보여주는 능선 그림을 사용하는 예 하나만 보여 드리겠습니다(그림 Figure 18.14). 이 특정 경우 곡선 아래에 음영을 추가하여 정의된 사후 확률 영역을 나타냈습니다. 음영 대신 분위수 점 그림을 그리거나 각 분포 아래에 등급 오차 막대를 추가할 수도 있었습니다. 아래에 오차 막대가 있는 능선 그림을 반쪽 눈 그림이라고 하고 오차 막대가 있는 바이올린 그림을 눈 그림이라고 합니다(챕터 불확실성).

(ref:bayes-ridgeline) 능선 그림으로 표시된 평균 초콜릿 바 평점의 베이즈 사후 분포. 빨간색 점은 각 사후 분포의 중앙값을 나타냅니다. 연속 분포를 특정 신뢰 영역으로 변환하기 어렵기 때문에 각 곡선 아래에 음영을 추가하여 각 사후 분포의 중앙 80%, 95%, 99%를 나타냈습니다.

곡선 적합의 불확실성 시각화

챕터 ?sec-visualizing-trends에서는 데이터에 직선 또는 곡선을 적합시켜 데이터 세트의 추세를 보여주는 방법을 논의했습니다. 이러한 추세 추정치에도 불확실성이 있으며 신뢰대를 사용하여 추세선의 불확실성을 표시하는 것이 일반적입니다(그림 Figure 18.15). 신뢰대는 데이터와 호환되는 여러 다른 적합선의 범위를 제공합니다. 학생들이 신뢰대를 처음 접할 때 완벽하게 직선인 적합조차도 곡선인 신뢰대를 생성한다는 사실에 놀라는 경우가 많습니다. 곡률의 이유는 직선 적합이 두 가지 뚜렷한 방향으로 움직일 수 있기 때문입니다. 위아래로 움직일 수 있고(즉, 절편이 다름) 회전할 수 있습니다(즉, 기울기가 다름). 적합 매개변수의 사후 분포에서 무작위로 생성된 여러 대체 적합선을 그려 신뢰대가 어떻게 발생하는지 시각적으로 보여줄 수 있습니다. 이는 그림 ?fig-blue-jays-male-fitted-draws에서 수행되며 15개의 무작위로 선택된 대체 적합을 보여줍니다. 각 선이 완벽하게 직선임에도 불구하고 각 선의 여러 기울기와 절편의 조합이 신뢰대와 똑같이 보이는 전체 모양을 생성한다는 것을 알 수 있습니다.

(ref:blue-jays-male-conf-band) 그림 ?fig-blue-jays-scatter-line에서와 같이 수컷 파랑어치의 머리 길이 대 체질량. 직선 파란색 선은 데이터에 대한 최상의 선형 적합을 나타내고 선 주위의 회색 띠는 선형 적합의 불확실성을 보여줍니다. 회색 띠는 95% 신뢰 수준을 나타냅니다. 데이터 출처: 키스 타빈, 오벌린 대학

Figure 18.15: (ref:blue-jays-male-conf-band)

(ref:blue-jays-male-fitted-draws) 수컷 파랑어치의 머리 길이 대 체질량. 그림 ?fig-blue-jays-male-conf-band와 달리 이제 직선 파란색 선은 사후 분포에서 무작위로 추출된 동일하게 가능한 대체 적합을 나타냅니다. 데이터 출처: 키스 타빈, 오벌린 대학

Figure 18.16: (ref:blue-jays-male-fitted-draws)

신뢰대를 그리려면 신뢰 수준을 지정해야 하며 오차 막대 및 사후 확률의 경우와 마찬가지로 여러 신뢰 수준을 강조하는 것이 유용할 수 있습니다. 이는 여러 신뢰 수준을 한 번에 보여주는 등급 신뢰대로 이어집니다(그림 Figure 18.17). 등급 신뢰대는 독자의 불확실성 감각을 향상시키고 독자가 데이터가 여러 대체 추세선을 지원할 수 있다는 가능성에 직면하도록 강요합니다.

(ref:blue-jays-male-graded-conf-band) 수컷 파랑어치의 머리 길이 대 체질량. 오차 막대의 경우와 마찬가지로 추정치의 불확실성을 강조하기 위해 등급 신뢰대를 그릴 수 있습니다. 데이터 출처: 키스 타빈, 오벌린 대학

Figure 18.17: (ref:blue-jays-male-graded-conf-band)

비선형 곡선 적합에 대한 신뢰대도 그릴 수 있습니다. 이러한 신뢰대는 보기 좋지만 해석하기 어려울 수 있습니다(그림 Figure 18.18). 그림 Figure 18.18 (a)를 보면 파란색 선을 위아래로 움직이고 약간 변형시켜 신뢰대가 발생하는 것으로 생각할 수 있습니다. 그러나 그림 Figure 18.18 (b)에서 알 수 있듯이 신뢰대는 (a) 부분에 표시된 전체 최적 적합보다 훨씬 더 구불구불한 곡선 계열을 나타냅니다. 이것은 비선형 곡선 적합의 일반적인 원리입니다. 불확실성은 곡선을 위아래로 움직이는 것뿐만 아니라 구불구불함이 증가하는 것에도 해당합니다.

(ref:mpg-uncertain) 32개 자동차(1973~74년 모델)의 연비 대 배기량. 각 점은 하나의 자동차를 나타내며 평활선은 5개의 매듭이 있는 3차 회귀 스플라인을 적합시켜 얻었습니다. (a) 최적 적합 스플라인 및 신뢰대. (b) 사후 분포에서 추출한 동일하게 가능한 대체 적합. 데이터 출처: 모터 트렌드, 1974.

가상 결과 그림

불확실성에 대한 모든 정적 시각화는 뷰어가 불확실성 시각화의 일부 측면을 데이터의 결정론적 특징으로 해석할 수 있다는 문제(결정론적 해석 오류)를 안고 있습니다. 여러 가지 다르지만 동등하게 가능한 그림을 순환하여 애니메이션을 통해 불확실성을 시각화함으로써 이 문제를 피할 수 있습니다. 이러한 종류의 시각화를 가상 결과 그림(Hullman, Resnick, and Adar 2015) 또는 HOP라고 합니다. HOP는 인쇄 매체에서는 불가능하지만 GIF 또는 MP4 비디오 형태로 애니메이션 시각화를 제공할 수 있는 온라인 환경에서는 매우 효과적일 수 있습니다. HOP는 구두 발표 맥락에서도 잘 작동할 수 있습니다.

HOP 개념을 설명하기 위해 초콜릿 바 등급으로 다시 돌아가 보겠습니다. 식료품점에서 초콜릿을 살까 생각할 때 특정 초콜릿 바 그룹의 평균 맛 등급과 관련 불확실성은 아마 신경 쓰지 않을 것입니다. 대신 다음과 같은 더 간단한 질문에 대한 답을 알고 싶을 수 있습니다. 캐나다산 초콜릿 바와 미국산 초콜릿 바를 무작위로 고르면 둘 중 어느 것이 더 맛있을 것으로 예상해야 할까요? 이 질문에 답하기 위해 데이터 세트에서 캐나다산 바와 미국산 바를 무작위로 선택하고 등급을 비교하고 결과를 기록한 다음 이 과정을 여러 번 반복할 수 있습니다. 이렇게 하면 약 53%의 경우 캐나다산 바가 더 높은 등급을 받고 47%의 경우 미국산 바가 더 높은 등급을 받거나 두 바가 동점이라는 것을 알 수 있습니다. 여러 무작위 추출 간에 순환하고 각 추출에 대한 두 바의 상대적 순위를 표시하여 이 과정을 시각적으로 보여줄 수 있습니다(그림 ?fig-chocolate-HOP-static/그림 Figure 18.20).

(ref:chocolate-HOP-static) (인쇄판용) 캐나다 및 미국산 초콜릿 바 등급에 대한 가상 결과 그림의 개략도. 각 수직 녹색 막대는 하나의 바에 대한 등급을 나타내며 각 패널은 캐나다 제조업체와 미국 제조업체에서 각각 하나씩 무작위로 선택된 두 바의 비교를 보여줍니다. 실제 가상 결과 그림에서는 디스플레이가 여러 플롯 패널을 나란히 표시하는 대신 순환합니다.

Figure 18.19: (ref:chocolate-HOP-static)

(ref:chocolate-HOP-animated) (온라인판용) 캐나다 및 미국산 초콜릿 바 등급에 대한 가상 결과 그림. 각 수직 녹색 막대는 하나의 바에 대한 등급을 나타냅니다. 애니메이션은 캐나다 제조업체와 미국 제조업체에서 각각 하나씩 무작위로 선택된 두 바의 여러 경우를 순환합니다.

Figure 18.20: (ref:chocolate-HOP-animated)

두 번째 예로 그림 Figure 18.18 (b)의 동일하게 가능한 추세선 간의 모양 변화를 생각해 보십시오. 모든 추세선이 서로 겹쳐 그려지므로 주로 추세선으로 덮인 전체 영역을 인식하며 이는 신뢰대와 유사합니다. 개별 추세선을 인식하기는 어렵습니다. 이 그림을 HOP로 만들면 개별 추세선을 한 번에 하나씩 강조 표시할 수 있습니다(그림 ?fig-mpg-uncertain-HOP-static/그림 Figure 18.22).

(ref:mpg-uncertain-HOP-static) (인쇄판용) 연비 대 배기량에 대한 가상 결과 그림의 개략도. 각 점은 하나의 자동차를 나타내며 평활선은 5개의 매듭이 있는 3차 회귀 스플라인을 적합시켜 얻었습니다. 각 패널의 각 선은 적합 매개변수의 사후 분포에서 추출한 하나의 대체 적합 결과를 나타냅니다. 실제 가상 결과 그림에서는 디스플레이가 여러 플롯 패널을 나란히 표시하는 대신 순환합니다.

Figure 18.21: (ref:mpg-uncertain-HOP-static)

(ref:mpg-uncertain-HOP-animated) (온라인판용) 연비 대 배기량에 대한 가상 결과 그림. 각 점은 하나의 자동차를 나타내며 평활선은 5개의 매듭이 있는 3차 회귀 스플라인을 적합시켜 얻었습니다. 애니메이션은 적합 매개변수의 사후 분포에서 추출한 여러 대체 적합 결과를 순환합니다.

Figure 18.22: (ref:mpg-uncertain-HOP-animated)

HOP를 준비할 때 여러 결과 간에 하드 스위치(슬라이드 프로젝터에서와 같이)를 만드는 것이 더 나은지 아니면 한 결과에서 다른 결과로 부드럽게 애니메이션(예: 한 결과의 추세선이 다른 결과의 추세선처럼 보일 때까지 천천히 변형)하는 것이 더 나은지 궁금할 수 있습니다. 이것은 어느 정도 계속 연구되고 있는 미해결 문제이지만 일부 증거에 따르면 부드러운 전환은 표현된 확률에 대한 판단을 더 어렵게 만듭니다(Kale et al. 2018). 결과 간 애니메이션을 고려하는 경우 이러한 애니메이션을 매우 빠르게 만들거나 결과가 서로 변형되는 대신 페이드 인 및 페이드 아웃되는 애니메이션 스타일을 선택하는 것이 좋습니다.

HOP를 준비할 때 주의해야 할 중요한 측면이 하나 있습니다. 표시하는 결과가 가능한 결과의 실제 분포를 대표하는지 확인해야 한다는 것입니다. 그렇지 않으면 HOP가 상당히 오해의 소지가 있을 수 있습니다. 예를 들어 초콜릿 등급의 경우로 돌아가서 초콜릿 바의 10개 결과 쌍을 무작위로 선택하고 그중 7개 경우에 미국 바가 캐나다 바보다 높은 등급을 받았다면 HOP는 미국 바가 캐나다 바보다 높은 등급을 받는 경향이 있다는 잘못된 인상을 줄 것입니다. 표본 추출 편향이 발생할 가능성이 없도록 매우 많은 수의 결과를 선택하거나 표시되는 결과가 적절한지 어떤 형태로든 확인하여 이 문제를 방지할 수 있습니다. 그림 ?fig-chocolate-HOP-static/그림 ?fig-chocolate-HOP-animated을 만들 때 캐나다 바가 이기는 것으로 표시된 횟수가 실제 백분율인 53%에 가까운지 확인했습니다.

Hullman, J., P. Resnick, and E. Adar. 2015. “Hypothetical Outcome Plots Outperform Error Bars and Violin Plots for Inferences about Reliability of Variable Ordering.” PLOS ONE 10: e0142444. https://doi.org/10.1371/journal.pone.0142444.

Kale, A., F. Nguyen, M. Kay, and J. Hullman. 2018. “Hypothetical Outcome Plots Help Untrained Observers Judge Trends in Ambiguous Data.” IEEE Transactions on Visualization and Computer Graphics. https://doi.org/10.1109/TVCG.2018.2864909.

Kay, M., T. Kola, J. Hullman, and S. Munson. 2016. “When (Ish) Is My Bus? User-centered Visualizations of Uncertainty in Everyday, Mobile Predictive Systems.” CHI Conference on Human Factors in Computing Systems, 5092–5103. https://doi.org/10.1145/2858036.2858558.