5 데이터로부터 배우기: 로드맵

학습 목표

과학적 질문을 통계적 질문으로 변환합니다.
데이터를 생성한 과학적 실험 또는 연구에 대한 지식을 기반으로 통계 모델을 정의합니다.
관찰된 데이터 분포의 함수로서 인과 파라미터를 식별합니다.
독립적이고 동일하게 분포된(i.i.d.), 일관성(consistency), 측정되지 않은 혼란 변수 없음(no unmeasured confounding), 간섭 없음(no interference), 양의 조건(positivity)과 같은 통계적 및 인과적 가정과 그 함의를 설명합니다.

5.1 소개

통계적 학습의 로드맵은 현실 세계의 과학적 질문을 관련 통계 추정 문제를 공식화하는 데 필요한 수학적 형식으로 변환하는 과정과 관련이 있습니다. 여기에는 데이터를 무작위 변수(고유한 확률 분포를 가짐)로 간주하고, 과학적 지식을 통계 모델 선택에 통합하며, 관심 있는 과학적 질문에 대한 답을 나타내는 통계적 타겟 파라미터를 선택하고, 통계적 피추정치(estimand)의 효율적인 추정기를 개발하는 과정이 포함됩니다.

5.2 로드맵

로드맵은 6단계 프로세스입니다.

데이터를 확률 분포를 가진 무작위 변수로 정의합니다, \(O \sim P_0\)
통계 모델 \(\M\)을 현실적으로 지정합니다, 즉 \(P_0 \in \M\)
관심 있는 과학적 질문을 통계적 타겟 파라미터 \(\Psi\)로 변환하고 타겟 모집단을 설정합니다.
현실적인 \(\M\) 하에서 \(\Psi\)에 대한 추정기 \(\hat{\Psi}\)를 선택합니다.
추정치 \(\hat{\Psi}(P_n)\)에 대한 불확실성 척도를 구축합니다.
실질적인 결론을 도출합니다.

5.2.1 데이터: 확률 분포를 가진 무작위 변수, \(O \sim P_0\)

우리가 직면한 데이터셋은 과학적(또는 자연적) 실험 결과의 모음입니다. 우리는 데이터를 _무작위 변수_로 볼 수 있습니다. 즉, 동일한 실험이 반복된다면, 해당 실험을 지배하는 동일한 기본 법칙에 의해 생성된 서로 다른 데이터 실현을 보게 될 것으로 예상해야 합니다. 특히 실험이 여러 번 반복된다면, 데이터를 생성하는 기본 확률 분포 \(P_0\)가 드러날 것입니다. 단일 단위에 대해 관찰된 데이터 \(O\)는 이 확률 분포 \(P_0\)에서 추출된 것으로 생각할 수 있습니다. 대부분의 경우, 우리는 데이터셋에서 무작위 변수 \(O\)에 대한 \(n\)개의 독립적이고 동일하게 분포된(i.i.d.) 관찰값을 가집니다. 그러면 관찰된 데이터는 \(O_1, \ldots, O_n\)의 모음이며, 여기서 아래 첨자는 개별 관찰 단위를 나타냅니다. 모든 데이터가 i.i.d.는 아니지만, 이는 응용 데이터 분석에서 확실히 가장 일반적인 경우입니다. 비 i.i.d. 데이터를 처리하기 위한 여러 기술이 있으며, 여기에는 조건부 독립성을 설정하여 특정 변수(예: 반복 측정 데이터의 피험자 ID)를 조건으로 i.i.d. 가정이 성립하도록 하는 것과 반복 또는 클러스터링된 관찰에 대한 추론적 수정을 통합하는 것 등이 포함됩니다.

5.2.1.1 경험적 확률 측정, \(P_n\)

\(n\)개의 i.i.d. 관찰값이 있으면 경험적 확률 측정 \(P_n\)을 정의할 수 있습니다. 경험적 확률 측정은 참 확률 측정 \(P_0\)의 근사치이며, 우리가 관찰된 데이터로부터 배울 수 있게 해줍니다. 예를 들어, 변수 세트(예: \(W\))의 경험적 확률 측전을 \(W\)에 속하는 관찰값의 비율로 정의할 수 있습니다. 즉, \[\begin{equation*} P_n(W) = \frac{1}{n}\sum_{i=1}^{n} \I(O_i \in W) \end{equation*}\]

특정 데이터셋으로부터 배울 수 있는 범위를 이해하기 위해, 다음으로 “데이터 생성으로 이어진 과정에 대해 우리가 알고 있는 것은 무엇인가?”라고 질문해야 합니다. 이것이 2단계로 이어집니다.

5.2.2 \(P_0 \in \M\)이 되도록 통계 모델 \(\M\) 정의하기

통계 모델 \(\M\)은 배경 과학 지식에 의해 적절히 제한된, 관찰된 데이터가 생성된 과정을 설명할 수 있는 모든 가능한 확률 분포의 집합입니다. 종종 \(\M\)은 필연적으로 매우 크며(즉, 비모수적), 이는 \(P_0\)에 대한 통계적 지식이 제한적이라는 사실을 반영합니다.

만약 \(P_0\)가 유한한 수의 파라미터로 설명된다면, 그 통계 모델은 _모수적(parametric)_이라고 불립니다. 예를 들어 \(O\)가 평균 \(\mu\)와 분산 \(\sigma^2\)을 갖는 정규 분포를 따른다는 제안이 그러한 가정입니다. 더 일반적으로, 모수 모델은 다음과 같이 정의될 수 있습니다.

\[\begin{equation*} \M(\theta) = \{P_{\theta} : \theta \in \R^d \}, \end{equation*}\] 이는 어떤 유한한 \(d\)차원 파라미터 \(\theta\)에 의해 인덱싱되는 모든 분포 \(P_{\theta}\)로 구성된 제한된 통계 모델을 설명합니다.

\(P_0\)가 특정한 모수적 형태를 갖는다는 가정은 매우 흔히 이루어집니다. 불행하게도, 그러한 가정이 데이터 생성 과정에 대한 도메인 지식에 의해 뒷받침되지 않는 경우에도 마찬가지입니다. 현재의, 그리고 전통적인 통계 데이터 분석 문화에서의 이러한 과도한 단순화 관행은 일반적으로 당면한 과학적 질문에 안정적으로 답하려는 시도를 복잡하게 만들거나 완전히 방해합니다. 왜 그럴까요? 정규 분포와 같이 도처에서 의존하는 분포처럼, 주어진 데이터셋의 기초가 되는 데이터 생성 분포가 사실 단 두 개의 파라미터에 의해서만 지배된다는 것을 (의심의 여지 없이) 알기 위해 얼마나 많은 지식이 필요한지 생각해 보십시오. 마찬가지로 주효과 Cox 비례 위험 모델, 로지스틱 회귀 및 선형 모델은 매우 제한된 통계 모델을 함의하며, 만약 어떤 가정도 정당화되지 않는다면 그 결과에 편향이 생길 것입니다(치료가 무작위화된 경우는 제외). 모수적 가정을 정당화하기 위해 사용되는 철학은 조지 박스(George Box)의 자주 인용되는 명언인 “모든 모델은 틀렸지만 일부는 유용하다”를 오해한 것에 뿌리를 두고 있으며, 이는 데이터 분석가가 자의적인 모델링 선택을 하도록 무책임하게 조장하는 데 사용되어 왔습니다. 그러나 근거 없는 가정을 세우면 \(\M\)에 \(P_0\)가 포함되지 않을 가능성이 높아지며, 이 경우 통계 모델이 잘못 지정되었다(misspecified)고 합니다. 통계 모델 오지정은 오해의 소지가 있고 신뢰할 수 없는 결과와 추론으로 이어지는 편향을 유발합니다.

정당하지 않은 가정과 과도한 단순화의 결과는 동일한 과학적 문제에 대해 극명하게 상이한 답이 나타나는 통계 데이터 과학 관행입니다. 실질적으로 이는 서로 다른 데이터 분석가에 의해 이루어진 (그러나 잘 전달되지 않은) 서로 다른 모델링 결정과 가정 하에서 별개의 통계 기술을 적용했기 때문입니다. 통계 데이터 분석의 초기 시절에도 “틀린 질문에 대한 정확한 답… 보다는 옳은 질문에 대한 대략적인 답을 [개발하는 것이] 훨씬 낫다” (Tukey 1962)는 점이 인식되었지만, 전통적인 통계학은 수십 년 동안 이 조언에 주의를 기울이지 못했습니다 (Donoho 2017). 로드맵은 관찰된 데이터의 기반이 되는 참 데이터 생성 분포의 표현을 통해 통계 모델을 정의함으로써 이러한 편향을 피합니다. 최종 목표는 통계적 추정 문제를 (가용한 과학적 지식에 의해 부과된 제한 내에서) 정밀하게 공식화하여, 동기를 부여하는 과학적 문제에 추정 절차를 맞춤화할 수 있도록 하는 것입니다.

도메인 과학자가 데이터를 생성한 과정/실험에 대해 _실제로 알려진 것_이 무엇인지 절대적으로 명확하게 파악하고, 이를 데이터 과학자에게 가능한 한 자세히 전달하는 것이 중요합니다. 이 지식은 그 자체로 기저 사실인 경우는 드물고, 대신 과학적 관습, 수용된 가설 및 운영상의 가정의 형태로 나타납니다. 그런 다음 도메인 지식을 \(P_0\)에 대한 통계적 지식으로 변환하고, \(P_0\)에 대해 알려진 바를 존중하면서 더 이상의 제한을 두지 않도록 통계 모델 \(\M\)을 정의하는 것이 데이터 과학자의 책임입니다. 이런 방식으로 \(P_0\)가 \(\M\)에 포함되도록 보장할 수 있으며, 우리는 이를 일반적으로 현실적인 통계 모델 \(\M\)을 정의하는 것이라고 부릅니다.

\(\M\)을 현실적으로 정의하려면 통계적 문제 해결 패러다임의 전환이 필요합니다. 익숙한 방법/소프트웨어를 고려하고 그 도구 상자로 대부분의 문제를 해결하려고 시도하는 대신, 먼저 실험과 과학적 질문에 대한 깊은 이해를 얻은 다음 이를 존중하는 방식으로 데이터로부터 배우기 위한 계획을 수립해야 합니다. 이를 위해서는 통계학자가 견고한 방법론적 및 이론적 기초뿐만 아니라 좋은 의사소통 기술을 갖추어야 합니다. 연구의 세부 사항을 검토하고, 관심 질문을 다듬고, 기술적 세부 사항을 번역하며, 통계적으로 정확하고 비통계학자인 도메인 전문가가 동의할 수 있는 방식으로 결과를 해석하기 위해 일반적으로 도메인 전문가와 여러 번의 회의가 필요하기 때문입니다. 불행하게도 통계학자와 비통계학자 연구자 사이의 의사소통은 종종 오해로 가득 차 있습니다. 각자 고유한 전문 지식이 있기 때문에 이는 예상되는 일이지만, 기저 과학과 동기 부여 연구에 대한 적절한 의사소통은 각자가 주어진 통계 데이터 분석에 대해 적절한 맥락을 갖도록 보장하는 데 도움이 될 수 있습니다. 로드맵은 데이터를 현실적으로 학습하기 위한 원칙적인 메커니즘을 제공하므로, 데이터로부터 배운 것이 관심 있는 과학적 질문에 대한 답의 신뢰할 수 있고 재현 가능한 근사치를 나타내도록 합니다. 로드맵은 과학적 지식과 질문을 데이터로부터 배우는 데 사용할 수 있는 통계적 프레임워크로 변환하기 위한 엄격한 방법을 제공하므로, 통계학자와 비통계학자 도메인 과학자 사이의 의사소통을 가이드하는 매우 귀중한 도구입니다. 이는 로드맵의 다음 단계인 “데이터로부터 무엇을 배우고자 하는가?”로 우리를 이끕니다.

5.2.3 통계적 타겟 파라미터 \(\Psi\)와 통계적 피추정치 \(\psi_0\)

통계적 타겟 파라미터 \(\Psi\)는 통계 모델 \(\M\)에서 파라미터 공간으로의 매핑으로 정의됩니다. 보통 파라미터 공간은 실수(반드시 그럴 필요는 없지만)이며, 이 경우 타겟 파라미터를 매핑 \(\Psi: \M \rightarrow \R\)로 공식적으로 정의할 수 있습니다. 통계적 피추정치는 데이터로부터 배우고자 하는 수량, 즉 특정 타겟 모집단에 대해 잘 지정된 – 종종 인과적인 – 관심 질문에 대한 답의 표현으로 볼 수 있습니다. 일반적인 통계적 피추정치와 달리, 인과적 피추정치는 _관찰된 데이터로부터의 식별(identification)_을 허용하기 위해 추가적인 가정이 필요합니다. 인과 모델 (Pearl 2009; Hernán and Robins 2022)에 기반하여, 식별 가정은 테스트 불가능하며 연구 중인 시스템이나 실험이 수행된 과정에 대한 지식의 조합을 통해 정당화되어야 합니다. 이러한 가정은 인과적 타겟 파라미터에 관한 다음 섹션에서 더 자세히 설명합니다.

간단한 예로, 모든 성인에 대한 생존 시간 관찰값을 포함하는 데이터셋을 생각해 보십시오. 여기서 우리의 관심 질문은 “성인이 5년 이상 살 확률은 얼마인가?”입니다. 우리는 다음과 같이 식을 세울 수 있습니다.

\[\begin{equation*} \psi_0 = \Psi(P_0) = \E_{P_0}(O > 5) = \int_5^{\infty} dP_0(o). \end{equation*}\]

이 질문에 대한 답은 통계적 피추정치, \(\Psi(P_0)=\psi_0\)이며, 이는 우리가 데이터로부터 배우고자 하는 수량입니다. 위에서 논의한 바와 같이, \(\M\)을 현실적으로 정의하고, 질문이 데이터에서 뒷받침되도록 \(\Psi\)와 타겟 모집단을 확정하기 위해 도메인 과학자와 통계학자 사이의 빈번한 의사소통이 필요합니다. 예를 들어, 성인의 편두통 치료를 위한 두통 약의 평균 효과를 배우는 데 관심이 있는데 고혈압이 있는 사람은 아무도 그 약을 받을 수 없다는 것을 알게 되었다고 가정해 봅시다. 도메인 과학자와의 다음 회의에서 우리는 타겟 모집단을 고혈압이 없는 성인으로 수정하거나, \(\Psi\) 내에서 고혈압이 있는 성인은 결코 치료를 받을 수 있는 개인으로 간주되지 않는 동적 치료와 관련된 질문을 하도록 제안할 수 있습니다. \(O\), 현실적인 \(\M\) 및 \(\Psi\)를 정의하고 나면, 통계적 추정 문제를 공식적으로 정의한 것입니다. 다음은 4단계입니다: “관심 있는 질문에 대한 대략적인 답을 데이터로부터 어떻게 배우는가?”

5.2.4 추정기 \(\hat{\Psi}\)와 추정치 \(\psi_n\)

통계적 피추정치의 좋은 근사치를 얻으려면 추정기 \(\hat{\Psi}\)가 필요합니다. 이는 가능한 경험적 분포 \(P_n\)의 집합(비모수 통계 모델 \(\M_{NP}\)에 존재함)에서 관심 있는 타겟 파라미터의 파라미터 공간으로의 매핑으로 정의된 사전 지정된 알고리즘입니다: \(\hat{\Psi} : \M_{NP} \rightarrow \R\). 즉, \(\hat{\Psi}\)는 관찰된 데이터(\(P_n\)의 실현)를 입력으로 받아 파라미터 공간의 값을 출력하는 함수입니다. 추정기가 관찰된 데이터에 대응하는 경험적 분포를 파라미터 공간의 값으로 매핑하는 연산자로 볼 수 있다면, 그러한 함수에 의해 생성된 수치 출력은 추정치, \(\hat{\Psi}(P_n)=\psi_n\)입니다. 따라서 \(\psi_n\)은 관찰된 데이터 \(O_1, \ldots, O_n\)의 경험적 확률 분포 \(P_n\)에 의해 정보를 얻은 파라미터 공간의 원소입니다. \(P_n\)의 실현(무작위 변수 \(O\)의 표본 크기 \(n\)에 기반함)을 대입하면 참 파라미터 값 \(\psi_0\)에 대한 추정치 \(\psi_n\)을 얻습니다. 2단계에서 동기를 부여했듯이, 추정을 위해 현실적인 통계 모델을 고려하는 것이 필수적입니다. 따라서 데이터 생성 과정의 일부를 제한하지 않는 유연한 추정기가 필요합니다. 준모수 이론(Semiparametric theory)과 경험적 과정 이론(empirical process theory)은 현실적인 통계 모델에서 유연한 추정 전략에 의존하는 추정기의 동작을 구축하고, 벤치마킹하며, 이해하기 위한 프레임워크를 제공합니다. 일반적으로 추정기의 바람직한 특성은 점근적 선형성(regular asymptotically linear, RAL)과 효율성(efficient)이며, 이를 통해 최소 분산을 갖는 정규 극한 분포를 인정하게 됩니다. RAL 대입/플러그인(substitution/plug-in) 추정기도 유리합니다. 이들은 \(\M\)의 범위 내에 머무르는 것이 보장되며, 플러그인이 아닌 추정기에 비해 유한 표본에서 개선된 편향과 분산을 가집니다. 이론과 이러한 속성에 대한 심도 있는 논의는 문헌에서 찾아볼 수 있습니다 (예: Kennedy 2016; van der Laan and Rose 2011). 다음 단계에서 몇 가지 핵심 개념을 검토합니다.

통계적 추론 수행 과정의 일부로 타겟 파라미터 추정치의 불확실성을 정량화하려면 추정기의 샘플링 분포에 대한 이해가 필요합니다. 이는 5단계로 이어집니다: “과학적 질문에 대한 통계적 답을 얼마나 신뢰해야 하는가?”

5.2.5 추정치 \(\psi_n\)에 대한 불확실성 척도

추정기 \(\hat{\Psi}\)는 경험적 분포 \(P_n\)의 함수이므로, 추정기 자체는 샘플링 분포를 갖는 무작위 변수입니다. 따라서 \(n\)개의 관찰값을 추출하는 실험을 반복한다면, 매번 서로 다른 추정치 실현을 얻게 될 것입니다. 이러한 추정치들의 가상 분포가 추정기의 샘플링 분포입니다.

추정기 구축의 일차적인 목표는 경험적 과정 이론과 관련된 이론적 분석을 통해 점근적 샘플링 분포를 도출할 수 있는 것입니다. 이와 관련하여 우리가 집중하는 추정기의 중요한 속성은 점근적 선형성입니다. 특히 점근적 선형성은 추정기와 타겟 파라미터(즉, 참값) 사이의 차이가 점근적으로 i.i.d. 무작위 변수들의 평균과 점근적으로 무시할 수 있는 나머지 항의 합으로 표현될 수 있음을 나타냅니다.

\[\begin{equation*} \hat{\Psi}(P_n) - \Psi(P_0) = \frac{1}{n} \sum_{i=1}^n IC(P_0)(O_i) + o_p(n^{-1/2}), \end{equation*}\] 여기서 영향 곡선(influence curve, IC)은 관찰된 데이터 \(O\)의 함수이지만, 함수 자체는 기본 데이터 생성 분포 \(P_0\)에 의해 정의됩니다. 이러한 점근적 근사를 기반으로 중심 극한 정리를 사용하여 다음을 보여줄 수 있습니다.

\[\begin{equation*} \sqrt{n} \left(\hat{\Psi}(P_n) - \Psi(P_0)\right) \sim N(0, \sigma^2_{IC}), \end{equation*}\] 여기서 \(\sigma^2_{IC}\)는 \(IC(P_0)(O)\)의 분산입니다. \(\sigma^2_{IC}\)의 추정치가 주어지면, 고전적이고 점근적으로 정확한 Wald형 신뢰 구간(CI)과 가설 검정을 구축할 수 있습니다. 예를 들어, 표준 \((1 - \alpha)\) CI는 다음과 같은 형태를 취합니다.

\[\begin{equation*} \psi_n \pm Z \frac{\hat{\sigma}_{IC}}{\sqrt{n}} \ , \end{equation*}\] 여기서 \(Z\)는 표준 정규 분포의 \((1 - \alpha / 2)\)번째 분위수입니다. 관례에 따라 우리는 종종 극한 분포의 각 꼬리에 확률 질량 \(\alpha/2 = 0.025\)에 해당하는 95% 양측 CI를 구축하는 데 관심이 있으며, 따라서 \(Z \approx 1.96\)을 분위수로 취할 것입니다.

로드맵의 단계는 통계 분석 계획을 정의하며, 이 모든 과정은 데이터가 공개되기 전에 수행될 수 있습니다. 로드맵의 마지막 단계는 4단계와 5단계에서 얻은 결과를 해석하는 과정을 포함하므로 데이터 분석이 필요합니다. 그러나 6단계의 일부로 수행될 수 있는 추가 분석도 사전 지정될 수 있습니다. 로드맵의 이 마지막 단계는 다음과 같은 질문을 다룹니다: “연구 결과의 해석과 견고성은 어떠하며, 이를 통해 어떤 결론을 내릴 수 있는가?”

5.2.6 실질적인 결론 도출

실질적인 결론을 도출하는 것에는 연구 결과를 해석하는 과정이 포함됩니다. 또한 나중에 다루어질 수 있는 후속 질문을 하거나 향후 연구에 정보를 제공할 수 있는 문제를 논의할 기회를 제공합니다. 통계적 피추정치 \(\psi_0\)는 통계적(비인과적) 해석과 인과적 해석을 모두 가질 수 있습니다. 둘 다 종종 관심 대상이며 제공될 수 있습니다. 결과의 외삽을 제한하기 위해, 순수하게 통계적인 해석이든 인과적인 해석이든 관계없이 타겟 모집단이 해석에 명확하게 언급되어야 합니다.

통계적 해석과 인과적 해석 사이의 주요 차이점은 후자가 테스트 불가능한 소위 “식별성(identifiability)” 가정에 의존한다는 것입니다. 다음 섹션에서는 이러한 가정을 하나씩 검토합니다. 여기서는 그 가정들과 관련하여 연구 결과의 해석과 견고성에 초점을 맞춥니다. 구체적으로, 인과적 타겟 파라미터는 추가적인 식별성 가정 없이는 관찰된 데이터로부터 추정될 수 없으므로, 결과의 인과적 해석의 타당성은 데이터에서 해당 가정이 성립하는지 여부에 달려 있습니다. 이러한 가정이 성립하지 않을수록 통계적 피추정치와 인과적 피추정치 사이의 차이인 _인과적 격차(causal gap)_가 커집니다. 추적 관찰 실패가 없는 완벽한 무작위 대조 시험에서 통계적 피추정치와 인과적 피추정치는 동일하므로 인과적 격차는 0이 됩니다. Dı́az and van der Laan (2013) 에서는 가상의 인과적 격차가 추정 및 추론에 미치는 영향을 평가하기 위한 비모수적 민감도 분석이 제안되었습니다. Gruber et al. (2023) 및 Gruber et al. (2022) 에는 Dı́az and van der Laan (2013) 에서 제안된 방법의 구현 예시가 있습니다. 특히 조정된 효과 추정치와 조정되지 않은 효과 추정치 사이의 차이는 이 차이에 비례하는 가능한 인과적 격차 범위를 정의하는 데 사용됩니다. 관심 질문이 인과적인 경우, 연구 결과의 견고성을 평가하기 위해 이러한 모델 프리 민감도 분석(다른 민감도 분석의 보완책일 수 있음)이 권장됩니다.

5.3 로드맵 요약

\(n\)개의 i.i.d. 단위에 대해 수집된 데이터 \(O_1, \ldots, O_n\)은 동일한 기본 확률 분포 \(P_0\)에서 발생하는 무작위 변수들의 모음으로 볼 수 있습니다. 이는 데이터 모음이 \(O_1, \ldots, O_n \sim P_0\)로 생성되는 것으로 표시됩니다. 데이터를 생성한 실험에 대한 도메인 지식(예: 치료가 무작위화되었는지, 치료 결정이나 추적 관찰 실패가 공변량의 하위 집합에 의존했는지, 변수가 데이터에 추가된 시간 순서 등)은 통계학자/데이터 과학자에 의해 통계 모델 \(\M\)을 정의하는 데 변환됩니다. \(\M\)은 \(P_0\)를 포함할 것으로 상정되는 후보 확률 분포의 가상 공간입니다. 특히 로드맵은 \(P_0\)가 확실히 포함되도록 \(\M\)을 정의하는 결정적인 역할을 강조합니다(\(P_0 \in \M\)). 실험에 대한 도메인 지식(즉, 현실)에 기반해서만 \(\M\)을 제한함으로써 — 비현실적으로 제약하는 것(예: 주효과 선형/로지스틱 모델과 같은 제한적인 함수 형태가 \(P_0\)를 설명한다고 가정하는 것)과 반대로 — \(P_0 \in \M\)임을 보장할 수 있으며, 우리는 이를 현실적인 통계 모델을 정의하는 것이라고 부릅니다. 종종 \(\M\)을 제한하는 데 사용할 수 있는 지식은 매우 제한적이어서 \(P_0 \in \M\)이 되도록 정의하려면 \(\M\)이 매우 커야 합니다. 따라서 현실적인 통계 모델은 유한 차원의 파라미터 세트로 인덱싱하기에 너무 크기 때문에 종종 준모수적 또는 비모수적이라고 불립니다. 필연적으로 우리의 통계적 질의는 “데이터로부터 무엇을 배우려고 하는가?”라는 질문으로 시작해야 하며, 이 질문에 대한 답은 참 데이터 생성 분포 \(P_0\)에 의해 정의된 함수인 통계적 타겟 파라미터 \(\Psi\)에 의해 포착됩니다. \(\Psi\)는 \(\M\)을 통계적 피추정치 \(\psi_0\)로 매핑합니다. 이 단계에서 통계적 추정 문제가 공식적으로 정의되며, 데이터로부터 학습하여 관심 있는 질문에 대한 답을 근사화하는 알고리즘인 추정기의 구축을 안내하기 위해 통계 이론을 사용할 수 있게 됩니다. 추정기의 바람직한 특성은 비편향성, 효율성, 플러그인 속성 및 유한 표본에서의 견고성입니다. 관심 질문이 인과적인 경우, 다양한 가상의 인과적 격차 하에서 연구 결과의 견고성을 평가하기 위해 모델 프리 민감도 분석이 권장됩니다.

5.4 인과적 타겟 파라미터

많은 경우, 우리는 배정된 치료(예: 처방약) 또는 “자연적으로 발생하는” 노출(예: 인근 공장의 오염)이 관심 있는 미래 결과에 미치는 _인과적 효과_에 관한 질문을 던지는 문제에 관심을 갖습니다. 이러한 인과적 효과는 대조되는 중재 하에서 관심 모집단의 요약(예: 특정 결과의 모집단 평균)으로 정의될 수 있습니다(예: 치료받은 상태와 치료받지 않은 상태를 비교). 예를 들어, 인과적 효과는 두 인과적 대조(causal contrasts) 사이의 질병 결과의 평균 차이로 정의될 수 있습니다. 인과적 대조란 연구 모집단이 어떤 오염 물질에 대해 일률적으로 낮은 오염 수준을 경험하도록 설정된 반사실적 사례와, 동일한 모집단이 동일한 오염 물질에 대해 일률적으로 높은 수준을 경험하도록 설정된 사례를 말합니다.

관심 있는 인과적 대조를 설명하는 데 필요한 반사실적 데이터를 생성하는 이론적 실험을 운영하는 데에는 여러 가지 방법이 있습니다. 단순히 관심 있는 모든 치료 대조에 대해 이론적으로 반사실적 결과가 존재한다고 가정할 수도 있으며 (Neyman 1938; Rubin 2005; Imbens and Rubin 2015), 이는 소위 “과학 테이블(science tables)”로 인코딩될 수 있습니다. 또는 인과 관계를 나타내는 유향 비순환 그래프(DAG)로 표현될 수 있는 구조적 인과 모델(SCM)에 대한 중재를 고려할 수도 있습니다 (Pearl 1995, 2009). 두 프레임워크 모두 연구 중인 시스템 내 변수들 사이의 알려졌거나 가설화된 관계 세트를 인코딩하고 수학적으로 공식화할 수 있게 해줍니다.

5.4.1 인과 모델

본 핸드북 전반에 걸쳐 우리는 인과 파라미터의 설명을 위해 DAG와 SCM의 사용에 집중할 것입니다. 표준적이지만 테스트 불가능한 식별성 가정 하에서 이러한 인과 파라미터에 대응하는 통계 파라미터의 추정기가 아래에 소개됩니다. DAG는 연구 중인 시스템 내 변수들 사이의 인과 관계에 대해 우리가 알고 있는 바를 시각적으로 표현하는 데 특히 유용한 도구입니다. 외생 변수 \(U\)(아래 설명됨)를 무시하고, 관찰된 데이터 \(O\)를 구성하는 변수들의 순서가 다음과 같다고 가정합니다. DAGitty (Textor, Hardt, and Knüppel 2011)를 사용하여 아래에 DAG를 구축하는 시연을 보입니다.

library(dagitty)
library(ggdag)

# 의존성 구조를 지정하여 DAG 생성
dag <- dagitty("dag{
    W -> A ;
    W -> Y ;
    A -> Y ;
    W -> A -> Y ;
    W [confounders]
    A [exposure]
    Y [outcome]
  }")
tidy_dag <- tidy_dagitty(dag)

# DAG 시각화
ggdag(tidy_dag) +
  theme_dag()

위와 같은 DAG는 변수들 사이의 인과 관계를 표현하는 편리한 수단을 제공하지만, 동일한 인과 관계를 SCM으로도 동등하게 표현할 수 있습니다. \[\begin{align*} W &= f_W(U_W) \\ A &= f_A(W, U_A) \\ Y &= f_Y(W, A, U_Y), \end{align*}\] 여기서 \(f\)는 DAG에서 변수의 “부모”(즉, 해당 무작위 변수로 화살표가 들어오는 상류 노드)와 관찰되지 않은 외생 오차 항(\(U\)들)의 함수로서 해당 무작위 변수를 생성하는 지정되지 않은 결정론적 함수입니다. SCM은 관심 모집단에서 데이터 \(O\)를 생성하는 알고리즘의 표현으로 생각할 수 있습니다. 통계학 및 데이터 과학의 많은 부분은 이 방정식 시스템의 특성(예: 결과 변수 \(Y\)를 지배하는 함수 형태 \(f_Y\)의 추정)을 발견하는 데 전념합니다.

우리가 고려할 첫 번째 가상 실험은 전체 모집단에 노출을 할당하고 결과를 관찰한 다음, 동일한 모집단에 노출을 거부하고 결과를 관찰하는 것입니다. 이는 두 개의 뚜렷한 중재 하에서 모집단의 결과 분포를 비교하는 것에 해당합니다.

모든 개인에 대해 \(A\)를 \(1\)로 설정합니다.
모든 개인에 대해 \(A\)를 \(0\)로 설정합니다.

이러한 중재는 연구 중인 시스템의 구조 방정식에 변화를 수반하는 연산으로 생각할 수 있습니다. \(A = 1\)인 경우, 다음과 같습니다. \[\begin{align*} W &= f_W(U_W) \\ A &= 1 \\ Y(1) &= f_Y(W, 1, U_Y) \ , \end{align*}\] 반면, \(A = 0\)인 경우, 다음과 같습니다. \[\begin{align*} W &= f_W(U_W) \\ A &= 0 \\ Y(0) &= f_Y(W, 0, U_Y) \ . \end{align*}\]

이 방정식들에서 \(A\)는 더 이상 \(W\)의 함수가 아닙니다. 왜냐하면 시스템에 대한 중재가 \(A\)를 수행된 중재와 일치하는 값인 \(1\) 또는 \(0\) 중 하나로 결정론적으로 설정했기 때문입니다. 새로운 기호 \(Y(1)\)과 \(Y(0)\)은 \(f_Y\)에 대한 \(A\)의 기여를 제거하고 대신 \(A\)를 각각 \(1\)과 \(0\)으로 설정하여 생성되었을 때 관심 모집단에서 결과 변수가 취하게 될 값을 나타냅니다. 변수 \(Y(1)\)과 \(Y(0)\)은 종종 반사실적(counterfactuals, 사실과 반대되는 중재에서 발생하기 때문)이라고 불리며, 다른 프레임워크에서는 \(Y\)의 _잠재적 결과(potential outcomes)_라고 불립니다 [Neyman (1938); rubin2005causal; imbens2015causal]. 이 두 중재 하에서 결과의 반사실적 평균의 차이는 “평균 치료 효과(Average Treatment Effect, ATE)”라고 가장 흔히 불리는 잘 알려진 인과 파라미터를 정의하며 다음과 같이 표시됩니다.

\[\begin{equation} ATE = \E_X[Y(1) - Y(0)], (\#eq:ate) \end{equation}\] 여기서 \(\E_X(\cdot)\)은 이론적인(관찰 불가능한) 전체 데이터(즉, \(X = (W, Y(1), Y(0))\)) 분포 \(P_X\)에 대해 취해진 기대값입니다. 전체 데이터 구조 \(X\)는 그 정의상 관찰 불가능한데, 동일한 관찰 단위에 대해 \(Y(1)\)과 \(Y(0)\)을 동시에 관찰할 수 없기 때문입니다.

우리는 SCM에 대해 훨씬 더 복잡한 중재를 정의할 수 있습니다. 예를 들어 동적 규칙(공변량 \(W\)의 함수에 기반하여 특정 중재를 할당), 확률적 규칙(중재가 없을 때 관찰되는 \(A\)의 자연스러운 값까지 고려할 수 있음) 등에 기반한 중재가 있습니다. 각각은 서로 다른 타겟 인과 파라미터를 초래하며 아래에서 논의할 서로 다른 식별성 가정을 수반합니다.

5.4.2 식별성(Identifiability)

우리는 \(A=0\)일 때의 반사실적 결과 \(Y(0)\)와 \(A=1\)일 때의 반사실적 결과 \(Y(1)\)을 결코 동시에 관찰할 수 없기 때문에, ATE를 정의하는 기대값 \(\E_X(\cdot)\) 내부(식 @ref(eq:ate))에 나타나는 그들의 차이 \(Y(1) - Y(0)\)(개별 치료 효과)를 추정할 수 없습니다. 이를 _인과 추론의 근본 문제_라고 부릅니다 (Holland 1986). 따라서 인과 추론의 주요 활동 중 하나는 관심 있는 인과량을 관찰된 데이터의 데이터 생성 분포의 함수로 표현하는 데 필요한 가정을 _식별_하는 것입니다. 이를 위해, \(O \sim P_0\)로 관찰된 데이터와 그에 대응하는 데이터 생성 분포 \(P_0\)로부터 그러한 양이 추정될 수 있는 가정을 세워야 합니다. 다행히 위 SCM에서 지정된 인과 모델이 주어지면 몇 가지 테스트 불가능한 가정을 통해 관찰 데이터로부터 ATE를 추정할 수 있습니다. 이러한 가정은 다음과 같이 요약될 수 있습니다.

단위 \(i\)에 대한 결과는 \(A_i = a\)일 때마다 \(Y_i(a)\)입니다. 이는 “치료의 다른 버전이 없음” 또는 “치료의 부작용 없음”으로 생각할 수 있습니다.

단위 \(i\)에 대한 결과 \(Y_i\)는 모든 \(i \neq j\)에 대해 다른 단위 \(j\)의 노출 \(A_j\)에 의해 영향을 받을 수 없습니다.

모든 \(a \in \mathcal{A}\)에 대해 \(A \perp Y(a) \mid W\)입니다. 이는 잠재적 결과 \((Y(a) : a \in \mathcal{A})\)가 관찰된 공변량 \(W\)를 조건으로 노출 상태 \(A\)로부터 독립적으로 발생함을 나타냅니다. 이는 자연 실험에서 발생하는 데이터에서의 무작위화 가정과 대응되며, \(W\)가 \(A\)와 \(Y\) 모두에 영향을 미치더라도 \(Y\)에 대한 \(A\)의 효과가 \(Y\)에 대한 \(W\)의 효과와 분리될 수 있음을 보장합니다.

\(W\)에 의해 정의된 모든 계층에 걸쳐 관찰된 모든 단위는 치료를 받을 확률이 0보다 커야 합니다. 즉, 모든 \(a\)와 \(W\)에 대해 어떤 \(\epsilon > 0\)에 대해 \(\epsilon < \P(A = a \mid W) < 1 - \epsilon\)이어야 합니다.

엄밀히 말하면 SCM 프레임워크 내에서 작업할 때는 뒤의 두 가지만 필요합니다. 처음 두 가지는 i.i.d. 데이터에 대한 SCM의 함축된 속성이기 때문입니다(정말 궁금하시다면 Pearl (2010) 의 논평을 참조하십시오). 우리는 이 네 가지 식별 가정을 모두 소개하는데, 이는 대개 함께 고려되며 잠재적 결과 프레임워크 내에서 작업할 때 네 가지 모두가 필수적이기 때문입니다 (Rubin 2005; Imbens and Rubin 2015).

이러한 가정 하에서 ATE는 관찰된 데이터의 분포인 \(P_0\)의 함수로 다시 작성될 수 있습니다.

\[\begin{align} \psi_{\text{ATE}} &= \E_0[Y(1) - Y(0)] \\ \nonumber &= \E_0 [\E_0[Y \mid A = 1, W] - \E_0[Y \mid A = 0, W]] \ . (\#eq:estimand) \end{align}\] 말로 풀어서 설명하자면, ATE는 모집단에서(모든 관찰값에 대해 평균을 낼 때) 치료 조건의 대조(\(A = 0\) 대 \(A = 1\)) 하에 각 피험자에 대해 예측된 결과 값의 평균 차이입니다. 따라서 이론적인 완전(또는 “전체”) 데이터 분포의 파라미터는 관찰된 데이터 분포의 피추정치로 표현될 수 있습니다. 중요한 점은 식 @ref(eq:estimand)의 표현에서 모수적 가정을 요구하는 것이 아무것도 없다는 것입니다. 따라서 우변의 회귀 함수는 기본 함수 형태에 대한 제한적인 가정 없이 추정될 수 있습니다. 파라미터가 다르면 잠재적으로 식별성 가정도 달라질 것이며, 결과로 나오는 피추정치는 \(P_0\)의 서로 다른 구성 요소의 함수가 될 수 있습니다. 이후 장에서 몇 가지 더 복잡한 피추정치를 논의할 것입니다.

Dı́az, Iván, and Mark J van der Laan. 2013. “Sensitivity Analysis for Causal Inference Under Unmeasured Confounding and Measurement Error Problems.” The International Journal of Biostatistics 9 (2): 149–60. https://doi.org/10.1515/ijb-2013-0004.

Donoho, David. 2017. “50 Years of Data Science.” Journal of Computational and Graphical Statistics 26 (4): 745–66.

Gruber, Susan, Rachael V Phillips, Hana Lee, John Concato, and Mark van der Laan. 2022. “Evaluating and Improving Real-World Evidence with Targeted Learning.” arXiv Preprint arXiv:2208.07283.

Gruber, Susan, Rachael V Phillips, Hana Lee, Martin Ho, John Concato, and Mark J van der Laan. 2023. “Targeted Learning: Toward a Future Informed by Real-World Evidence.” Statistics in Biopharmaceutical Research. https://doi.org/10.1080/19466315.2023.2182356.

Hernán, Miguel A, and James M Robins. 2022. Causal Inference: What If. CRC Press.

Holland, Paul W. 1986. “Statistics and Causal Inference.” Journal of the American Statistical Association 81 (396): 945–60.

Imbens, Guido W, and Donald B Rubin. 2015. Causal Inference in Statistics, Social, and Biomedical Sciences. Cambridge University Press.

Kennedy, Edward H. 2016. “Semiparametric Theory and Empirical Processes in Causal Inference.” In Statistical Causal Inferences and Their Applications in Public Health Research, 141–67. Springer.

Neyman, Jerzy. 1938. “Contribution to the Theory of Sampling Human Populations.” Journal of the American Statistical Association 33 (201): 101–16.

Pearl, Judea. 1995. “Causal Diagrams for Empirical Research.” Biometrika 82 (4): 669–88.

———. 2009. Causality: Models, Reasoning, and Inference. Cambridge University Press.

———. 2010. “Brief Report: On the Consistency Rule in Causal Inference: ‘Axiom, Definition, Assumption, or Theorem?’” Epidemiology, 872–75.

Rubin, Donald B. 2005. “Causal Inference Using Potential Outcomes: Design, Modeling, Decisions.” Journal of the American Statistical Association 100 (469): 322–31.

Textor, Johannes, Juliane Hardt, and Sven Knüppel. 2011. “DAGitty: A Graphical Tool for Analyzing Causal Diagrams.” Epidemiology 22 (5): 745.

Tukey, John W. 1962. “The Future of Data Analysis.” The Annals of Mathematical Statistics 33 (1): 1–67.

van der Laan, Mark J, and Sherri Rose. 2011. Targeted Learning: Causal Inference for Observational and Experimental Data. Springer Science & Business Media.