2 서론

“견고한 과학의 적 중 하나는 우리의 인간성입니다. 즉, 자신이 옳고자 하는 욕구, 노이즈에서 패턴을 찾으려는 경향, 이미 사실이라고 믿는 것을 뒷받침하는 증거를 보려는 경향, 그리고 맞지 않는 사실을 무시하려는 경향입니다.”

— Nature Editorial (Anonymous) (2015b)

과학 연구는 역사적으로 독특한 지점에 와 있습니다. 엄격함과 재현성을 개선해야 할 필요성이 그 어느 때보다 커졌습니다. 입증은 과학을 발전시키지만, 결과가 재현되거나 검증될 수 없다는 우려가 커지고 있으며, 이는 많은 발견이 처음에 주장된 것보다 덜 견고하거나 거짓일 수 있음을 시사합니다 (Baker 2016). 이러한 요구를 충족하지 못하면 과학적 진보의 속도가 더욱 떨어지고, 과학계 전체의 명성이 훼손되며, 과학적 발견에 대한 대중의 신뢰가 약화될 것입니다 (Munafò et al. 2017; Nature Editorial (Anonymous) 2015a).

“과학 연구 결과를 볼 때 우리가 답하고자 하는 핵심 질문은 데이터 분석을 신뢰할 수 있느냐 하는 것입니다.”

— Peng (2015)

불행하게도 현재의 통계 데이터 분석 문화는 인간의 편향이 (이상적으로는 객관적인) 데이터 분석 노력의 결과에 영향을 미치는 방식을 막기보다는 오히려 조장하고 있습니다. 상당한 수준의 인간 편향이 부적절한 모델 선택의 형태로 통계 데이터 분석에 개입됩니다. 추정 및 가설 검정을 위한 모든 절차는 통계 모델의 선택을 기반으로 도출됩니다. 따라서 유효한 추정치와 통계적 추론을 얻는 것은 선택된 모델이 데이터를 생성한 과정을 정확하게 표현하고 있는지에 결정적으로 달려 있습니다.

예를 들어, 환자 그룹에 치료법이 할당된 가상의 연구를 생각해 보십시오. 치료법이 무작위로 할당되었습니까, 아니면 치료 할당 결정을 내릴 때 개인의 특성(즉, “기저 공변량”)을 고려했습니까? 더욱이, 환자의 특성과 임상의의 의사 결정 이질성을 고려할 때, 치료군에 할당된 환자들이 일률적으로 동일한 치료를 받고 있습니까? 이러한 모든 지식은 통계 모델 선택에 통합되어야 하며, 실제로 반드시 통합되어야 합니다. 또는 데이터가 치료 할당 메커니즘에 대한 통제가 없거나 매우 제한적인 관찰 연구(또는 “준실험”)에서 발생할 수도 있습니다. 그러한 경우, 데이터 생성 과정(DGP)에 대해 가용한 지식은 훨씬 더 제한적입니다. 이러한 상황에서 통계 모델은 데이터의 모든 가능한 분포를 포함해야 합니다. 그러나 실제로는 DGP에 대해 가용한 과학적 지식에 기반하여 모델을 선택하지 않습니다. 대신 모델은 종종 (1) 분석가의 철학적 성향, (2) 모델 선택 내에서 허용되는 통계적 방법의 구현 편의성, (3) 유의성 검정 결과(즉, p-값)에 따라 선택됩니다.

“화물 숭배 통계학(cargo-cult statistics) — 양심적인 실천보다는 통계학을 의례적으로 흉내 내는 것” (Stark and Saltelli 2018)이라고 불리는 이러한 관행은 자의적인 모델링 선택이 특징이며, 이러한 선택은 종종 동일한 연구 질문에 대해 서로 다른 결과를 초래합니다. 적절하게 설계된 실험과 데이터 수집 절차를 사용하여 주장의 진실성을 평가하기 위한 공식적인 기술을 제공함으로써 과학적 과정을 보호하려는 원래 목적과 달리, 통계학은 점점 더 “취약한 과학을 돕고 부추기는 데 사용되고 있으며, 기계적으로 또는 의례적으로 사용될 때 그 역할을 잘 수행할 수 있습니다” (Stark and Saltelli 2018). 통계적 방법을 남용하여 과학적 발견을 도출하는 현재의 경향은 과학 연구가 겪고 있는 현대의 가짜 발견 유행을 설명하는 데 도움이 됩니다 (van der Laan and Starmans 2014).

“우리는 통계적 이해가 부족한 이유가 부적절한 ‘통계학 라이트(statistics lite)’ 교육 때문일 수 있다고 제안합니다. 이 접근 방식은 적절한 수학적 기초를 구축하지 않으며 과학적으로 엄격한 통계학 입문을 제공하지 않습니다. 따라서 학생들의 지식은 부정확하고 단편적이며 심각한 오해를 일으키기 쉬운 상태로 남을 수 있습니다. 그러나 이 접근 방식이 달성하는 것은 학생들이 블랙박스 통계 소프트웨어에서 제공하는 p-값만 해석하면서도 추론 도구를 사용할 수 있다는 잘못된 자신감을 갖게 하는 것입니다. 이 교육적 문제가 해결되지 않은 채 남아 있는 한, 편집자들이 어떤 절차와 척도를 선호하거나 금지하든 관계없이 부실한 통계 관행이 만연할 것입니다.”

— Szucs and Ioannidis (2017)

캘리포니아 대학교 버클리 팀은 그러한 교육을 제공하기에 독보적인 위치에 있습니다. Mark van der Laan 교수가 이끌고 있으며, 현재 이 분야를 크게 풍요롭게 한 그의 제자들과 동료들을 통해 빠르게 확산되고 있는 “타겟 러닝(Targeted Learning)” 패러다임은 주어진 연구나 데이터셋을 동기 부여하는 과학적 질문에 대한 집중(즉, “타겟팅”)을 강조합니다. 타겟 러닝의 철학은 편향된 추정, 오해의 소지가 있는 데이터 분석 결과, 잘못된 발견의 문을 여는 현재의 “편의 통계학” 문화적 문제에 반대합니다. 타겟 러닝(TL)은 통계학을 공식화한 기본 원칙을 수용합니다. 특히 통계 모델이 데이터 생성 실험에 대한 실제 지식을 나타내야 한다는 점과 타겟 파라미터(데이터 생성 확률 분포의 특정 특징)가 데이터로부터 배우고자 하는 바를 나타낸다는 이중 개념을 포함합니다 (van der Laan and Starmans 2014). 이런 방식으로 TL은 기저 사실(ground truth)을 정의하고 추론을 위한 원칙적인 표준을 수립함으로써, 우리의 너무나 인간적인 편향(예: 사후 확신 편향, 확증 편향, 결과 편향)이 객관적인 데이터 분석 노력에 침투할 기회를 차단합니다.

“효과적인 고전적 [통계적] 추론의 핵심은 잘 정의된 질문과 그 질문을 테스트하는 분석 계획을 갖는 것입니다.”

— Nosek et al. (2018)

R.A. Fisher의 영향력 있는 고전인 Statistical Methods for Research Workers (Fisher 1946)에서 영감을 얻은 이 핸드북은 과학(생물학, 물리학, 경제학, 사회학 등 광범위하게 고려됨), 의학 및 공중보건학, 통계학 및 기타 수많은 관련 분야의 학생, 연구원, 업계 전문가 및 학자들에게 실무 교육을 제공하여 TL의 방법론적 발전을 활용하는 데 필요한 지식과 기술을 갖추도록 하는 것을 목표로 합니다. 타겟 러닝 패러다임은 인과 추론, 최신 비/준모수 통계 이론 및 기계 학습의 발전을 활용하여 질의에 대한 답을 자신 있게 개발하기 위한 단일 철학으로 통합된 원칙적인 기술 세트를 포괄합니다. 이를 통해 모든 데이터 분석이 현실적이고 데이터 생성 과정에 대해 알려진 것(및 알려지지 않은 것)을 적절히 반영하며, 계산 재현성의 가이드 원칙과 완전히 호환되도록 합니다.

과학적 관행이 번성하기 위해 현대 통계 방법론을 양심적으로 사용하는 것이 필요한 것처럼, 견고하고 잘 테스트된 소프트웨어는 실무자가 주어진 과학적 조사의 출판된 결과에 접근할 수 있도록 하는 데 중요한 역할을 합니다. 우리는 Buckheit and Donoho (1995) 이 제시한 “과학 출판물의 기사는… 학문 그 자체가 아니라 학문에 대한 광고일 뿐이다. 실제 학문은 완전한 소프트웨어 개발 환경과 수치를 생성한 완전한 지침 세트이다”라는 견해에 동의하며, 견고한 통계 소프트웨어의 가용성과 채택이 과학적 과정의 내재적이고 (가정된) 측면인 투명성을 향상시키는 핵심이라고 믿습니다.

통계 방법론이 실제로 쉽게 접근 가능하려면 사용자 친화적인 소프트웨어가 동반되는 것이 중요합니다 (Pullenayegum et al. 2016; Stromberg et al. 2004). 통계 계산을 위한 R 언어 및 환경 (R Core Team 2021)을 위한 패키지 세트로 구성된 tlverse 소프트웨어 생태계는 TL 방법론적 프레임워크에 대한 이러한 요구를 충족하기 위해 개발되었습니다. 이 소프트웨어 도구 모음은 계산적으로 재현 가능하고 효율적인 분석을 촉진할 뿐만 아니라 TL 교육을 위한 도구이기도 합니다. 특정 추정기나 소수의 관련 추정기를 구현하는 데 집중하기보다는, tlverse 생태계의 설계 패러다임은 타겟 러닝의 통계적 프레임워크 자체를 노출하는 데 중점을 둡니다. tlverse 생태계의 모든 소프트웨어 패키지는 타겟 러닝의 수학적 및 이론적 프레임워크에서 정의된 핵심 객체를 직접 모델링합니다. 더욱이, tlverse 소프트웨어 패키지는 확장성을 중심으로 한 핵심 설계 원칙을 공유하여 서로 결합하여 사용할 수 있으며 정교한 통계 분석을 공식화하기 위한 빌딩 블록으로 응집력 있게 사용될 수 있습니다. TL 프레임워크에 대한 입문서로는 Coyle et al. (2021) 의 최근 리뷰 논문을 추천합니다.

이 핸드북에서 독자는 tlverse 생태계를 통한 여정을 시작하게 될 것입니다. R 프로그래밍 연습, 사례 연구 및 직관을 형성하는 설명을 통해 독자들은 실제 인과 분석으로 이어질 TL 통계 방법론을 적용하기 위해 이 도구 상자를 사용하는 법을 배우게 될 것입니다. 이 학습 노력을 시작하기 전에 몇 가지 예비 지식이 필요합니다. 이를 위해 우리는 권장 학습 리소스 목록을 제공합니다.

Baker, Monya. 2016. “Is There a Reproducibility Crisis? A Nature Survey Lifts the Lid on How Researchers View the Crisis Rocking Science and What They Think Will Help.” Nature 533 (7604): 452–55.

Buckheit, Jonathan B, and David L Donoho. 1995. “Wavelab and Reproducible Research.” In Wavelets and Statistics, 55–81. Springer.

Coyle, Jeremy R, Nima S Hejazi, Ivana Malenica, Rachael V Phillips, Benjamin F Arnold, Andrew Mertens, Jade Benjamin-Chung, et al. 2021. “Targeting Learning: Robust Statistics for Reproducible Research.” arXiv. https://arxiv.org/abs/2006.07333.

Fisher, Ronald Aylmer. 1946. Statistical Methods for Research Workers. 10th ed. Oliver; Boyd.

Munafò, Marcus R, Brian A Nosek, Dorothy VM Bishop, Katherine S Button, Christopher D Chambers, Nathalie Percie Du Sert, Uri Simonsohn, Eric-Jan Wagenmakers, Jennifer J Ware, and John PA Ioannidis. 2017. “A Manifesto for Reproducible Science.” Nature Human Behaviour 1 (1): 0021.

Nature Editorial (Anonymous). 2015a. “How Scientists Fool Themselves — and How They Can Stop.” Nature 526 (7572).

———. 2015b. “Let’s Think about Cognitive Bias.” Nature 526 (7572). https://doi.org/10.1038/526163a.

Nosek, Brian A, Charles R Ebersole, Alexander C DeHaven, and David T Mellor. 2018. “The Preregistration Revolution.” Proceedings of the National Academy of Sciences 115 (11): 2600–2606.

Peng, Roger. 2015. “The Reproducibility Crisis in Science: A Statistical Counterattack.” Significance 12 (3): 30–32.

Pullenayegum, Eleanor M, Robert W Platt, Melanie Barwick, Brian M Feldman, Martin Offringa, and Lehana Thabane. 2016. “Knowledge Translation in Biostatistics: A Survey of Current Practices, Preferences, and Barriers to the Dissemination and Uptake of New Statistical Methods.” Statistics in Medicine 35 (6): 805–18.

R Core Team. 2021. “: A Language and Environment for Statistical Computing.” Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Stark, Philip B, and Andrea Saltelli. 2018. “Cargo-Cult Statistics and Scientific Crisis.” Significance 15 (4): 40–43.

Stromberg, Arnold et al. 2004. “Why Write Statistical Software? The Case of Robust Statistical Methods.” Journal of Statistical Software 10 (5): 1–8.

Szucs, Denes, and John Ioannidis. 2017. “When Null Hypothesis Significance Testing Is Unsuitable for Research: A Reassessment.” Frontiers in Human Neuroscience 11: 390.

van der Laan, Mark J, and Richard JCM Starmans. 2014. “Entering the Era of Data Science: Targeted Learning and the Integration of Statistics and Computational Data Analysis.” Advances in Statistics 2014.