18 결론
선행 조건
- 통계를 바로잡는 다섯 가지 방법, (Leek et al. 2017)
- 더 나은 데이터 과학을 수행하기 위한 성찰적 제언.
- 과학의 지형을 바꾼 10가지 컴퓨터 코드, (Perkel 2021)
- 현대 데이터 과학의 토대가 된 컴퓨팅 혁신의 역사를 다룹니다.
- 데이터 여정에서 배우기, (Leonelli 2020)
- 데이터 과학에서 데이터가 갖는 역할과 의미에 대한 광범위한 고찰.
- 진실, 증명, 재현성: 코드가 없는 자에게 반격이란 없다, (Gray and Marwick 2019)
- 데이터 과학에서 재현성(Reproducibility)이 갖는 결정적 중요성을 강조합니다.
- 아마추어 소프트웨어 개발로서의 과학 (영상 시청), (McElreath 2020)
- 소프트웨어 공학의 원칙들을 데이터 과학 실무에 어떻게 적용할 수 있는지 상세히 설명합니다.
18.1 맺음말
“흥미로운 시대에 살기를 바란다”라는 오래된 격언이 있습니다. 모든 세대가 제각기 그렇게 느끼며 살아가겠지만, 우리가 마주한 지금 이 순간은 진정으로 흥미로운 시대임이 틀림없습니다. 이 책에서 우리는 데이터로 이야기를 전달하기 위해 반드시 갖춰야 할 핵심 기술들을 함께 살펴보았습니다. 그리고 이것은 이제 막 시작된 긴 여정의 첫걸음일 뿐입니다.
불과 한 세대 전만 해도 ‘데이터 과학’이라는 용어는 낯설기만 했습니다. 하지만 오늘날 데이터 과학은 학계와 산업의 심장부로 빠르게 자리 잡았습니다. 이러한 거대한 변화의 물결 속에 있는 학습자들은 몇 가지 중요한 지점을 고민해야 합니다. 현재의 트렌드에 최적화된 선택을 내리는 것도 중요하지만, 앞으로 다가올 미래의 변화까지 내다볼 수 있어야 하기 때문입니다. 이는 분명 어려운 과제이나, 동시에 데이터 과학을 그토록 매력적으로 만드는 본질이기도 합니다. 이를 위해 우리는 다음과 같은 원칙을 지켜야 합니다:
- 반짝이는 애플리케이션의 사용법에만 매몰되지 않고, 그 밑바닥에 흐르는 근본 원리에 집중하는 교육을 받을 것.
- 가벼운 유행보다는 시대를 관통하는 핵심 텍스트(Classic texts)를 탐독할 것.
- 지나치게 좁은 분야에 고립되기보다는, 여러 학문의 접점에서 시야를 넓히려 노력할 것.
데이터 과학을 배우는 여정에서 가장 큰 보람을 느끼는 순간은, 단순히 업무를 넘어 데이터 자체를 탐구하고 그 속에서 의미를 발견하는 과정 그 자체를 진심으로 즐기게 되었음을 깨닫는 찰나일 것입니다. 과거에는 이러한 열정이 특정 연구실이나 기업의 전유물이었다면, 이제는 세상 거의 모든 곳에서 데이터의 가치가 도처에서 발휘되고 있습니다.
데이터 과학은 그 접근 방식과 응용 분야 모두에서 ’다양성’을 포용해야 합니다. 이는 점점 더 세상을 움직이는 가장 중요한 동력이 되고 있으며, 어느 한 쪽의 독점적인 지배(Hegemony)는 결코 바람직하지 않습니다. 데이터에 열광하고 이를 통해 무언가 새로운 가치를 창출할 수 있다는 것은, 실로 가슴 벅찬 일입니다.
이 책을 관통하는 핵심 메시지는 “데이터 과학에 혁명이 필요하다”는 것이며, 우리는 그 혁명이 어떤 모습이어야 하는지에 대한 하나의 청사진을 제시했습니다. 이 혁명은 통계학의 유구한 역사 위에 뿌리를 내리고, 컴퓨터 과학의 도구들을 과감히 빌려오며, 필요에 따라 다양한 인접 학문과 협력합니다. 그리고 그 중심에는 언제나 재현성(Reproducibility), 워크플로우(Workflow), 그리고 인간에 대한 존중이 자리 잡고 있습니다. 초창기의 데이터 과학이 다소 모호하고 정체성이 불분명했다면, 이제 성숙기에 접어든 데이터 과학은 당당히 독립적인 학문적 위상을 갖추게 되었습니다.
이 책은 데이터 과학의 본질과 미래에 대한 재해석입니다. Chapter 1에서 제시했던 비공식적 정의를 다시 한번 상기해 봅시다. 우리는 데이터 과학을 “정량적 측정과 탐구를 기반으로, 원칙 있고 철저히 검증되었으며 재현 가능한 ’엔드 투 엔드(End-to-end) 워크플로우’를 개발하고 적용하는 과정”으로 정의합니다. 우리는 수학과 통계 이론에서 ’엄격함’이 무엇을 의미하는지 잘 알고 있습니다. 그것은 증명이 뒷받침되는 정리들을 의미합니다 (Horton et al. 2022). 이제 데이터 과학에서도 그 엄격함의 기준이 명확해지고 있습니다. 바로 충분히 검증되고 테스트되었으며, 누구나 재현할 수 있는 코드와 데이터가 함께 제공되는 주장입니다. 이러한 엄격한 데이터 과학만이 세상에 대한 지속 가능하고 신뢰할 수 있는 통찰을 만들어낼 수 있습니다.
18.2 앞으로 해결해야 할 과제들
데이터 과학을 깊이 있게 고민하다 보면, 아직 명확한 정답이 없는 수많은 난제에 부딪히게 됩니다. 이들은 단순히 풀어야 할 숙제가 아니라, 우리가 끊임없이 탐구하고 실험해야 할 시대적 질문들입니다. 이러한 고민들이 쌓일 때 데이터 과학은 진보할 수 있으며, 궁극적으로 세상에 대해 더 나은 이야기를 전달할 수 있게 됩니다. 여기 그 핵심적인 미해결 과제들을 정리했습니다.
1. 데이터 과학을 위한 효과적인 테스트란 무엇인가?
컴퓨터 과학계는 이미 테스트에 대한 견고한 이론적 기반을 갖추고 있으며, 단위 테스트(Unit test)나 기능 테스트의 중요성은 상식으로 통합니다. 이 책의 가장 큰 시도 중 하나는 이러한 테스트의 원칙을 데이터 과학 워크플로우 전반에 통합하는 것이었으나, 이는 이제 겨우 첫 발을 뗀 수준에 불과합니다.
데이터 과학 전반에 걸쳐 테스트를 철저히 내재화해야 하지만, 그것이 구체적으로 어떤 형태여야 하는지, 혹은 테스트의 완결성을 어떻게 정의할지에 대해서는 여전히 논의가 분분합니다. ‘성공적인 테스트가 완료된 데이터 과학 코드’란 도대체 무엇을 의미할까요? 단순히 작성된 코드 라인 중 테스트가 수행된 비율을 뜻하는 ’코드 커버리지(Code coverage)’는 데이터 과학의 특성상 큰 의미를 갖기 어렵습니다. 그렇다면 우리는 어떤 지표를 바라봐야 할까요? 데이터 과학 고유의 테스트 설계 방식은 무엇일까요? 통계학에서 오랫동안 활용해온 ’시뮬레이션’ 기법이 훌륭한 토대가 될 수 있겠지만, 이를 실무 워크플로우에 완벽히 녹여내기 위해서는 아직 더 많은 연구와 투자가 필요합니다.
2. 데이터 정제와 준비 단계의 영향을 어떻게 통제할 것인가?
데이터를 정제하고 분석을 준비하는 초기 과정이 최종 추정치에 얼마나 강력한 영향력을 행사하는지, 우리는 아직 충분히 이해하지 못하고 있습니다. 헌팅턴(Huntington-Klein et al. (2021))과 브레즈나우(Breznau et al. (2022)) 등의 연구자들은 이제 막 이 지점을 파고들기 시작했습니다. 이들은 연구자의 ’숨겨진 결정’들이 이후의 분석 결과에 지대한 영향을 미치며, 때로는 통계적 표준 오차보다 더 큰 왜곡을 불러온다는 사실을 경고합니다. 통계학이 ’모델링’이 결과에 미치는 영향은 잘 설명해주지만, 데이터 과학 워크플로우의 ’초기 단계’가 미치는 영향에 대해서는 더 깊은 탐사가 필요합니다. 특히 어떤 지점에서 심각한 오류가 발생하는지, 그리고 그 실패의 메커니즘은 무엇인지 정밀하게 파악해야 합니다.
이 문제는 데이터 규모가 커질수록 더욱 심각해집니다. 예컨대 1,400만 개의 이미지가 담긴 ‘ImageNet’ 데이터셋의 경우, 사람이 일일이 이미지를 검토하여 레이블의 정확성을 검증하는 것은 현실적으로 불가능에 가깝습니다. 하지만 이 검증이 보장되지 않는다면, 그 데이터를 바탕으로 학습된 모델의 예측을 우리가 과연 얼마나 신뢰할 수 있을까요?
3. 표준화된 명명 체계를 어떻게 확립할 것인가?
생물학이 거둔 가장 위대한 업적 중 하나는 ’이항 명명법(Binomial nomenclature)’의 확립입니다. 18세기 박물학자 카롤루스 린네(Carolus Linnaeus)가 정립한 이 체계는 전 세계 모든 생물을 속(Genus)과 종(Species)이라는 두 단어로 명확히 구분했습니다 (Morange 2016, 81). 이처럼 표준화된 이름 짓기는 학문의 효율성을 획기적으로 높입니다(McCarthy et al. 2023). Chapter 9 에서 논의했듯이, 이름 짓기는 데이터 과학 실무에서 가장 빈번하게 발생하는 ’마찰’의 원인입니다. 이제 우리에게도 데이터 과학을 위한 표준화된 명명 가이드라인이 필요합니다.
이 문제가 시급한 이유는 ’이름’이 인간의 이해력과 직결되고, 곧 분석의 효율성으로 이어지기 때문입니다. 잘 지어진 이름은 단순한 지칭을 넘어 그 자체가 핵심적인 정보를 전달합니다 (Koerner 2000, 45). 특히 데이터 과학이 팀 단위로 협동하여 수행되는 오늘날, 효과적인 명명 원칙과 이를 뒷받침하는 인프라를 구축한다면 우리는 상상 이상의 업무 효율을 얻게 될 것입니다.
4. 인접 학문들과의 이상적인 관계는 무엇인가?
우리는 데이터 과학이 통계학, 컴퓨터 과학 등 다양한 뿌리에서 탄생했음을 살펴보았습니다. 앞으로 우리는 이들 구성 요소들 사이에서 데이터 과학이 어떤 중심을 잡아야 할지 고민해야 합니다. 또한 계량 경제학(Econometrics), 응용 수학, 계산 사회 과학 등과의 역학 관계도 정립해야 합니다. 이들은 데이터 과학을 도구로 활용하기도 하지만, 동시에 데이터 과학의 발전에 기여하는 동반자이기도 합니다. 예를 들어, 계산 사회 과학 분야의 기계 학습 연구는 투명성, 해석 가능성, 불확실성, 윤리 등에 집중함으로써 기계 학습의 이론적 지평을 넓히고 있습니다 (Wallach 2018).
우리는 여전히 통계학자에게 통계의 정수를 배우고, 컴퓨터 과학자에게 컴퓨팅의 원리를 배워야 합니다. 그렇지 않았을 때 발생하는 비극은 ‘p-값(p-value)’ 오용 사례에서 극명하게 드러납니다. 비록 이 책에서 비중 있게 다루지는 않았지만, 통계학자들의 끊임없는 경고에도 불구하고 p-값은 여전히 많은 분야에서 정량 분석의 절대적인 기준으로 맹목적으로 추종받고 있습니다. 전문가에게 근본 원리를 배우지 않는다면, 데이터 과학은 자칫 ’복사하여 붙여넣기 쉬운 파편화된 기술’로 전락할 위험이 있습니다.
데이터 과학은 이들 학문과 깊고 넓게 연결되어야 합니다. 나쁜 관행은 덜어내고 각 분야의 가장 뛰어난 장점만을 유지하도록 보장하는 것은 우리 시대 데이터 과학자의 숙명입니다. 그리고 이는 기술적인 문제를 넘어, 우리 공동체의 문화적인 문제입니다 (Meng 2021).
5. 데이터 과학 교육의 미래는 어떤 모습이어야 하는가?
우리는 이제 데이터 과학의 기초가 무엇인지에 대해 어느 정도 합의에 도달하고 있습니다. 계산적 사고, 샘플링, 통계, 시각화, 버전 관리(Git/GitHub), 데이터베이스(SQL), 정제, 프로그래밍 언어(R/Python), 그리고 윤리와 글쓰기 등이 그 핵심입니다. 하지만 이를 어떻게 가르치는 것이 최선인지에 대해서는 여전히 정답을 찾아가는 중입니다. 강사들이 서로 다른 학문적 배경을 가지고 있고, 각 기관의 자원과 우선순위가 다르기 때문입니다.
특히 데이터 과학 기술에 대한 폭발적인 수요로 인해, 교육의 초점이 대학원 중심에서 학부 수준으로 빠르게 이동하고 있습니다. 대규모 강의실에서도 교육의 질을 유지할 수 있는 견고한 교육 방법론과 확장 가능한(Scalable) 교육 도구의 개발이 절실합니다. 예컨대 GitHub Actions를 활용해 학생들의 코드를 자동 채점하고 피드백을 주는 방식 등이 시도되고 있습니다. 하지만 학생들이 가장 선호하는 ‘사례 연구(Case study)’ 중심의 심층 수업은 대형 강의로 확장하기가 매우 어렵습니다. 이 지점에서 교육 혁신이 필요합니다.
6. 산업계와 학계의 건강한 선순환 관계를 어떻게 만들 것인가?
오늘날 데이터 과학의 혁신적인 변화는 상당 부분 산업 현장에서 일어나고 있습니다. 하지만 기업의 지식은 보안상의 이유로 공유가 제한되거나, 공유되더라도 학계로 전달되는 속도가 매우 느린 편입니다. ’데이터 과학’이라는 용어 자체는 학계에서 시작되었지만, 지난 10년간 이를 대중화하고 폭발시킨 주역은 단연 산업계였습니다 (Irizarry 2020).
학계와 산업계를 하나로 묶는 것은 데이터 과학의 미래를 결정짓는 핵심 과제입니다. 실제 비즈니스 현장에서 맞닥뜨리는 ’고객 요구 파악’이나 ’대규모 운영’의 문제들은 일반적인 학술적 주제와는 그 성격이 판이합니다. 학계가 현장의 문제에 귀를 닫고 산업계가 최신 연구 성과를 외면한다면, 양쪽 모두 무의미한 공전만 반복하게 될 것입니다. 학술적 평가 체계에 산업 현장의 경험이 가치 있게 반영되도록 하고, 학계 내에서 기업가 정신이 숨 쉴 수 있는 토대를 마련해야 합니다.
18.3 다음 단계: 배움의 여정을 이어가며
이 책은 방대한 내용을 다루었으며, 이제 대단원의 막을 내리려 합니다. 가즈오 이시구로의 소설 남아있는 나날에서 집사 스티븐스가 들었던 대사를 빌려와 봅니다:
저녁은 하루 중 가장 좋은 시간입니다. 하루의 일을 마쳤으니, 이제 발을 뻗고 즐길 수 있습니다.
Ishiguro (1989)
어쩌면 여러분은 이 책을 통해 다진 기초 위에, 특정 분야를 더 깊이 탐구하고 싶은 열망이 생겼을지도 모릅니다. 만약 그렇다면 이 책은 그 소임을 다한 것입니다.
데이터 과학의 세계는 끝없이 넓습니다. 여러분의 다음 여정을 위해 분야별로 추천하는 훌륭한 길잡이들을 소개합니다.
데이터 과학의 기초와 R/Python 숙달 - 이 책의 보완재로 ‘데이터 과학 입문’(Timbers, Campbell, and Lee 2022)을 추천합니다. - 그다음엔 이 분야의 고전인 R for Data Science(Wickham, Çetinkaya-Rundel, and Grolemund [2016] 2023)를 정독해 보세요. - R뿐만 아니라 SQL과 Python에도 능숙해져야 합니다. SQL for Data Scientists(Teate 2022), Python for Data Analysis(McKinney [2011] 2022), 그리고 Replit의 무료 강좌인 ‘100 Days of Code’ 등이 좋은 시작점입니다.
실험 설계와 샘플링 - 데이터 분석의 성패를 좌우하는 샘플링 기초를 위해 Sampling: Design and Analysis(Lohr [1999] 2022)를 권합니다. - 설문 조사와 실험 설계에 대한 깊은 이해가 필요하다면 Field Experiments(Gerber and Green 2012)와 Trustworthy online controlled experiments(Kohavi, Tang, and Xu 2020)가 큰 도움이 될 것입니다.
데이터 시각화의 정수 - 더욱 탁월한 시각화 기술을 연마하고 싶다면 Data Sketches(Bremer and Wu 2021)와 키런 힐리의 데이터 시각화(Healy 2018)로 시작하세요. - 그 기초가 되는 철학을 배우고 싶다면 The Grammar of Graphics(Wilkinson 2005)를 추천합니다.
통계 모델링과 베이즈 통계 - 모델링 실력을 한 단계 높이고 싶다면 리처드 매켈리스의 Statistical Rethinking(McElreath [2015] 2020)을 강력히 추천합니다. (동영상 강의 시리즈도 훌륭합니다.) - Bayes Rules!(Johnson, Ott, and Dogucu 2022)와 앤드루 겔만의 Regression and Other Stories(Gelman, Hill, and Vehtari 2020)도 필독서입니다. - 확률론의 기초가 부족하다면 All of Statistics(Wasserman 2005)가 명쾌한 해답을 줄 것입니다.
기계 학습과 인과 추론 - 기계 학습에 입문하려면 An Introduction to Statistical Learning (ISL)(James et al. [2013] 2021)로 시작해, 정점인 The Elements of Statistical Learning (ESL)(Friedman, Tibshirani, and Hastie 2009)로 나아가세요. - 인과 추론에 매력을 느낀다면 경제학적 관점의 Causal Inference: The Mixtape(Cunningham 2021)와 The Effect(Huntington-Klein 2021), 그리고 보건 과학적 관점의 What If(Hernán and Robins 2023)를 추천합니다.
텍스트 분석과 윤리, 그리고 글쓰기 - 텍스트 데이터를 다루고 싶다면 Text As Data(Grimmer, Roberts, and Stewart 2022)와 Supervised Machine Learning for Text Analysis in R(Hvitfeldt and Silge 2021)을 살펴보세요. - 데이터 윤리와 비판적 시각을 기르기 위해선 Data Feminism(D’Ignazio and Klein 2020)과 Atlas of AI(Crawford 2021)가 필수적입니다. - 마지막으로, ‘글쓰기’ 실력을 키우는 가장 정직한 방법은 매일 쓰는 것입니다. 로버트 카로의 Working(Caro 2019)이나 스티븐 킹의 유혹하는 글쓰기(King 2000)가 여러분의 펜 끝을 날카롭게 해줄 것입니다.
우리는 흔히 “데이터가 말하게 하라”는 조언을 듣습니다. 하지만 이제 여러분은 데이터가 스스로 말하는 법은 결코 없다는 사실을 잘 알고 있을 것입니다. 우리는 데이터를 매개로 복잡한 세상의 단면을 정성스레 엮어내는 ‘스토리텔러(Storyteller)’이며, 우리의 사명은 그 이야기가 진실되고 가치 있게 전달되도록 고도의 엄밀함으로 끊임없이 탐구하고 검증하는 것입니다.
그녀의 목소리가
저무는 하늘을 더없이 날카롭게 가로질렀다.
그녀는 매 순간 그 적막의 깊이를 재었다.
그녀는 자신이 노래하는 세상의
유일무이한 장인이었다.
그녀가 노래할 때, 바다는
어떤 자아를 품었든, 비로소 그녀의 노래가 되었다.
그녀가 바로 창조자였기 때문이다.“The Idea of Order at Key West” (월리스 스티븐스) 발췌, (Stevens 1934)
18.4 연습 문제
질문
- 당신이 생각하는 데이터 과학의 정의는 무엇입니까?
- 데이터는 누구에게(혹은 무엇에) 영향을 미치며, 반대로 데이터 자체에 영향을 미치는 외부 요인에는 무엇이 있습니까?
- 통계 모델에 ‘인종’이나 ’성적 지향’ 같은 민감한 변수를 포함할 때 고려해야 할 윤리적, 방법론적 쟁점은 무엇입니까?
- 어떤 데이터 이야기가 사람들에게 더 설득력을 얻으며, 그 설득력을 결정짓는 요소는 무엇이라고 생각하나요?
- 데이터를 다루는 모든 과정에서 ’윤리’는 어떤 역할을 수행해야 한다고 보십니까?
수업 활동
- GitHub 프로필 정돈하기: 더 이상 사용하지 않는 불필요한 저장소는 과감히 삭제하거나 정리하세요. 가장 자신 있는 프로젝트 저장소를 상단에 고정(Pin)하고, 자신의 전문성과 관심사를 보여줄 수 있는 프로필 README를 멋지게 꾸며보세요.