Online Appendix D — 데이터셋

학생들이 데이터 과학 프로젝트를 시작할 때 종종 겪는 가장 큰 어려움 중 하나는 적절한 데이터셋을 선택하는 것입니다. 흔히 Kaggle이나 UCI 머신러닝 저장소와 같이 대중적인 옵션을 먼저 떠올리곤 하지만, 가급적 이러한 출처는 피하는 것이 좋습니다. 데이터 과학의 관점에서 볼 때, 이처럼 잘 알려진 데이터셋들은 이미 거의 모든 중요한 분석적 결정(데이터 정제, 변수 선택 등)이 내려진 상태이며, 그 결정 과정이 투명하게 문서화되지 않았을 가능성이 큽니다. 또한 커리어 측면에서도 다른 수많은 이들이 동일한 데이터를 활용해 이미 수많은 분석물을 완성했기 때문에, 여러분만의 개성과 실력을 돋보이게 할 수 있는 차별화된 포트폴리오를 만들기 어렵습니다. 이를 보완할 수 있는 몇 가지 훌륭한 대안적 출처는 다음과 같습니다:

AidData는 개발 및 해외 원조 연구와 관련된 많은 데이터셋을 제공합니다.
Alex Cookson의 데이터셋.
Anders et al. (2020) 는 다양한 데이터셋을 제공하며, 여기에서 확인할 수 있습니다.
사회 과학자를 위한 API는 데이터를 수집하는 데 사용할 수 있는 다양한 API를 제공합니다.
Bombieri et al. (2023) 5,000건 이상의 대형 육식 동물 인간 공격에 대한 데이터셋을 제공합니다.
영국 도서관의 세계 신문 목록에는 출판 시작 및 종료 연도, 출판 장소, 변형된 제목 및 판, 출판 언어에 대한 정보가 포함되어 있습니다.
BuzzFeed News는 기사를 뒷받침하는 많은 데이터셋에 대한 접근을 제공합니다.
캐나다 지방 선거 데이터베이스에는 캐나다 전역의 지방 자치 단체에 대한 완전한 지방 선거 결과가 포함되어 있습니다 (Lucas et al. 2020).
Congressindata는 2005년부터 2015년까지 미국 의회 의원에 대한 데이터셋을 제공합니다.
Congress.gov API는 특히 법안 및 기타 텍스트 데이터와 관련하여 미국 의회에 대한 매우 유용한 데이터 소스입니다.
COVerAGE-DB는 COVID-19 사례 및 사망에 대한 전 세계 인구 통계 데이터베이스입니다 (Riffe et al. 2021).
cricketdata (Hyndman et al. 2022)는 국제 및 기타 주요 크리켓 경기에 대한 데이터를 다운로드하는 기능을 제공합니다.
데이터 및 스토리 라이브러리는 수백 개의 데이터셋에 대한 접근을 제공합니다.
Data Is Plural은 2015년까지의 아카이브와 함께 흥미로운 데이터셋에 대한 주간 뉴스레터를 제공합니다.
Data Liberation Project는 FOI 요청을 사용하여 미국 정부 데이터셋을 구축하는 데 중점을 둡니다.
인구 통계 및 건강 조사 (DHS) 프로그램은 1984년부터 90개국에 대한 설문조사 데이터를 제공합니다.
Duolingo는 연구 논문을 뒷받침하는 데이터셋에 대한 접근을 제공합니다.
The Economist는 기사를 뒷받침하는 많은 데이터셋에 대한 접근을 제공합니다.
EH.net은 다양한 흥미로운 역사 경제 데이터셋을 제공합니다.
EPA는 규제되지 않은 오염 물질 모니터링 규칙에서 발생 데이터를 제공합니다.
유럽 NUTS-수준 선거 데이터베이스 (EU-NED)는 1990년부터 2020년까지의 국가 및 유럽 의회 선거 결과를 제공합니다.
연방 준비 은행 경제 데이터 (FRED)는 미국 경제 데이터를 제공하며, API에 액세스하기 위한 R 패키지 fredr (Boysel and Vaughan 2021)가 있습니다.
FiveThirtyEight는 기사를 뒷받침하는 많은 데이터셋에 대한 접근을 제공합니다.
Goodreads 데이터셋은 2017년에 2백만 권 이상의 책에 대한 메타데이터 및 리뷰를 포함한 공개 데이터를 스크랩한 것입니다 (Wan and McAuley 2018; Wan et al. 2019).
역사적 사회 갈등 데이터베이스는 주로 유럽에 초점을 맞춘 20,000건 이상의 갈등에 대한 데이터를 제공합니다 (Chambru and Maneuvrier-Hervieu 2022).
역사 통계는 역사 통계에 대한 링크를 제공합니다.
인간 사망률 데이터베이스는 다양한 국가에 대한 상세한 사망률 및 인구 데이터를 제공합니다.
ICANN의 중앙 집중식 영역 데이터 서비스는 며칠이 걸릴 수 있는 신청 및 승인 절차를 거쳐 모든 도메인 이름에 대한 접근을 제공합니다.
IPCC 데이터 배포 센터.
아일랜드 사회 과학 데이터 아카이브는 다양한 데이터셋을 제공합니다.
J-PAL (압둘 라티프 자밀 빈곤 행동 연구소)은 행정 데이터 카탈로그를 유지합니다.
NFL Savant는 2013년 이후의 플레이별 데이터, 1999년 이후의 컴바인 데이터, 날씨 데이터를 포함하여 NFL에 대한 팀별 데이터를 제공합니다.
The Markup의 Show Your Work 시리즈는 종종 기사를 뒷받침하는 데이터가 포함된 GitHub 저장소 링크를 포함합니다. 몇 가지 주목할 만한 예시는 다음과 같습니다: 모기지 승인 알고리즘에 숨겨진 비밀 편향.
매사추세츠 수자원 관리국은 폐수 COVID-19 추적 데이터를 여기에서 제공하며, 원시 데이터는 파싱할 수 있는 PDF로 제공됩니다.
뉴욕 현대 미술관 (MoMA)은 컬렉션 및 전시회에 대한 데이터셋을 제공합니다.
NASA의 행성 데이터 시스템.
ProPublica 데이터 스토어는 미국에 대한 방대한 데이터셋을 제공하며, 일부는 상당히 큽니다. 예를 들어, Open Payments Data (2016)는 6GB입니다.
(Laouenan et al. 2022)의 Notable People 데이터셋은 기원전 3500년부터 2018년까지의 주목할 만한 인물에 대한 교차 검증된 데이터베이스를 제공합니다.
OECD는 경제 데이터를 제공합니다.
ParlEE 데이터셋은 EU 입법부 회의실에서 수백만 건의 연설에 대한 주석이 달린 전문을 포함합니다 (Sylvester et al. 2023).
Prison Policy Initiative는 미국 교도소 및 구치소에 대한 많은 데이터셋을 제공합니다.
The Pudding은 기사를 뒷받침하는 많은 데이터셋을 제공합니다. 몇 가지 주목할 만한 예시는 다음과 같습니다: 벌거벗은 진실, 그리고 미국 인구 조사의 진화.
Pushshift Reddit 데이터셋은 2015년 이후의 Reddit 게시물 모음입니다 (Baumgartner et al. 2020).
Refugee Law Lab은 캐나다 대법원 판결의 전문을 JSON 형식으로 제공합니다 (Rehaag 2023).
Rijksmuseum은 컬렉션에 대한 다양한 데이터를 제공합니다.
Socioeconomic High-resolution Rural-Urban Geographic Platform (SHRUG)은 인도 전역의 600,000개 마을 및 도시에 대한 사회경제적 개발 데이터를 제공하는 오픈 데이터 플랫폼입니다 (Asher et al. 2021).
톰 카르도소의 Bias behind bars는 캐나다의 흑인 및 원주민 수감자에 대한 데이터를 제공합니다.
Tracking (In)Justice는 캐나다에서 경찰 관련 사망을 추적하는 데이터셋입니다 (Data and Justice Criminology Lab, Institute of Criminology and Criminal Justice, Carleton University; The Centre for Research & Innovation for Black Survivors of Homicide Victims (The CRIB), at the Factor-Inwentash Faculty of Social Work, University of Toronto; Canadian Civil Liberties Association; Ethics and Technology Lab, Queen’s University 2022).
미국 질병 통제 예방 센터 (CDC) 국립 생체 통계 시스템은 연결된 출생 및 영아 사망 데이터를 포함한 다양한 데이터셋을 제공합니다.
케빈 윌슨이 정리하고 준비한 미국 형량 위원회 개별 범죄자 데이터셋.
무장 반란에 참여하는 여성 활동은 1946-2015년 사이에 반군 조직에 참여한 여성의 측정치에 대한 접근을 제공합니다 (Loken and Matfess 2023).
워싱턴 포스트는 기사를 뒷받침하는 많은 데이터셋에 대한 접근을 제공합니다. 특히 흥미로운 것은 의회 노예 소유자, 치명적인 무력 사격, 학교 총격, 그리고 왜 FEMA는 딥 사우스의 흑인 재난 생존자에게 지원을 거부하는가입니다.
Wordbank 데이터베이스는 어린이 어휘 성장에 대한 공개 데이터베이스입니다. wordbankr (Braginsky 2020)를 사용하여 추가적으로 접근할 수 있으며, 앨리슨 프레스메인즈 힐은 유용한 배경 및 정리 코드를 제공합니다.
세계 은행은 광범위한 글로벌 개발 데이터 및 마이크로데이터 라이브러리를 제공합니다.
예일 대학교 국제 금융 센터 데이터셋: 역사적 금융 연구 데이터, 그리고 주식 시장 신뢰 지수.

Anders, Jake, Silvan Has, John Jerrim, Nikki Shure, and Laura Zieger. 2020. “Is Canada really an education superpower? The impact of non-participation on results from PISA 2015.” Educational Assessment, Evaluation and Accountability 33 (1): 229–49. https://doi.org/10.1007/s11092-020-09329-5.

Asher, Sam, Tobias Lunt, Ryu Matsuura, and Paul Novosad. 2021. “Development Research at High Geographic Resolution: An Analysis of Night Lights, Firms, and Poverty in India Using the SHRUG Open Data Platform.” World Bank Economic Review 35 (4). https://shrug-assets-ddl.s3.amazonaws.com/static/main/assets/other/almn-shrug.pdf.

Baumgartner, Jason, Savvas Zannettou, Brian Keegan, Megan Squire, and Jeremy Blackburn. 2020. “The Pushshift Reddit Dataset.” arXiv. https://doi.org/10.48550/arxiv.2001.08435.

Bombieri, Giulia, Vincenzo Penteriani, Kamran Almasieh, Hüseyin Ambarlı, Mohammad Reza Ashrafzadeh, Chandan Surabhi Das, Nishith Dharaiya, et al. 2023. “A Worldwide Perspective on Large Carnivore Attacks on Humans.” PLOS Biology 21 (1): e3001946. https://doi.org/10.1371/journal.pbio.3001946.

Boysel, Sam, and Davis Vaughan. 2021. fredr: An R Client for the “FRED” API. https://CRAN.R-project.org/package=fredr.

Braginsky, Mika. 2020. wordbankr: Accessing the Wordbank Database. https://CRAN.R-project.org/package=wordbankr.

Chambru, Cédric, and Paul Maneuvrier-Hervieu. 2022. “Introducing HiSCoD: A new gateway for the study of historical social conflict.” Working Paper Series, Department of Economics, University of Zurich. https://doi.org/10.5167/uzh-217109.

Data and Justice Criminology Lab, Institute of Criminology and Criminal Justice, Carleton University; The Centre for Research & Innovation for Black Survivors of Homicide Victims (The CRIB), at the Factor-Inwentash Faculty of Social Work, University of Toronto; Canadian Civil Liberties Association; Ethics and Technology Lab, Queen’s University. 2022. “Tracking (in)justice: A Living Data Set Tracking Canadian Police-Involved Deaths.” https://trackinginjustice.ca.

Hyndman, Rob, Timothy Hyndman, Charles Gray, Sayani Gupta, and Jacquie Tran. 2022. cricketdata: International Cricket Data. https://CRAN.R-project.org/package=cricketdata.

Laouenan, Morgane, Palaash Bhargava, Jean-Benoı̂t Eyméoud, Olivier Gergaud, Guillaume Plique, and Etienne Wasmer. 2022. “A Cross-Verified Database of Notable People, 3500BC–2018AD.” Scientific Data 9 (290). https://doi.org/10.1038/s41597-022-01369-4.

Loken, Meredith, and Hilary Matfess. 2023. “Introducing the Women’s Activities in Armed Rebellion (WAAR) Project, 1946-2015.” Journal of Peace Research.

Lucas, Jack, Reed Merrill, Kelly Blidook, Sandra Breux, Laura Conrad, Gabriel Eidelman, Royce Koop, et al. 2020. “Canadian Municipal Elections Database.” Scholars Portal Dataverse. https://doi.org/10.5683/sp2/4mzjpq.

Rehaag, Sean. 2023. “Supreme Court of Canada Bulk Decisions Dataset.” Refugee Law Laboratory. https://refugeelab.ca/bulk-data/scc.

Riffe, Tim, Enrique Acosta, Enrique José Acosta, Diego Manuel Aburto, Anna Alburez-Gutierrez, Ainhoa Altová, Ugofilippo Alustiza, et al. 2021. “Data Resource Profile: COVerAGE-DB: A Global Demographic Database of COVID-19 Cases and Deaths.” International Journal of Epidemiology 50 (2): 390–390f. https://doi.org/10.1093/ije/dyab027.

Sylvester, Christine, Anastasia Ershova, Aleksandra Khokhlova, Nikoleta Yordanova, and Zachary Greene. 2023. “ParlEE plenary speeches V2 data set: Annotated full-text of 15.1 million sentence-level plenary speeches of six EU legislative chambers.” Harvard Dataverse. https://doi.org/10.7910/DVN/VOPK0E.

Wan, Mengting, and Julian J. McAuley. 2018. “Item Recommendation on Monotonic Behavior Chains.” In Proceedings of the 12th ACM Conference on Recommender Systems, RecSys 2018, Vancouver, BC, Canada, October 2-7, 2018, edited by Sole Pera, Michael D. Ekstrand, Xavier Amatriain, and John O’Donovan, 86–94. ACM. https://doi.org/10.1145/3240323.3240369.

Wan, Mengting, Rishabh Misra, Ndapa Nakashole, and Julian J. McAuley. 2019. “Fine-Grained Spoiler Detection from Large-Scale Review Corpora.” In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, edited by Anna Korhonen, David R. Traum, and Lluı́s Màrquez, 2605–10. Association for Computational Linguistics. https://doi.org/10.18653/v1/p19-1248.