사전 준비 (Prerequisites)
데이터 과학 여정을 시작하신 것을 축하드립니다! 이 장에서는 데이터 과학을 배우고 시작하는 데 필요한 도구들을 설치하거나 접근하는 방법을 도와드리겠습니다. 이 책을 최대한 활용하기 위해 여러분이 이미 알고 있다고 가정한 몇 가지 사항이 있습니다. 여러분은 기본적인 수치 리터러시를 갖추고 있어야 하며, 이미 프로그래밍 경험이 있다면 도움이 될 것입니다.
서론
다음 사항들을 설정하도록 도와드릴 것입니다:
- 코드를 작성하고 실행하는 공간인 통합 개발 환경(IDE)
- 컴퓨터가 파이썬 코드를 해석하고 실행할 수 있도록 하는 파이썬 설치
- 파이썬의 기능을 확장하는 패키지 설치
방법에 대한 자세한 정보가 뒤따르겠지만, 먼저 이것들이 무엇인지 잠시 설명하겠습니다.
통합 개발 환경 (IDE)
통합 개발 환경(IDE)은 코딩을 더 쉽게 만들어주는 몇 가지 도구를 제공하는 소프트웨어 애플리케이션입니다. 그중 가장 중요한 것은 코드 자체를 작성하는 방법입니다! IDE가 프로그래밍을 하는 유일한 방법은 아니지만, 아마도 가장 유용한 방법일 것입니다. 언어와 언어를 작성하는 장소(IDE)는 별개라는 점에 유의하세요: 언어는 지침을 처리하는 방식이고, IDE는 그 지침을 작성하는 곳입니다. 시중에는 많은 통합 개발 환경(IDE)이 있습니다. 이 책은 모든 주요 운영 체제에서 작동하며 가장 인기 있는 것 중 하나인 마이크로소프트의 Visual Studio Code를 강력히 추천합니다. 다음은 Visual Studio Code가 제공하는 유용한 기능들입니다:
코드를 대화형으로(한 줄씩) 또는 한꺼번에 실행하는 방법
코드의 오류를 찾는(디버깅) 방법
흔히 사용되는 소프트웨어 패키지에 대한 유용한 정보에 빠르게 접근하는 방법
코드가 모범 사례 가이드라인을 따르도록 하는 자동 코드 포맷팅
TAB 키를 눌렀을 때 코드 자동 완성
기본적인 오류에 대한 자동 코드 검사
코드 실행의 논리적 순서를 파악할 수 있도록 괄호에 색상을 입히는 기능!
파이썬 인터프리터
파이썬은 여러분이 읽을 수 있는 프로그래밍 언어이기도 하지만, 컴퓨터가 읽고 해석하여 지침을 수행할 수 있는 언어이기도 합니다. 컴퓨터가 파이썬 코드를 읽고 실행할 수 있으려면 컴퓨터에 파이썬이 설치되어 있어야 합니다. 컴퓨터에 파이썬 “인터프리터”를 설치하는 방법은 많지만, 이 책은 유연성과 단순함을 위해 파이썬의 pixi 배포판을 추천합니다.
패키지 (Packages)
파이썬 패키지는 설치된 파이썬 버전의 기능을 확장하는 함수, 데이터 및 문서의 모음입니다. 우리가 필요로 하는 대부분의 기능이 추가 패키지에서 나오기 때문에 패키지를 사용하는 것은 대부분의 데이터 과학에서 핵심입니다. 많은 파이썬 코드 스크립트 시작 부분에서 import numpy as np와 같은 문장을 보게 될 것입니다. 이는 설치된 패키지(numpy라는 이름의 패키지)를 사용하고 스크립트의 나머지 부분에서 편의를 위해 짧은 이름(np)을 부여하라는 지침입니다. 그러면 numpy 패키지의 함수들은 np.와 같은 구문을 통해 접근할 수 있습니다. 예를 들어, 숫자가 들어 있는 변수 x에 대해 np.log(x)로 로그를 취할 수 있습니다. 패키지는 한 번만 설치하면 됩니다.
전형적인 워크플로우
코드를 사용한 분석의 전형적인 워크플로우는 다음과 같을 것입니다:
- 통합 개발 환경(IDE)을 엽니다.
- IDE 내의 스크립트(코드가 들어 있는 텍스트 파일)에 코드를 작성합니다.
- 수행 중인 분석에 필요한 경우, 추가적인 패키지를 설치합니다.
- IDE를 사용하여 스크립트의 코드 일부 또는 전체를 파이썬 및 추가 패키지가 실행하도록 보내고 결과를 확인합니다.
이 워크플로우를 달성하는 두 가지 방법을 살펴보겠습니다:
- 여러분의 컴퓨터에 IDE, 파이썬, 그리고 필요한 패키지들을 직접 설치하는 방식
- 인터넷 브라우저를 통해 접속하는 클라우드 컴퓨터를 사용하는 방식. 클라우드 컴퓨터에는 IDE와 파이썬이 내장되어 있으며, 추가 패키지도 쉽게 설치할 수 있습니다. 다만 무료 버전은 월 60시간으로 제한됩니다.
어느 쪽이든 더 편한 방식을 선택하면 됩니다! 결국에는 두 가지 모두 시도해 보게 될 것입니다.
내 컴퓨터에서 시작하는 방법
이 지침은 여러분의 로컬 컴퓨터에서 파이썬 작업을 하려는 경우를 위한 것입니다.
파이썬 설치하기
파이썬을 다운로드하고 설치하기 위해 모든 주요 운영 체제에서 사용 가능한 pixi를 사용하겠습니다. pixi는 파이썬 설치와 필요한 추가 패키지들을 모두 처리하여 서로 다른 프로젝트 간에 일관성을 유지해 줍니다. 일반적인 프로그램을 설치하는 것과 달리, pixi를 설치하기 위해 명령줄(command line)을 사용할 것입니다. 리눅스, 맥, 윈도우 모두 내장된 명령줄이 있습니다: 맥이나 리눅스에서는 Terminal을, 윈도우에서는 Powershell을 검색해 보세요. 이 앱들을 실행하면 명령어를 입력할 수 있는 상자가 나타납니다. 이 글을 쓰는 시점의 명령어는 다음과 같습니다:
curl -fsSL https://pixi.sh/install.sh | bash리눅스와 맥의 경우이며,
iwr -useb https://pixi.sh/install.ps1 | iex윈도우의 경우입니다. 엔터를 눌러 명령어를 실행하세요. (이 단계 이후에 터미널을 재시작해야 할 수도 있습니다.)
pixi가 설치되면 pixi --version을 실행하여 제대로 설치되었는지 확인할 수 있습니다. “pixi”라는 메시지와 함께 버전 번호가 나타나야 합니다.
pixi가 파이썬 환경을 관리해 줍니다. 첫 번째 환경을 설정하려면 다음을 실행하면 됩니다.
pixi init통합 개발 환경인 Visual Studio Code 설치하기
Visual Studio Code는 모든 주요 운영 체제에서 사용 가능한 마이크로소프트의 무료 오픈 소스 IDE입니다. 파이썬 자체와 마찬가지로, Visual Studio는 패키지로 확장될 수 있으며, 이러한 패키지(이 경우 ’익스텐션’이라고 함)들이 이를 매우 유용하게 만듭니다. 파이썬뿐만 아니라 Visual Studio Code는 수많은 다른 언어들도 지원합니다.
Visual Studio Code를 다운로드하여 설치하세요. 도움이 필요하다면 아래에 Visual Studio Code를 다운로드하고 설치한 다음, 스크립트와 노트북 모두에서 파이썬 코드를 실행하기 위해 이를 사용하는 방법을 안내하는 비디오가 있습니다. 이 장의 나머지 부분에서 이러한 지침들을 자세히 살펴보겠습니다.
노트북과 대화형 창을 테스트하려면 새로운 폴더를 만들고 Visual Studio Code에서 해당 폴더를 열어 작업해야 한다는 점에 유의하세요. VS Code에서 폴더를 명시적으로 열었다면, Visual Studio Code 내에서 명령줄을 열고 pixi init을 실행하여 파이썬 설치를 시작하고, pixi add jupyter를 실행하여 이 초기 파이썬 환경에 대화형 창을 생성할 수 있는 수단을 제공하세요.
클라우드에서의 데이터 과학
이 지침은 클라우드 컴퓨터를 사용하여 원격으로 데이터 과학 작업을 하려는 경우를 위한 것입니다.
클라우드에서 데이터 과학을 하는 방법은 많지만, 가장 간단한 방법을 공유해 드리겠습니다. 이를 위해 Github 계정이 필요합니다. Github은 마이크로소프트가 소유한 조직으로, 코드를 클라우드에 백업하는 방법과 클라우드 컴퓨팅을 포함한 다양한 서비스를 제공합니다. 제공되는 서비스 중 하나는 Github Codespaces입니다. GitHub Codespace는 브라우저 창에서 접속하는 온라인 클라우드 컴퓨터입니다. 월 60시간의 넉넉한 무료 컴퓨팅 시간을 제공합니다.
Github Codespaces의 무료 티어 시간을 초과하면, 사용한 추가 시간에 대해 신용카드로 요금이 청구됩니다.
Github 계정에 가입했다면, Github Codespaces로 가서 “Get Started for Free”를 클릭하세요. “quick start templates” 메뉴가 보일 것입니다. “Jupyter Notebook”이라고 써진 곳 아래의 “Use this template”을 누르세요.
여러 개의 패널이 있는 새 페이지가 로드되는 것을 볼 수 있습니다. 이것은 여러분의 컴퓨터에 설치했을 때와 거의 똑같이 작동하는 온라인 버전의 Visual Studio Code입니다. 이미 파이썬 버전이 설치되어 있을 것입니다 - 터미널에서 python --version을 실행하여 확인할 수 있습니다. 터미널은 보통 Visual Studio Code의 가장 아래 패널에 있으며, Codespaces에서는 일반적으로 환영 메시지를 표시합니다.
하지만 Codespaces의 파이썬 배포판은 이 책에서 사용하는 pixi 배포판과 다를 수 있음에 유의해야 합니다. 하지만 Codespaces 머신에 pixi를 설치하고 위의 “파이썬 설치하기” 섹션의 다른 지침들을 따를 수 있습니다.
첫 번째 파이썬 코드 실행하기
Visual Studio Code 익히기
(컴퓨터 또는 클라우드에서) Visual Studio Code를 설치하고 열었다면, 왼쪽 수직 아이콘 바에 있는 ‘익스텐션(extensions)’ 탭으로 이동하세요(사각형 4개가 모인 모양입니다). VS Code의 익스텐션 패널 내 텍스트 상자에서 검색하여 Python extension for VS Code를 설치해야 합니다. 클라우드 버전을 사용 중이라면 이미 설치되어 있을 수도 있습니다.
다음과 같은 유용한 익스텐션들도 설치하는 것이 좋습니다(이미 설치되어 있지 않다면):
- Jupyter
- Pylance
- indent-rainbow
아직 가지고 놀 파이썬 코드나 그 코드를 실행할 대화형 창이 없겠지만, Visual Studio Code의 전형적인 뷰(view)의 각 부분에 익숙해지는 시간을 잠시 갖는 것이 좋습니다.

위 그림은 파이썬 세션이 실행 중이고 파이썬 스크립트가 열려 있을 때 Visual Studio Code의 전형적인 레이아웃을 보여줍니다. 가장 왼쪽의 긴 수직 패널은 패널 1과 2에 표시되는 내용을 바꿉니다. 현재는 파일 탐색기(file explorer)가 선택되어 있습니다. 그림의 번호가 매겨진 부분들을 살펴보겠습니다.
- 왼쪽 아이콘들 중에서 탐색기(explorer) 옵션이 선택되면, 현재 열려 있는 폴더의 내용이 1에 표시됩니다.
- 이는 3에 열려 있는 파일의 주요 부분들에 대한 개요(outline)입니다.
- 이는 단지 고급 텍스트 에디터일 뿐입니다. 위 그림에서는 파이썬 스크립트(
.py로 끝나는 이름을 가진 코드 파일)를 보여주고 있습니다. 곧 코드를 선택하고 Shift + Enter를 눌러 코드를 실행하고 그 결과가 패널 5에 나타나는 것을 보게 될 것입니다. - 이것은 명령줄 또는 터미널(terminal)로, 컴퓨터가 실행할 명령어를 입력하는 곳입니다. 명령어를 시도해 보려면
date(맥/리눅스) 또는date /t(윈도우)를 입력해 보세요. 이곳이 우리가 추가 패키지를 설치하는 곳입니다. - 이것은 대화형 파이썬 창(interactive Python window)으로, 스크립트(3 참조)에서 선택하여 실행한 후의 코드와 코드 출력이 나타나는 곳입니다. 실행한 코드와 그 실행 결과를 보여줍니다 - 스크린샷에서는 코드가 플롯을 생성했습니다. 사용 중인 파이썬의 이름과 버전이 대화형 창 상단에 나타납니다.
창의 맨 아래 파란색 바에는 VS Code가 현재 사용 중인 파이썬 버전을 포함하여 유용한 정보들이 많이 배열되어 있음에 유의하세요.
파이썬 코드 실행하기
이제 여러분의 첫 번째 코드를 만들고 실행해 보겠습니다. 막히는 부분이 있다면 VS Code 문서에 더 심층적인 튜토리얼이 있습니다.
Visual Studio Code에서 “탐색기(Explorer)” 심볼(화면 왼쪽의 파일 모양)을 클릭하여 파일 탐색기를 띄우세요. 컴퓨터에서 테스트하기 좋은 위치에 있는지 확인하고, 아니라면 원하는 폴더가 될 때까지 File -> Open Folder를 사용하여 폴더를 변경하세요.
이제 Visual Studio Code 내에서 터미널을 여세요. pixi를 설치한 것과 같은 종류의 터미널인지 확인하세요. 예를 들어 윈도우라면 Powershell을 사용하세요(다른 종류의 터미널을 선택하여 사용할 수 있습니다). 터미널 패널을 여는 단축키는 리눅스와 윈도우에서는 Ctrl + `, 맥에서는 Cmd + `입니다. 터미널 패널이 VS Code 하단에 나타납니다. 터미널에서 pixi init을 실행하여 파이썬 설치를 시작하세요. 이 파이썬 설치는 현재 폴더에만 존재합니다. 그런 다음, 이 섹션에 필요한 패키지를 설치하기 위해 pixi add jupyter를 실행하세요. (터미널과 패키지 설치에 대해서는 곧 훨씬 더 자세히 다룰 것입니다.)
이제 왼쪽의 탐색기 패널이 열린 상태에서, “+” 기호가 있는 빈 종이 모양의 심볼을 클릭하세요. 그러면 새 파일이 생성되고 커서가 이름을 짓기 위해 이동할 것입니다. 이름을 hello_world.py로 지으세요. 파일 확장자인 .py는 Visual Studio Code에게 이것이 파이썬 스크립트임을 암시적으로 알려주기 때문에 매우 중요합니다.
Visual Studio Code 에디터에서 파일에 한 줄을 추가하세요:
print('Hello World!')파일을 저장하세요.
파일 이름을 .py 확장자로 지었다면 VS Code는 그것이 파이썬 코드임을 인식하고 VS Code 창 하단의 바에 파이썬 이름과 버전이 나타날 것입니다. (여러 버전의 파이썬이 설치되어 있을 수 있습니다 - 코드가 사용하는 파이썬 버전을 바꾸고 싶다면 바에 표시된 버전을 클릭하고 원하는 버전을 선택하세요.)
자, 이제 코드를 실행해 볼까요? 파일에 입력한 print("Hello world!") 텍스트를 선택/강조하고 우클릭하세요. 많은 옵션이 나오겠지만, 여러분이 원하는 것은 “Run Selection/Line in Interactive Window” (대화형 창에서 선택 영역/줄 실행)입니다.
그러면 Visual Studio Code 내에 새로운 ‘대화형(interactive)’ 패널이 나타나고, 짠! 다음과 같은 결과를 보게 될 것입니다:
print("Hello world!")Hello world!
대화형 창은 스크립트에 열려 있는 코드를 실행하거나 대화형 창 코드 상자에 직접 입력하여 실행할 수 있는 편리하고 유연한 방법입니다. 대화형 창은 스크립트의 일부 줄을 실행했든 직접 입력했든 관계없이 할당된 모든 변수(예: x = 5와 같은 코드 문장)를 ’기억’할 것입니다. 대화형 창 작업은 Stata, Matlab 또는 R을 사용해 본 사람들에게 익숙하게 느껴질 것입니다. 스크립트 전체를 처음부터 끝까지 미리 작성할 필요가 없습니다. 대신 코드를 조금씩 고쳐가며 한 줄씩 (재)실행하며 즉흥적으로 작업할 수 있습니다.
코드를 실행하고 싶을 때마다 우클릭하는 것은 번거로울 것이므로, 강조된 코드를 실행하기 위해 대화형 창으로 보내는 키보드 단축키를 만들겠습니다. 방법은 다음과 같습니다:
- Visual Studio Code 설정 메뉴를 엽니다(왼쪽 하단의 톱니바퀴).
- Settings(설정)로 이동합니다.
- 검색창에 “jupyter send”를 입력하여 “Interactive Window > Text Editor: Execute Selection” 항목이 나타나게 합니다.
- 이 항목 옆의 체크박스가 선택되어 있는지 확인합니다.
이제 스크립트로 돌아가서 print("Hello world!")가 있는 줄에 커서를 두고 Shift+Enter를 누르세요. “Hello world!”가 다시 나타나겠지만 이번에는 훨씬 쉬웠을 것입니다.
```{.callout-note} 대신 터미널에서 코드 실행하기 :class: dropdown
대화형 창이 코드를 실행하는 유일한 방법은 아닙니다. 터미널에서도 실행할 수 있습니다. 데이터 과학에서는 덜 인기 있는 방식이지만 가끔 유용할 때가 있습니다. 이렇게 하려면 선택한 코드를 우클릭하고 “Run Python -> Run Selection/Line in Terminal”을 선택하세요.
대화형 창을 더 활용해 보겠습니다. 창 아래쪽에 'Type code here and press shift-enter to run' (여기에 코드를 입력하고 shift-enter를 눌러 실행하세요)라고 적힌 상자가 있습니다. 거기에 `print('Hello World!')`를 직접 입력하여 스크립트에서 줄을 실행한 것과 동일한 효과를 얻어보세요. 또한 대화형 창에서 실행한 모든 변수(스크립트에서 왔든 상자에 직접 입력했든)는 유지됩니다.
변수가 어떻게 유지되는지 확인하기 위해, 대화형 창의 코드 입력 상자에 `hello_string = 'Hello World!'`를 입력하고 shift-enter를 누르세요. 이제 `hello_string`을 입력하고 shift+enter를 누르면 방금 만든 변수의 내용을 볼 수 있습니다. 또한 대화형 창 상단의 그리드 심볼(중지 심볼과 저장 파일 심볼 사이)을 클릭할 수도 있습니다. 이것은 변수 탐색기이며 이 대화형 세션에서 만든 모든 변수를 보여주는 패널을 띄웁니다. 값이 `Hello World!`인 `str` 타입의 `hello_string`이라는 변수를 볼 수 있어야 합니다.
이는 대화형 창을 사용하는 두 가지 방식 - 스크립트에서 (일부를) 실행하거나 입력 상자에 직접 코드를 작성하는 방식 - 을 보여줍니다. 변수를 어떤 방식으로 입력했는지는 중요하지 않으며, 해당 대화형 창 세션 내에서 모두 기억될 것입니다.
```{.callout-note} 프로젝트 디렉토리 내에서 대화형 창과 터미널 시작하기
:class: dropdown
Visual Studio Code의 Settings(설정) 메뉴에서 "Jupyter: Notebook File Root"를 `${workspaceFolder}`로 설정하여 대화형 창이 프로젝트의 루트 디렉토리에서 시작되도록 할 수 있습니다. 통합 명령줄의 경우 "Terminal › Integrated: Cwd"도 `${workspaceFolder}`로 변경하세요.
{.callout-note} 연습 문제 실행했을 때 "Welcome to Python for Data Science"를 출력하는 새 스크립트를 만들고 대화형 창에서 실행해 보세요.
패키지 설치하기
추가적인 파이썬 패키지를 설치하기 위해 Visual Studio Code 내의 터미널 또는 명령줄을 사용합니다. 앞서 장의 그림에서 이는 4번 패널로 표시되어 있습니다.
Visual Studio Code에서 사용 중인 폴더 내의 파이썬 환경에 패키지를 설치하려면, Visual Studio Code의 터미널(방금 pixi run python --version을 실행한 곳과 동일한 곳)에 다음을 입력하세요.
pixi add packagename그리고 엔터를 누르세요. 위에서 packagename은 예를 들어 pandas가 될 수 있습니다. 설치에 문제가 있다면 인터넷에 연결되어 있는지, 그리고 PyPI(파이썬 패키지 인덱스)가 방화벽이나 프록시에 의해 차단되지 않았는지 확인하세요. pixi add polars를 실행하여 데이터 분석 패키지인 polars를 설치해 볼 수 있습니다. 나중에 다른 장에서 polars를 사용하는 법을 배우겠지만, 제대로 설치되었는지 알고 싶다면 “Successfully installed polars”라는 메시지와 버전 번호를 확인해 보세요.
명령줄에 pixi list를 입력하여 이전에 설치한 패키지들을 확인할 수 있습니다.
패키지 설치 및 사용에 대한 더 많은 내용은 워크플로우: 패키지와 환경 (Workflow: Packages and Environments) 에서 다룰 것입니다.
설치에 문제가 있다면 인터넷에 연결되어 있는지, 그리고 PyPI(파이썬 패키지 인덱스)가 방화벽이나 프록시에 의해 차단되지 않았는지 확인하세요.
책의 코드를 실행하는 대안적인 방법들
여러분의 컴퓨터나 Github Codespaces를 통한 클라우드 환경 외에도 몇 가지 다른 옵션을 통해 온라인으로 이 책을 따라갈 수 있습니다. 첫 번째 방법이 시작하기 가장 쉽습니다.
- Google Colab notebooks. 대부분 무료로 사용할 수 있습니다. 페이지 상단의 로켓 심볼 아래에 있는 ‘Colab’ 버튼을 사용하여 이 책의 대부분의 페이지를 대화형으로 실행할 수 있습니다. 스크립트(.py 파일) 형식이 아니라 코드와 텍스트가 섞인 노트북 형식이 되겠지만 작성하는 코드는 동일합니다. 패키지를 최신 버전으로 업데이트해야 할 수도 있음에 유의하세요. Colab에서는 코드 셀에
!pip install **packagename**을 실행하여 이를 수행할 수 있습니다. 맨 앞의 느낌표는 Colab에게 이것이 파이썬이 아닌 운영 체제에 대한 지침임을 알려줍니다. - Gitpod Workspace. Codespaces의 대안입니다. 파이썬이 설치되어 있고 파이썬 스크립트를 실행할 수 있는 원격 클라우드 기반의 Visual Studio Code 버전입니다. 무료 티어는 월 50시간을 제공합니다.