1장 데이터 분석을 시작하며

데이터 분석이란

통계적 관점에서 보는 데이터 분석

데이터 분석가

프로그래밍, 수학, 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식) 모두 필요
작업과정
- 좁은 의미의 데이터 분석: 기술통계, 탐색적 데이터 분석, 가설검정
- 넓은 의미의 데이터 분석: 데이터 수집, 데이터 처리, 데이터 정제, 모델링

데이터 분석을 위한 도구

데이터 마이닝

머신러닝

이 도서가 얼마나 인기가 좋을까요?

파이썬으로 csv 파일 출력하기

with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
    print(f.readline())

*파일 이름을 다르게 쓸 경우 파일을 찾을 수 없다는 FileNotFoundError 오류 발생

*파이썬의 open() 함수는 기본적으로 텍스트 파일이 UTF-8 향식으로 저장되어 있다고 가정

import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()
print(chardet.detect(d))

with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr') as f:
    print(f.readline())
    print(f.readline())

데이터프레임 다루기: 판다스

import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)

*low_memory 매개변수를 False로 지정하면 csv 파일을 한번에 모두 읽기 때문에,

csv 파일이 아주 큰 경우 메모리 부족 오류가 발생할 수 있다.

→ dtype 매개변수로 데이터 타입을 지정할 수 있다.

df.head()

df.to_csv('ns_202104.csv')

ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

*다른 방법: 데이터프레임을 csv 파일로 저장할 때 인덱스 빼고 저장

→ index=False

기록용