본문 바로가기
혼자 공부하는 데이터 분석

1장 데이터 분석을 시작하며

by chaechaekim 2023. 5. 12.

데이터 분석이란

특징 데이터 분석 데이터 과학
범주 비교적 소규모 대규모
목표 의사 결정을 돕기 위한 통찰을 제공하는 일 문제 해결을 위해 최선의 솔루션을 만드는 일
주요 기술 컴퓨터 과학, 통계학, 시각화 등 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등
빅데이터 사용 사용

통계적 관점에서 보는 데이터 분석

  • 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법 예) 평균 계산/최솟값, 최댓값 찾기
  • 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법
  • 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법

 

데이터 분석가

  • 프로그래밍, 수학, 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식) 모두 필요
  • 작업과정
    • 좁은 의미의 데이터 분석: 기술통계, 탐색적 데이터 분석, 가설검정
    • 넓은 의미의 데이터 분석: 데이터 수집, 데이터 처리, 데이터 정제, 모델링

 

데이터 분석을 위한 도구

  • 프로그래밍 언어: 파이썬, R
  • 프로그래밍 환경: 구글 코랩

 

데이터 마이닝

  • 데이터에서 패턴 혹은 지식을 추출하는 작업
  • 머신러닝, 통계학, 데이터베이스 시스템과 관련

 

머신러닝

  • 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술
  • 딥러닝

이 도서가 얼마나 인기가 좋을까요?

 

파이썬으로 csv 파일 출력하기

with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
    print(f.readline())

*파일 이름을 다르게 쓸 경우 파일을 찾을 수 없다는 FileNotFoundError 오류 발생

*파이썬의 open() 함수는 기본적으로 텍스트 파일이 UTF-8 향식으로 저장되어 있다고 가정

 

  • 파일 인코딩 형식 확인하기: chardet.detect()함수
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()
print(chardet.detect(d))

 

  • 인코딩 형식 지정하기: encoding 매개변수 지정
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr') as f:
    print(f.readline())
    print(f.readline())

 

데이터프레임 다루기: 판다스

 

  • csv 파일을 데이터프레임으로 읽기: read_csv()함수
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)

*low_memory 매개변수를 False로 지정하면 csv 파일을 한번에 모두 읽기 때문에,

csv 파일이 아주 큰 경우 메모리 부족 오류가 발생할 수 있다.

→ dtype 매개변수로 데이터 타입을 지정할 수 있다.

 

  • 데이터프레임의 처음 5개 행 확인: head()
df.head()

 

  • 데이터프레임을 csv 파일로 저장하기: to_csv()
df.to_csv('ns_202104.csv')

 

  • csv 파일에 인덱스가 이미 있다는 것을 알려줄 때 index_col 매개변수 사용
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

*다른 방법: 데이터프레임을 csv 파일로 저장할 때 인덱스 빼고 저장

→ index=False

'혼자 공부하는 데이터 분석' 카테고리의 다른 글

6장 복잡한 데이터 표현하기  (0) 2023.06.08
5장 데이터 시각화하기  (1) 2023.05.29
4장 데이터 요약하기  (0) 2023.05.29
3장 데이터 정제하기  (0) 2023.05.22
2장 데이터 수집하기  (0) 2023.05.14

댓글