데이터 분석이란
특징 | 데이터 분석 | 데이터 과학 |
범주 | 비교적 소규모 | 대규모 |
목표 | 의사 결정을 돕기 위한 통찰을 제공하는 일 | 문제 해결을 위해 최선의 솔루션을 만드는 일 |
주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
빅데이터 | 사용 | 사용 |
통계적 관점에서 보는 데이터 분석
- 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법 예) 평균 계산/최솟값, 최댓값 찾기
- 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법
- 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법
데이터 분석가
- 프로그래밍, 수학, 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식) 모두 필요
- 작업과정
- 좁은 의미의 데이터 분석: 기술통계, 탐색적 데이터 분석, 가설검정
- 넓은 의미의 데이터 분석: 데이터 수집, 데이터 처리, 데이터 정제, 모델링
데이터 분석을 위한 도구
- 프로그래밍 언어: 파이썬, R
- 프로그래밍 환경: 구글 코랩
데이터 마이닝
- 데이터에서 패턴 혹은 지식을 추출하는 작업
- 머신러닝, 통계학, 데이터베이스 시스템과 관련
머신러닝
- 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술
- 딥러닝
이 도서가 얼마나 인기가 좋을까요?
파이썬으로 csv 파일 출력하기
with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
print(f.readline())
*파일 이름을 다르게 쓸 경우 파일을 찾을 수 없다는 FileNotFoundError 오류 발생
*파이썬의 open() 함수는 기본적으로 텍스트 파일이 UTF-8 향식으로 저장되어 있다고 가정
- 파일 인코딩 형식 확인하기: chardet.detect()함수
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
d = f.readline()
print(chardet.detect(d))
- 인코딩 형식 지정하기: encoding 매개변수 지정
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr') as f:
print(f.readline())
print(f.readline())
데이터프레임 다루기: 판다스
- csv 파일을 데이터프레임으로 읽기: read_csv()함수
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)
*low_memory 매개변수를 False로 지정하면 csv 파일을 한번에 모두 읽기 때문에,
csv 파일이 아주 큰 경우 메모리 부족 오류가 발생할 수 있다.
→ dtype 매개변수로 데이터 타입을 지정할 수 있다.
- 데이터프레임의 처음 5개 행 확인: head()
df.head()
- 데이터프레임을 csv 파일로 저장하기: to_csv()
df.to_csv('ns_202104.csv')
- csv 파일에 인덱스가 이미 있다는 것을 알려줄 때 index_col 매개변수 사용
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()
*다른 방법: 데이터프레임을 csv 파일로 저장할 때 인덱스 빼고 저장
→ index=False
'혼자 공부하는 데이터 분석' 카테고리의 다른 글
6장 복잡한 데이터 표현하기 (0) | 2023.06.08 |
---|---|
5장 데이터 시각화하기 (1) | 2023.05.29 |
4장 데이터 요약하기 (0) | 2023.05.29 |
3장 데이터 정제하기 (0) | 2023.05.22 |
2장 데이터 수집하기 (0) | 2023.05.14 |
댓글