본문 바로가기

분류 전체보기93

7장 검증하고 예측하기 07-1 통계적으로 추론하기 모수검정이란 : 모집단에 대한 파라미터를 추정하는 방법 *파라미터: 평균, 분산 *모집단: 관심 대상이 되는 전체 데이터 *표본: 모집단에서 선택한 일부 샘플 표준점수 구하기 *표준점수(z 점수): 데이터가 정규분포를 따른다고 가정하고, 각 값이 평균에서 얼마나 떨어져 있는지 표준편차를 사용해 변환한 점수 *z 점수: 평균까지 거릴르 표준편차로 나눈 것 z 점수 구하기 넘파이로 먼저 표준편차와 평균 계산 import numpy as np x = [0, 3, 5, 7, 10] s = np.std(x) //표준편차 m = np.mean(x) //평균 z = (7 - m) / s print(z) 사이파이의 stats 모듈을 임포트한 다음 zscore() 함수를 호출하여 배열 x에 .. 2023. 6. 11.
6장 복잡한 데이터 표현하기 06-1 객체지향 API로 그래프 꾸미기 pyplot 방식과 객체지향 API 방식 pyplot 방식: matplotlib.pyplot에 있는 함수를 사용 객체지향 API 방식: 명시적으로 피겨 객체와 서브플롯 객체를 만들고 이 객체의 메서드를 사용 그래프 해상도 높이기: 맷플롯립의 기본 DPI를 100으로 바꾼다. import matplotlib.pyplot as plt plt.rcParams['figure.dpi'] = 100 pyplot 방식으로 그래프 그리기 : plot() 함수에 리스트 형태로 데이터를 전달하고, title() 함수에는 그래프 제목을 넣어 그리기 plt.plot([1, 4, 9, 16]) plt.title('simple line graph') plt.show() *matplotli.. 2023. 6. 8.
5장 데이터 시각화하기 05-1 맷플롯립 기본 요소 알아보기 Figure 객체 Figure(피겨): 모든 그래프 구성 요소를 담고 있는 최상위 객체 → scatter() 함수로 산점도를 그릴 때 자동으로 피겨 객체가 생성 지난 실습 데이터 ns_book7.csv 파일 다운 import gdown gdown.download('https://bit.ly/3pK7iuu', 'ns_book7.csv', quiet=False) 판다스를 임포트하여 판다스 데이터프레임으로 불러오고, head() 메서드로 상위 5개 행 출력 import pandas as pd ns_book7 = pd.read_csv('ns_book7.csv', low_memory=False) ns_book7.head() 맷플롯립을 임포트한 후 투명도를 0.1로 지정하고 s.. 2023. 5. 29.
4장 데이터 요약하기 04-1 통계로 요약하기 기술통계: 자료의 내용을 압축하여 설명하는 방법 탐색적 데이터 분석: 데이터 시각화를 아우르는 데이터 분석 방법 기술통계 구하기 03-2절에서 만든 ns_book6.csv 파일 다운로드 import gdown gdown.download('https://bit.ly/3736JW1', 'ns_book6.csv', quiet=False) 다운로드한 ns_book6.csv 파일을 데이터프레임으로 불러 온 후 처음 5개 행을 출력 import pandas as pd ns_book6 = pd.read_csv('ns_book6.csv', low_memory=False) ns_book6.head() ns_book6 데이터프레임에서 describe() 메서드 호출 ns_book6.describe.. 2023. 5. 29.
3장 데이터 정제하기 03-1 불필요한 데이터 삭제하기 데이터 정제: 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업 데이터를 분석 목적에 맞데 변환하는 데이터 탱글링 또는 데이터 먼징의 일부로 수행될 수 있다. 열 삭제하기 gdown 패키지 사용하여 데이터 다운 import gdown gdown.download('https://bit.ly/3RhoNho', 'ns_202104.csv', quiet=False) import pandas as pd ns_df = pd.read_csv('ns_202104.csv', low_memory=False) ns_df.head() *판다스에서 NaN: 누락된 값, 비어 있는 값 의미 불필요한 열 삭제: loc 메서드에 슬라이싱 .. 2023. 5. 22.