데이터 분석 학습일지🐣
4일차 - 기초 통계와 데이터 탐색 사례
boiled egg
2023. 6. 26. 12:49
Date: 2023-06-23
Topic: 기초 통계 및 데이터 탐색 사례
Notes
통계학이란?
- 산술적 방법을 기초로 하여 다량의 데이터를 관찰하고 정리 및 분석
- 불확실성 속에서 정보를 찾아내는 학문
- 부분으로 전체를 추론
비전공자도 기본적인 통계 기초가 필요한 이유
- OKR, KPI 등 지표를 통한 방법론 : 적절한 지표를 선정하는 방법과 기준 설정
- Growth Marketing(Perfomance Marketing)
- 비즈니스 근거가 되는 데이터 수치는 이미 다양한 도구를 통해 수집, 가공, 시각화가 이뤄지는 중
- 수많은 데이터 기반 의사 결정을 수행하는 것은 더이상 데이터 직군 종사자만의 일이 아님
- 실무적 요구 능력
- 통계 수치 해석
- 올바른 인과 관계 분석
- 인사이트를 도출
데이터 분석 단계
- 데이터 분석 기획
- 비즈니스 이해 및 목표 설정 (어떤 것을 이루고자 하는지)
- 프로젝트 정의 (어떤 데이터를 바탕으로, 어떤 것을 예측/측정할 것인지)
- 수집 및 정제
- 어떻게 수집할 것인지
- 데이터 전처리, 검증 (데이터의 정합성, 무결성 등)
- 데이터 분석 모델링
- 탐색적 데이터 분석(EDA)
- 모델링
- 평가 및 결론 도출
- 모델링을 통해 생성된 결과를 활용하여 결론 도출
- 성능 평가
- 도메인에 따라, 비즈니스적 요구에 따라 성능 기준도 달라짐
- 상황에 따라 위 과정을 수정해가며 성능 개선
- 분석 결과 활용
- 분석 결과 활용
- 시스템 구현 (주기적 업데이트)
- 비즈니스 인사이트 (의사결정 도움, 시각화)
- 서비스 활용/적용
- 분석 결과 활용
탐색적 데이터 분석(EDA) : Exploratory Data Analysis
- 기초적 통계 개념으로 데이터 전체를 파악
- 데이터 형질에 대한 도메인 개념 축적
- 전처리 방향성 제시
- 데이터 전처리 : 데이터 분석에 앞서 전(pre)처리 과정을 통한 데이터 가공 및 변환
데이터 탐색 사례
(데이터 분석 기초 통계 완전 정복: part 2 : ch 1 강의 들으면서 보기 - 차트 설명 위주)
- 대표값을 통한 데이터 탐색 : 수집된 데이터로부터 통계량 측정, 통계량을 통해 집단 특성 파악
- 엑셀 기술 통계법
- 엑셀 함수를 활용한 수치 요약
- 엑셀 피벗 차트를 활용한 시각화
- 파이썬에서의 기술 통계
- 파이썬을 통한 시각화
- 차트로 데이터 탐색 사례
- 분포를 확인할 때 함께 확인해야 하는 수치
- 분포의 중심 : 평균, 중위값, 최빈값 등
- 퍼짐 정도 : 분산, 표준편차, 사분위수, 변동계수
- 분포의 모양(비대칭성) : 왜도(skewness), 첨도(kurtosis)
- 분포를 확인할 때 함께 확인해야 하는 수치
- 상관 관계로 데이터 탐색 사례 (각 변수 간의 비례 관계)
- IRIS dataset : petal, sepal, spieces 변수 간 상관 분석, 시각화
- 결측치, 이상치 데이터 탐색 사례 (관측되지 않거나 추세에서 벗어난 데이터 확인)
- 이상치는 boxplot을 가장 많이 사용
- Titanic 탑승 요금 boxplot
- Iris Outliers (파트2 채널 1-5부터 다시 듣기
통계 필요성
- 올바른 정보를 얻기 위해 적절한 통계 기법을 활용하여 수치로부터 정보를 추출해내기 위한 수단
- 기술 통계(Descriptive Statistics) : 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터 탐색 (통계청 같이 전수조사를 필요로 하는 곳에서 주로 사용)
→ 관측된 데이터의 특성을 파악하기 좋은 수단 - 추론 통계 : 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론 (현업에선 추론 통계 위주 사용!)
→ p-value 등을 활용하여 추론의 신뢰도 확보 - 데이터 탐색 과정의 목적
- 어떤 변수가 결론에 많은 영향을 미치는지
- 유의미한 변수 탐색
- 변수 간 독립성 확보
- 의미 없는 데이터 제거
- 변수 분포에 따라 사용할 수 있는 통계적 방법론이 다름
- ex: 정규성 검정을 통해 정규 분포를 따르는지 아닌지를 판단
- t-검정을 통해서 결론 도출
- Mann-Whitney U test, Kustal-Wallis test 등
- ex: 정규성 검정을 통해 정규 분포를 따르는지 아닌지를 판단
- EDA 과정 실습
- 피벗 테이블을 활용한 기술 통계량 확인
- 차트를 통한 데이터 시각화
- 히스토그램 : 수치형 변수 분포 파악
- 산점도 : 두 변수 간 상관관계 파악
- Box plot : 분위수 시각화 및 이상치 탐지
- 어떤 변수가 결론에 많은 영향을 미치는지