데이터 분석 학습일지🐣

4일차 - 기초 통계와 데이터 탐색 사례

boiled egg 2023. 6. 26. 12:49

Date: 2023-06-23

Topic: 기초 통계 및 데이터 탐색 사례


Notes

통계학이란?

  • 산술적 방법을 기초로 하여 다량의 데이터를 관찰하고 정리 및 분석
  • 불확실성 속에서 정보를 찾아내는 학문
  • 부분으로 전체를 추론

비전공자도 기본적인 통계 기초가 필요한 이유

  • OKR, KPI 등 지표를 통한 방법론 : 적절한 지표를 선정하는 방법과 기준 설정
  • Growth Marketing(Perfomance Marketing)
  • 비즈니스 근거가 되는 데이터 수치는 이미 다양한 도구를 통해 수집, 가공, 시각화가 이뤄지는 중
  • 수많은 데이터 기반 의사 결정을 수행하는 것은 더이상 데이터 직군 종사자만의 일이 아님
  • 실무적 요구 능력
    • 통계 수치 해석
    • 올바른 인과 관계 분석
    • 인사이트를 도출

데이터 분석 단계

  1. 데이터 분석 기획
    • 비즈니스 이해 및 목표 설정 (어떤 것을 이루고자 하는지)
    • 프로젝트 정의 (어떤 데이터를 바탕으로, 어떤 것을 예측/측정할 것인지)
  2. 수집 및 정제
    • 어떻게 수집할 것인지
    • 데이터 전처리, 검증 (데이터의 정합성, 무결성 등)
  3. 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA)
    • 모델링
  4. 평가 및 결론 도출
    • 모델링을 통해 생성된 결과를 활용하여 결론 도출
    • 성능 평가
      • 도메인에 따라, 비즈니스적 요구에 따라 성능 기준도 달라짐
      • 상황에 따라 위 과정을 수정해가며 성능 개선
  5. 분석 결과 활용
    • 분석 결과 활용
      • 시스템 구현 (주기적 업데이트)
      • 비즈니스 인사이트 (의사결정 도움, 시각화)
      • 서비스 활용/적용

탐색적 데이터 분석(EDA) : Exploratory Data Analysis

  • 기초적 통계 개념으로 데이터 전체를 파악
  • 데이터 형질에 대한 도메인 개념 축적
  • 전처리 방향성 제시
    • 데이터 전처리 : 데이터 분석에 앞서 전(pre)처리 과정을 통한 데이터 가공 및 변환

데이터 탐색 사례

(데이터 분석 기초 통계 완전 정복: part 2 : ch 1 강의 들으면서 보기 - 차트 설명 위주

  • 대표값을 통한 데이터 탐색 : 수집된 데이터로부터 통계량 측정, 통계량을 통해 집단 특성 파악
    • 엑셀 기술 통계법
    • 엑셀 함수를 활용한 수치 요약
    • 엑셀 피벗 차트를 활용한 시각화
    • 파이썬에서의 기술 통계
    • 파이썬을 통한 시각화
  • 차트로 데이터 탐색 사례
    • 분포를 확인할 때 함께 확인해야 하는 수치
      1. 분포의 중심 : 평균, 중위값, 최빈값 등
      2. 퍼짐 정도 : 분산, 표준편차, 사분위수, 변동계수
      3. 분포의 모양(비대칭성) : 왜도(skewness), 첨도(kurtosis)
  • 상관 관계로 데이터 탐색 사례 (각 변수 간의 비례 관계)
    • IRIS dataset : petal, sepal, spieces 변수 간 상관 분석, 시각화
  • 결측치, 이상치 데이터 탐색 사례 (관측되지 않거나 추세에서 벗어난 데이터 확인)
    • 이상치는 boxplot을 가장 많이 사용
    • Titanic 탑승 요금 boxplot
    • Iris Outliers (파트2 채널 1-5부터 다시 듣기

통계 필요성

  • 올바른 정보를 얻기 위해 적절한 통계 기법을 활용하여 수치로부터 정보를 추출해내기 위한 수단
  • 기술 통계(Descriptive Statistics) : 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터 탐색 (통계청 같이 전수조사를 필요로 하는 곳에서 주로 사용)
    → 관측된 데이터의 특성을 파악하기 좋은 수단
  • 추론 통계 : 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론 (현업에선 추론 통계 위주 사용!)
    → p-value 등을 활용하여 추론의 신뢰도 확보
  • 데이터 탐색 과정의 목적
    • 어떤 변수가 결론에 많은 영향을 미치는지
      • 유의미한 변수 탐색
      • 변수 간 독립성 확보
      • 의미 없는 데이터 제거
    • 변수 분포에 따라 사용할 수 있는 통계적 방법론이 다름
      • ex: 정규성 검정을 통해 정규 분포를 따르는지 아닌지를 판단
        • t-검정을 통해서 결론 도출
        • Mann-Whitney U test, Kustal-Wallis test 등
    • EDA 과정 실습
      • 피벗 테이블을 활용한 기술 통계량 확인
      • 차트를 통한 데이터 시각화
        • 히스토그램 : 수치형 변수 분포 파악
        • 산점도 : 두 변수 간 상관관계 파악
        • Box plot : 분위수 시각화 및 이상치 탐지