데이터 분석 학습일지🐣

6일차 - 통계 기초 예습+복습(온라인 강의)

boiled egg 2023. 6. 28. 08:55

Date : 2023-06-27

Topic : 기초 통계량, 회귀 분석, 상관계수


Note

통계학의 기본 개념

  • 확률과 통계 - 모집단, 표본, 신뢰 구간
  • 기하와 벡터 - 공간벡터, 평면
    →고등 수학을 바탕으로 정규성 검정, 분산 분석 등 통계량 분석 & 선형대수학을 바탕으로한 주성분분석(PCA)

  • TO-DO
    • 확률과 통계 개념을 정리
    • 통계적 방법론을 활용하여 분석 기법 사용(목표!)

대표값과 기초 통계량

  • 대표값 : 자료 특성을 나타낼 수 있는 대표성을 띠는 수치
  • 기초 통계량
    • 중심경향성 : 데이터 분포의 중심을 보여주는 값
    • 퍼짐 정도 : 자료가 얼마나 흩어져 있고 얼마나 모여있는지
    • 왜도 : 분포의 좌우 비대칭성 정도
    • 첨도 : 분포의 뾰족한 정도
      etc

중심 경향성 (Central Tendency)

: 말 그대로 중심으로 모이는 경향.

  • 중심 경향성을 나타내는 통계량
    • 최빈값(Mode) : 가장 빈번하게 나타나는 값, 범주형 자료에서 대표값으로 최빈값을 주로 사용.
    • 중앙값(Median) : 자료를 크기 순으로 나열했을 때 가운데 위치. 순서형 자료의 대표값으로 적합한 통계량. 이상치에 크게 영향 받지 않음.
    • 평균값
    • 산술 평균(Arithmetic Mean, Mean) : 자료 값을 모두 더해 자료 수로 나눈 값. 주로 연속형 자료에 사용. 이상치에 영향을 크게 받을 수 있음.
    • 가중 평균(Weighted Mean) : 자료 중요도에 따라 가중치를 부여한 평균.
    • 기하 평균(Geometric Mean) : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용.
      ex) CAGR(평균 성장률), 주가 상승률

회귀 분석⭐

: 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석 방법. (대표적 : 선형 회귀 모형)

  • 종속변수 : 결과
  • 독립변수 : 종속변수를 설명하기 위한 변수
  • 회귀 분석을 공부하는 이유 : 보통 결과를 설명하기 위해 하나의 변수만 영향을 주지 않음.
  • 회귀 분석의 장점
    • 대부분 결과를 설명하는 요인이 매우 많음
    • 둘 이상 변수 간의 관계를 보여주는 통계적 방법
    • 종속변수에 영향을 미치는 독립변수의 영향력 판단 가능 
  • 회귀 분석의 주의점
    • 인과관계를 설명해주지는 못함

공분산, 상관행렬

*part 1 : ch 3-4 강의 참고(보면서 실습)

 

[데이터 분석] - [공분산 분석] or [상관 분석] - 상관 관계 확인

공분산 분석
상관 분석

→ 공분산 분석은 각 변수의 범위가 달라서(ex: age 0.42~80(범위 79.58), fare 0~512.32(범위 512.32))

상관 관계의 비교가 어려울 수 있다. 이때는 상관 분석을 쓰면 좀 더 균일한 수치를 볼 수 있다.

→ 어떤 변수가 주요한 요인인지, 영향을 미쳤는지 파악할 수 있다.


상관계수

  • 피어슨 상관계수(Pearson Correlation Coefficient)
    • -1~1 사이 값을 가짐
    • 절대값이 0.5~0.7 이상이면 강한 상관관계 (상황에 따라 기준이 조금 다름)
    • -0.2~0.2 정도인 경우 약한 상관관계거나 없다고 해석

엑셀 데이터 탐색 실습

  • Kaggle
    • 데이터 분석 경진대회 플랫폼
    • 기업 또는 단체에서 빅데이터 제공
    • 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁
      • 캐글에서 제공하는 데이터와 문제를 바탕으로 의견 공유
      • 기업은 이를 바탕으로 정보와 인사이트 get
      • 유저는 다양한 데이터 및 분석 경험
  • 데이터 실습을 위한 엑셀 예제 CSV 파일 찾기(Kaggle)
    1. 필요한 데이터 검색
    2. data dictionary, data explorer, summary 확인
    3. [Download All]
    4. csv 파일을 엑셀로 연결

데이터 분석 도구를 사용해서 데이터 분포 파악하기

타이타닉호 탑승자 RAW데이터 - 요금(Fare) 데이터 분류 및 데이터 분석 - [기초 통계량]

내림 열 =FLOOR.MATH(A2)

내림2 열 =FLOOR.MATH(A2/2)*2

내림5 열 =FLOOR.MATH(A5/5)*5

좌측 : 891개 데이터 중 일부
피벗 차트를 활용해 데이터 분포를 시각적으로 파악 가능


엑셀로 히스토그램 그리기

  1. 필요한 데이터를 수집
  2. 구하고자 하는 결과
  3. [피벗 테이블] - [범위 설정] - 필요한 값 필드 선택
    ex) 타이타닉호 생존자 중 성별 or Pclass에 따른 생존률
  4. 목적에 맞게 행/열/값 설정
    ex) 생존률이므로 값(value) 필드를 평균으로 변경
  5. 필요에 따라 시각화 → 피벗 차트

이상치 탐지

*온라인 강의 참고

사분위수(IQR) 활용 이상치 탐지

Q1 제1사분위수 7.9104

Q3 제3사분위수 31

IQR Q3-Q1 23.0596