데이터 분석 학습일지🐣

2일차 - 친근한 엑셀로 실무 엑셀 데이터 분석하기(1)

boiled egg 2023. 6. 22. 03:09

Date: 2023-06-21

Topic: 데이터 분석과 엑셀 기초


Notes

데이터 분석이란?

  • 데이터 분석의 과정
    1. 문제 정의 및 분석 목적 설정
    2. 데이터 수집
    3. 데이터 탐색
    4. 데이터 전처리
    5. 데이터 모델링
    6. 검증 및 평가
    7. 데이터 시각화
  • 데이터 전처리 : 분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공

Data Science

: 데이터 분석 프로세스를 체계화하여 학문으로 발전시킨 분야, 다양한 학문이 융합되어 새롭게 탄생한 '융합 학문'

 

- 조선왕조실록을 디지털화할 때 가장 필요한 인재?

: Specialist 보단 Generalist.

역사학 최고 권위자, 국내 최고 데이터 분석가보다는 데이터 분석을 할 수 있는 역사학자, 역사학을 알고 있는 데이터 분석가가 더 효과적이다.

⇒ 4차 산업혁명 시대에서 우리의 목표 "데이터 분석을 할 수 있는 직무 전문가"

 

- 우리가 사용할 수 있는 것(툴, 프로그래밍 언어 등)

: SAS, SPSS, R, python, SQL, tableau, excel --- etc

그러나! 실무에서는 엑셀로도 충분하다⭐


엑셀을 배워야 하는 이유

  • 엑셀을 배워야 하는 이유
    • 조직적 관점: 쉽고, 빠르고, 어디서나 접근 가능.
    • 개인적 관점: 엑셀을 잘 하면 업무를 빠르고 정확하게 수행하고 일에 대한 자신감 up (오로지 나를 위한..ㅎ)
  • 엑셀을 잘한다는 것
    • 사용자 입장에서(직급, 연령, 상황)
    • 목적에 부합하도록(왜, 어떤 관점에서, output)
    • 자료를 구성(MECE, visualization, simple&easy)

엑셀 기본 원리, 기초

  • 우리가 엑셀에서 입력할 수 있는 데이터
    • 값(value)
      • 텍스트 : 문자 데이터
      • 숫자 : 숫자 데이터
    • 수식(formula)
      • 계산식 : 사칙/논리 연산 등
      • 함수: 데이터를 입력하면 특정 결과 출력
    • 서식(format)
      • 글꼴 서식 : 글꼴 색, 크기, 굵게 등
      • 셀 서식 : 셀 배경색, 테두리

⇒ 수식의 결과값이 텍스트면 왼쪽 정렬, 숫자면 오른쪽 정렬! (*표시 형식이 [일반] 일 때)

 

  • 반드시 기억해야 할 엑셀 기초
    1. 엑셀의 모든 셀에는 서식이 적용되어 있다.
    2. 복사/붙여 넣기를 하면 서식까지 모두 적용
      1. 수식 붙여넣기 : 서식 제외한 수식 그대로
      2. 값 붙여넣기붙여 넣기 : 서식 제외한 수식을 값으로 변경하여 붙여 넣기
      3. 서식 붙여 넣기 : 값, 서식 제외한 서식만
  • 엑셀의 참조
    • 상대 참조 : 함수 복붙 시 참조된 셀이 함께 이동
    • 절대 참조(F4키) : 이동 X ($)
    • 혼합 참조 : 한 셀의 열 또는 행에만 절대 참조가 걸려있고 다른 하나는 상대 참조인 참조

⇒ 행이 절대 참조면 좌우만 이동(상 X), 열이 절대 참조면 상하만 이동(좌우 X)

 

  • 빠른실행도구모음 등록하고 쓰기 좋은 기능 7가지
    • 합계
    • 수식 붙여 넣기
    • 값 붙여 넣기
    • 서식 붙여 넣기
    • 화면에 보이는 셀 선택
    • 틀 고정
    • 병합하고 가운데 맞춤
    ⇒ 이후 alt + (키)로 단축키 사용 가능! 나에게 맞는 기능을 적절하게 추가하여 사용하면 된다.

 

  • 필수 단축키 (ppt 54p 참고) : 자주 보고 직접 사용해 보기!!

  • 병합 후 가운데 정렬 기능은 지양하는 것이 좋다 (엑셀의 장점을 활용하지 못하는 방법)

⇒ 대신 정렬하고자 하는 범위를 드래그로 설정한 뒤 셀 서식(ctrl+1)에서 ‘선택 영역의 가운데로’로 설정해 주면 셀은 살리면서 값은 가운데 정렬을 할 수 있다.

  • 셀에 맞게 글자 간격 띄우기 셀 서식(ctrl+1) - 맞춤 - 균등 분할

탐색적 데이터 분석(EDA)

: Exploratory Data Analysis, 기존 통계학이 정보 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 탐색적 자료 분석 방법.

  • EDA 중요성
    • 내 입맛대로 수집되는 데이터는 1도 없다.
    • 수집된 데이터 특성 및 분포를 파악해야 한다.
    • 결측치, 이상치의 존재 유무를 파악할 수 있다.
    • 탐색적 데이터 분석의 결과를 바탕으로 분석에 필요한 데이터 전처리를 수행할 수 있다.
    • 가장 적합한 분석 방법을 결정할 수 있다.
    ⇒ 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있다.

기초 통계량 계산하기

데이터 분석 도구

: 엑셀에서 다양한 통계적 데이터 분석을 수행할 수 있는 추가 기능

  • 기초 통계량
    • 표준 오차 : 표본들의 평균의 전체 평균과 떨어져 있는 정도
    • 중앙값 : 데이터를 순서대로 정렬했을 때 위치적으로 가장 중앙에 있는 값(ex. [1,2,3,4,5]의 중앙값은 3)
    • 최빈값 : 가장 많이 반복되는 데이터
    • 표준 편차 : 평균과 각 데이터들의 편차를 나타냄(분산의 제곱근 = 분산에 루트를 씌운 값)
    • 분산 : 데이터가 평균을 기준으로 얼마나 분산되어 있는지(퍼져 있는지)를 의미(분산이 크면 데이터가 많이 분산되어 있음)
    • 첨도 : 데이터 분포의 뾰족한 정도(값이 3이면 정규분포, 3보다 크면 납작한 분포, 3보다 작으면 뾰족한 분포)
    • 왜도 : 데이터 분포가 치우쳐 있는 정도(평균과 중앙값이 같으면 왜도는 0, 왜도가 양수이면 오른쪽으로 꼬리가 긴 분포, 왜도가 음수이면, 왼쪽으로 꼬리가 긴 분포)
  • 기초 통계량 계산하기 (먼저 [데이터] 탭에 '데이터 분석' 도구를 추가한다.)
    1. [데이터 분석] - [기술 통계법] 선택
    2. 계산하고자 하는 통계량을 '입력 범위'란에 입력
      • 드래그
      • 입력 범위 첫 번째 데이터 선택 후 ctrl + shift + 방향키 (데이터 양이 방대할 때)
    3. '첫째 행 이름표 사용' 체크✅
    4. '출력 범위'란에 기초 통계량을 출력할 셀 선택
    5. '요약 통계량' 체크✅
    6. '확인' 클릭 후 출력된 값 확인

< 실습 >

RAW 데이터에서 Q열의 Sales값을 통계 내려한다.


입력 후, 결괏값을 확인한다.

통계치가 나오면 표시 형식을 설정해서 ( , '쉼표 스타일') 소수점을 정리해 준다.

왼쪽은 함수를 이용해서 구한 결과값으로, [데이터 분석 - 기술 통계량]으로 출력한 값과 같은 것을 볼 수 있다.


피벗 테이블(Pivot Table)

: 피벗 테이블은 커다란 표의 데이터를 요약하는 통계표로 엑셀에서 가장 powerful한 도구다.

 

  • 피벗 테이블이 어려운 이유 : 복잡한 데이터에서 어떤 요약 통계표를 만들어야 하는지 스스로가 명확하지 않기 때문

→ 이때 내가 만들어야 하는 테이블을 손으로 따라 보면서 머릿속으로 정리할 수 있다. (행(row)과 열(column)에 각각 어떤 데이터가 들어가야 하는지, 가운데 값(value)에는 어떤 데이터를 넣을지)

 

  • 피벗 테이블 만들기

[피벗 테이블 필드]를 열어 넣고자 하는 데이터를 체크한 뒤 필터/행/열/값 중 필요한 부분으로 드래그한다.

 

< 실습 >

피벗 테이블로 만들어보기

아까와 같이 raw 데이터를 확인한다.

[삽입] - [피벗 테이블]을 선택해 다음과 같이 사용할 데이터의 범위와 테이블을 배치할 위치를 선택해 준다.

그럼 아래와 같이 피벗 테이블 필드가 형성되는데

필요에 따라 필드를 추가하고 이동해서 원하는 형태의 테이블로 만들 수 있다.

필드를 좌측 상단처럼 필터로 추가할 수도 있지만

[피벗 테이블 분석] 탭에서 '슬라이서 삽입'을 눌러 원하는 조건으로 필터링할 수 있게 버튼을 만들 수 있다. (상기 이미지는 Segment와 Region을 추가했고 Consumer와 East를 선택해, 동부 지역 소비자의 연도별 제품 총매출액을 보여주는 피벗 테이블을 만들었다.)

 

+ 피벗 테이블 클릭 후 추가된 [디자인] 탭에서 레이아웃을 변경할 수도 있다.

위엔 카테고리 하단으로 서브 카테고리가 속한 형태인데(B열에 카테고리와 서브- 가 모두 포함)

[보고서 레이아웃] - [테이블 형식]으로 바꿔서 카테고리와 서브 카테고리를 서로 다른 열로 분류해 주었다.

(카테고리는 B열, 서브 카테고리는 C열이 되었다.)


본격적으로 데이터 분석을 하는 강의가 시작되었다. 누구나 쉽게 접근할 수 있는 엑셀을 이용한 데이터 분석이 주요 포인트라 그런지 엑셀 기초부터 설명해 주셨다. 그래도 엑셀을 사용한 지 꽤 됐다고 생각했는데 단축키와 더 편한 기능들을 배우고 나니 그동안 허투루 엑셀을 사용한 것 같았다.🥲 같은 결과를 도출하려고 해도 이렇게 편하게 하는 방법도 있었구나 싶고(특히 기초 통계량 계산하는 부분,,) 피벗 테이블도 매번 헷갈려서 굳이 사용하려고 하지 않았는데 강사님께서 알려주시는 대로 차근차근 따라 했더니 점점 감이 생겼다. 특히 원하는 테이블을 만들기 위해 노트에 손으로 직접 그려보고 만들라고 하신 것이 정말 꿀팁이었다. 간단한 건데 생각도 못하고 매번 피벗 테이블을 일단 열고 어떻게 만들어야 할지 골머리 썩혔다..ㅎㅎ '연도별로 합계를 구할 거니까 행에는 Years가 있어야겠구나' 이런 식으로 연계가 가능해지니 막상 테이블 자체는 정말 금방 만들었다. 그리고 슬라이서 기능은 처음 알았는데 on/off 형식에 다중 선택도 가능해서 필터링이 정말 쉬웠다. 앞으로 자주 사용하게 될 기능 중에 하나일 것 같다. 마우스 사용하지 않고 키보드로만 엑셀을 사용하는 그날까지,,, 열심히 연습해야겠다🔥