1일차 - 빅데이터와 데이터 리터러시
Date: 2023-06-20
Topic: 빅데이터 이해 & 데이터 리터러시 함양
Notes
Data Driven
- 알고리즘을 통해 가장 높은 확률을 선택
- 데이터가 모든 의사 결정을 좌지우지
경영 사례
- 무신사
- 고객 판매 데이터 꾸준히 수집(어떤 상품이 잘 팔리는지, 어떤 상하의 매칭을 더 선호하는지)
- 자체 브랜드 출시(무신사 스탠다드)
- 수집된 데이터를 즉각 상품에 반영, 개선(매시즌 업그레이드된 상품 선보임)
- 지피클럽 : 국내 9번째 유니콘 기업
- 중국 진출 대행하며 데이터 수집
- ‘중국인은 피부 광 중시’ 인사이트 도출
- 꿀광-청광-윤광 시리즈 라인업으로 효과적 마케팅
- 나우버스킹 : 매번 줄을 서야 하는 핫플에서 웨이팅 불만에 주목
- 카톡으로 대기 시간이나 순번 알림 서비스
- 고객 세분화&특화된 쿠폰 제시
- 재방문율, 이용률 up
ex) 고기리 막국수 평균 웨이팅 1시간 이상, but 감사 인사와 쿠폰을 드렸더니 항의 횟수 감소, 쿠폰 회수율 70% up
앞으로 데이터 역량을 갖춰야 하는 이유
- 마이데이터 시대를 맞아 고객 자산 관리 수요를 효과적으로 파악하기 위한 데이터 분석이 핵심 역량으로 자리 잡을 것
- 전문인력을 충분히 확보하고 데이터 분석 결과가 경영환경에 적극 반영될 수 있도록 내부 프로세스를 정비해야 함
Big Data
: 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보를 추출하는 것
- 통계 관점: 통계/마이닝 모형 관점
- 기술 관점: 빅데이터 처리 및 분석 기술
- 비즈니스 관점: 빅데이터 기반의 새로운 value 창출
“Big Data is high-volume, high-velocity and high variety information assets that demand cost-effective, innovative forms of information processing for enhandced insight and decision making.” - Gartner
- data 관점(volume, velocity, variety, complexity)
- system architecture 관점(open source SW, 분산병렬처리, CEP) *Complex Event Processing
- 분석 및 Biz. 활용 관점(상관 관계, 패턴, 예측, 최적화 등을 고객 중심 성과, 운영 효율화, 리스크 관리로 접합)
⇒ 종합적 이해 필요.
- big data로부터 actionable insight를 발굴하는 것이 가치 창출의 핵심! ⇒ 예측&최적
데이터의 발전 그리고 AI
- 데이터 유형/기술 발전으로 “분석 기법”의 변화를 가져옴→ 데이터 분석 환경 분석 기법
크기 기계/이력 데이터 대량 데이터 분산저장, data I/F 시계열 분석, 전수 데이터 속도 실시간 인메모리, CEP 툴 실시간 추천 분석 유형 비정형데이터 텍스트 데이터 수집/저장 텍스트 마이닝 - Artificial Intelligence (AI)
- 현재 narrow 약한 인공지능, 정해진 목적에 특화된 작업 수행
- 2040 general 강한 인공 지능, 인간 수준의 지능으로 전반적인 문제 해결 가능
- 2060 super 모든 방면에서 인간보다 뛰어난 능력 보유
- 현재 주목 받고 있는 AI 영역
- IBM Watson : ‘인지’ 기반 답변 제시, 자연어 질문에 답변 및 인사이트 제공하는 인지컴퓨팅 플랫폼
- Google AlphaGo : ‘분석’ 기반 자체 의사결정, 최적화 알고리즘을 활용한 인공지능 바둑프로그램
- 국내외 적용 사례
- IBM watsom : 의료 분야 자동 암 진단
- 담당 의사가 최신 논문과 새로운 약과 치료법 등 모두 학습하기 어려운 점 해결
- 진료 기록과 환자 상태를 보고 치료법 찾아냄
- 미국 텍사스 의과대학 MD앤더슨 암센터에서 적용
- 구글
- 자동 번역 앱 ‘워드 렌즈’
- 사진으로 텍스트를 인지하고 번역
- 해외 여행 시 유용
- 구글 포토
- 머신러닝으로 콘텐츠 자동 분류
- 태그를 입력하지 않아도 피사체의 내용과 장소, 일시 등을 추출
- 자동 번역 앱 ‘워드 렌즈’
- 네이버
- 음성검색 서비스
- 모바일 앱에서 ‘번역기’ 이용할 때 머신러닝 적용
- 스스로 이용자의 음성 입력을 인지하도록 해 음성 입력의 정확도를 향상
- 지원 가능한 서비스 언어 수를 늘려가고 있음
- N드라이브 사진 분류
- 사진 업로드 시 카테고리를 나눠 자동으로 분류
- 컴퓨터가 많은 동물 사진 데이터를 학습하여 동물 사진 패턴을 인지
- 유사 패턴 이미지가 들어오면 카테고리로 자동 이동
- 음성검색 서비스
- 카카오
- 음성검색과 ‘바로이거’ 서비스
- 즉답 검색 ‘바로이거’와 여행지 추천 서비스 ‘추천 가볼만한 곳’에 검색 서비스 머신러닝 적용
- 바로이거 서비스는 온라인 정보를 자동 분석해 사용자 질문에 바로 답을 하는 검색 서비스
- 추천~~곳 서비스는 여행 정보를 찾는 사용자들에게 여행지 검색결과를 먼저 보여주는 추천 서비스
- 음성검색과 ‘바로이거’ 서비스
- IBM watsom : 의료 분야 자동 암 진단
데이터 관련 분야 최근 트렌드
- 최근 트렌드
- 전략기술key issue
- AI-driven, 초 자동화
- Augmented Analytics, 전문성의 민주화: Low/No coding, citizen data scientist
- 자율 사물(autonomous): AI 기반 사물 간 소통/행동
- analytics는 다양한 요소 기술에 내재화 되며, 자동화/민주화 등이 가속화 되는 추세
- data analytics key issuekey issue
- analytics genaral trend
- augmented analytics
- explainable AI
- auto ML
- 학습 방식, 알고리즘 진화
- transfer learning
- federated ML
- generative adversarial networks
- analytics genaral trend
- : 다양한 러닝 방식, 자동화를 통한 분석 용이성 제고 등 지속 발전 중임
- 전략기술key issue
22/23 데이터 동향
- ‘22y analytics 방향 : 데이터 분석 기술, 실제 업무와 생산 프로세스에 적용될 때, 기술 자체에 대한 고민보다 가치 창출에 대한 고민이 본격화되고 있음.
데이터 최신 트렌드 10가지
- 더 똑똑하고 빨라진 AI
- 대시보드의 몰락 → 데이터 스토리 등장
- 결정 인텔리전스
- X(분석이 적용될 수 있는 모든 분야) 분석
- 향상된 데이터 관리 : 메타데이터 중요
- 클라우드는 이제 너무 당연한 환경
- 데이터 세계와 분석 세계의 충돌
- 공식 온라인 데이터 시장과 교환소
- 실용적인 블록체인 이용 사례 증가
- 데이터 분석 가치를 높이는 건 ‘관계성’
-가트너 부회장, 리타 살람(Rita Sallam)
- ‘23y analytics 방향 :생성형 AI
- 입력된 데이터를 통해 사용자가 원하는 결과를 유추해 텍스트, 오디오, 비디오 형태의 결과물을 만들어내는 AI 알고리즘.
- 알고리즘을 통해 방대한 양의 데이터를 패턴 분석 및 해당 학습 기반으로 새로운 출력 생성
- 윤리적 문제, 학습 데이터 오염 등 새로운 리스크에 노출. 이를 완화할 필요성 직면.
- ChatGPT
- chatgpt 정보 서비스 시장의 패러다임 변화: 검색 → 검색+생성
- 브라우저 경쟁: PC시대(netscape VS MS) → 모바일(MS VS google) → AI(MS VS google)
- 산업별 영향(활용 분야)
- 금융(금융 상품 추천 및 재테크 관리)
- 교육(AI를 활용한 교육환경 고도화)
- 제조(생산효율성 향상 및 에러율 감소)
- 유통(유통 공급망 예측 및 맞춤형 광고)
- 업무(반복 업무 감소 및 능률 향상)
- 날씨(기상 예측 및 외출, 여행 일정 추천)
- 대화(지능형 개인비서 및 돌봄 서비스)
- ICT(AI 개발 도구로 효율성 향상)
- 생성AI 플러그인 생태계의 출현: 애플 ‘앱스토어’에 비견되는 OpenAI의 ChatGPT ‘플러그인’
“OpenAI의 ChatGPT가 iPhone 모멘트였다면, ChatGPT 플러그인은 인공지능의 iOS 앱스토어 모멘트다.”
- Market Trend
- AI 전성기 : DT 추진 이제 선택 아닌 필수
- Citizen Data Scientist : 현업 주도 다양한 주제로 데이터 분석 업무 확산, self analytics 보편
- Mash-up : 기업 내 업무간 데이터 기반 연계, 기업 내외부 데이터간 결합/활용
기업 내부 Customer Transaction Data 분석을 Biz. Value-up에 장기간 활용해오고 있음. ‘4차 산업혁명’ 화두로 데이터 분석 시장 지속 성장 중 산업 영역을 가리지 않고 데이터 분석에 대한 관심이 전반적으로 높음 자체적인 분석 인력/조직 이미 확보한 경우 多 개인정보보호 규제에 상대적으로 덜 민감 바이오/헬스케어, O2O service, 게임 산업 등 Biz. 적용 활발 기존 업무에 신기술(AI 등) 적용한 성과/효율 향상, data mash-up 기반 BM/서비스 혁신에 관심 고조 분석 전문 인력/조직 부족으로 외부 전문가 의존도 높음 데이터의 양/질적 확보가 가능한 산업
데이터 활용 직군&직무
- 데이터를 활용하는 다양한 직군 소개
- Data Analyst : 보유한 데이터를 통해 문제를 정의하고 기술을 접목하여 문제 해결
- 제품(앱, 웹) : Product Analyst
- 고객이 제품을 어떻게 사용하고 있는지
- 발생하는 유저 행동 로그 데이터를 분석
- A/B test, UX 관점 데이터 파악
- KPI 모니터링, 유지 리텐션(retention)
- 사업 : Business Analyst
- 비즈니스와 프로덕트는 연관된 경우가 多
- 재무 지표와 “매출”, “비용” 등 사업의 가치의 직접적인 분석에 집중
- 매출, 비용, 손익 등 분석
- 마케팅 : 퍼포먼스 마케터
- 광고 캠페인을 통한 광고 최적화
- 페이스북, 인스타 등 광고
- KPI 달성 위한 마케팅 전략 수립
- 광고 최적화 : 광고 전략 수립, 모델 선정, 광고 방식 선정, 노출 시간대 등 광고 관련 효과 극대화를 위한 의사결정 관련 업무
- 마케팅 KPI 모니터링
- ROAS (Return On Ad Spend) 매출 대비 광고 집행 비용
- 유저 리텐션, LTV(고객 생애 가치), UAC(유저 획득 비용) 등
- 주료 Appsflyer, Branch, Google Analytics 등 자주 활용
- 공고 회사: VCNC, 스타일쉥, 광고회사
- 마케팅 : CRM 마케터
- Customer Relationship Management, 고객과 커뮤니케이션하고 고객 데이터를 분석하는 사람
- 고객 데이터를 수집하고 있는 회사에서는 대부분 CRM 마케팅 조직을 두고 있음.
- 전사 차원에서 고객들을 체계적으로 관리하고, 제공하는 서비스를 지속적으로 높은 매출을 달성하기 위해서는 CRM 활동이 필수적
- 마이데이터 사업과 같이 내부에 보유하고 있는 데이터와 외부 데이터를 결합하여 기존에 발견하지 못했던 인사이트를 얻고 시장 경쟁력을 높이는 전략 시도 중.
- 마케팅 KPI 모니터링 : 유저 리텐션, LTV(고객 생애 가치) 등
- 고객 등급별 분석, 고객 Segment 분석
- 구독 모델 기획 및 분석, 쿠폰 마케팅, Push Notification 기획 및 분석
- 고객 커뮤니케이션 툴 Braze 사용, GA 자주 활용
- 공고 회사 : 버킷플레이스, 은행, 유통, 통신업체 등
- 예측 모델 : Data Scientist
- 데이터 사이언티스트는 데이터 분석 역량 뿐만 아니라 논리적 사고, PT 등 컨설팅 역량도 요구함
- 머신러닝, 딥러닝 모델 개발 및 연구
- 사업 도메인의 목적에 맞는 모델 개발
- 개인화 추천 시스템
- 자연어 처리
- 컴퓨터 비전
- 음성 인식 etc
- 데이터 분석가가 경력을 쌓고 모델링이나 엔지니어링 경험을 통해 데이터 사이언티스트가 된다고 봄.(한국은 크게 구하지 않지만 실리콘밸리에서는 별도 정의함.)
- 제품(앱, 웹) : Product Analyst
- Data Analyst : 보유한 데이터를 통해 문제를 정의하고 기술을 접목하여 문제 해결
Citizen Data Scientist
: 수학, 통계에 깊은 지식 없이 자신의 전문 지식이 데이터 과학 원리를 적용할 수 있는 비즈니스 사용자
데이터 분석가의 역량
데이터 분석가의 필요 역량
- 프로그래밍
- 데이터 처리 및 핸들링 영역
- R, Python, SQL
- 대규모, DB, 플랫폼에 대한 이해
- 통계/ML/DL
- 분석 방법론에 따른 업무 절차
- 수학적/통계적 기법 관련 알고리즘 이해
- 문제 해결 및 결과 해석 능력
- Comm. Skill
- Presentation, 제안, 시각화 등 데이터 기반의 스토리텔링 능력
- Domain Knowledge
- 특정 산업/업무에 대한 전문 지식
- 문제 발굴 능력
DL/ML
- Machine Learning : 전문가가 정의하는 방식으로 특징 추출 후 학습하는 모델 및 구성 알고리즘.
- Deep Learning : ‘Unsupervised Feature Learning’을 통해 특징 추출을 자동 구현. 다층신경망 모형을 활용하여 local minima 최소화
- 차이점 : 머신러닝은 특징 추출 및 학습 단계를 개별 작업해야 하지만 딥러닝 알고리즘은 특징 추출~학습까지 일련의 과정을 모두 포함.
- 딥러닝의 Golden Time 도래Big Data SW(Algorithm) HW(GPU)
한계점 늘어난 인공신경망 계층의 표현력 및 학습 도를 향상 시킬만한 데이터 부족 효과적인 알고리즘 부족으로 사전 학습 데이터에 지나치게 맞춰지는 문제 발생 늘어나는 인공신경망 계층을 계산해줄 컴퓨팅 파워 부족 개선 사항 다층 신경망이 가지고 있는 일반화 능력 제고를 통하여 특징 추출의 성능 개선 다양한 알고리즘의 발전→다량 데이터 학습 수월(Unsupervised Feature Learning) Graphic Processing Unit 등장→복잡한 계산 혼재 시 연산 소요 시간 단축
데이터 분석 관련 툴 대표 7가지
- Python
- 쉽고 직관적
- 수칙연산, 데이터 처리, 시각화까지 모두 처리 가능(업무 범위 넓음)
- ML/DL 라이브러리 제공(계속 성장 중)
- R
- 방대한 양의 데이터 처리에 적합
- 즉시 사용 가능한 테스트 set을 R에서 제공하고 시각화에 효과적이라 다양하게 활용
- excel
- 대부분의 회사원이 사용하는 프로그램
- 엑셀 기능만 잘 활용해도 데이터를 효과적으로 처리하고 분석하는데 무리 없음
- SQL
- 간단한 쿼리문 몇 줄로 대용량 고객 데이터를 체계적으로 추출하고 관리 가능
- 다른 언어에 비해 배우기 쉽고 데이터 직군이 아닌 마케터나 기획사 직무에서도 SQL 역량을 갖추는 추세
- Tableau
- 다양한 시각화 차트가 제공되는 태블로는 데이터 스토리텔링에 특히 효과적
- 데이터 분석 업무 자체보다는, 데이터 분석 결과를 통한 사내 커뮤니케이션이나 업무 보고 활용도 good
- Power BI
- 엑셀을 포함한 MS 어플리케이션 기반으로 활용할 수 있는 협업 툴
- 개인적으로 열람했던 데이터를 현업이 필요한 관계자들끼리 공유하고 커스텀 대시보드로 데이터 시각화에 활용할 수 있음
- GA(Google Analytics)
- (보통은)마케팅 국한
- but GA는 웹 로그 데이터 분석에 범용적으로 쓰이는 대표적 분석 툴
- 어떤 분야의 고객 데이터든, 심층적으로 분석하여 광고 효율과 제품의 매출을 개선시킬 수 있음.
데이터 분석 관련 자격증
- DB진흥원 : ADP
- 한국데이터산업진흥원 : 빅분기, SQLP(D)
- AWS : Data Analytics Specialty, Machine Learning Specialty
- Azure : DS Associate, DA Associate, PowerBI DA Associate Certificates
- Google Data Analytics Certificate
데이터 분야 파악하기 좋은 컨텐츠(사이트, 블로그, 커뮤니티)
- 유튜브 채널 – ilyoup, 김성범[소장/인공지능공학연구소]
- [ilyoup] : 중앙대 교수님, 통계, 데이터마이닝, 딥러닝에 대한 수업을 유튜브로 공개 공유
- 친절한 설명으로 비전문가도 들을 수 있는 컨텐츠
- 김성범[소장/인공지능공학연구소] 파이썬 실습, 핵심 머신러닝에 대해 자세한 설명
- 데이터 분석과 프로그래밍 관련 블로그 https://rfriend.tistory.com/ (블로그 중에서도 분석 관련 내용들이 잘 정리되어 있음)
- AWS 자격증/교육 https://aws.amazon.com/ko/training/learn-about/machine-learning/ (AWS에서 일부 강좌에 대해 무료로 교육 컨텐츠를 제공)
- 각 회사 기술 블로그 : kakao tech, 마켓컬리 테크, 당근마켓, 토스, 쿠팡 등등
- 트렌드 이해 + 특정 기술이 비즈니스에 어떻게 적용되는지 problem-solving
- 기술 관련 콘텐츠 뿐만 아니라 조직 문화를 알 수 있는 인터뷰 글도 접할 수 있음
- 데이터 분석 관련 커뮤니티
- SK devocean : SK그룹 개발자 커뮤니티
- AWS builders Korea program : cloud에 관심 있다면?, 고객 사례와 기업 규모별, 특정 산업군
- 모두의 연구소: 모두레터 : 주로 AI+X(인공지능과 융합) 분야의 트렌디한 정보와 커뮤니티 소식
- 페이스북 데이터 분석 커뮤니티
QnA
Q1. 데이터 분석 결과를 어떻게 해석하고 사람들에게 효과적으로 전달할 수 있나요?
A1. visualization!!! python, plotly(dash app), matplolib, seaborn, Tableau storyboard/dashboard
pie, bar, histogram, (interactive/static), R ggplot
Q2. 데이터 분석가로서 자주 사용하는 기술이 어떤 것들이 있을까요?
A2. 언어로는 SQL, R, python 그리고 툴은 위에서 말한 것들 주로 활용!
Q3. 데이터 분석에 있어서 파이썬은 필수적인가요? (혹은 R)A3. 비즈니스 분야(like 마케팅)쪽으로 가면 태블로 같은 툴을 위주로 더 많이 사용할 수도 있는데 '데이터 분석'에 초점을 둔다면 파이썬은 너무 필수적이라고 생각.
Q4. 데이터 분석 직무에 신입은 많이 채용하는 편인가요? 추가로, 현재 시장 분위기나 스타트업 투자 분위기가 저조한데 어떤 산업에서 데이터 분석 신입 또는 경력 5년차 미만이 많이 필요로 하는지 궁금합니다. 마지막으로 추천할 데이터 분석 도메인도 부탁드립니다.
A4. 경력 5년차 미만은 꽤 해요. 2-3년차도 인기 많음.
Q5. 취업을 위해서 데이터 분석 프로젝트는 몇 개 정도가 필요할까요?
A5. 적어도 2-3개?
노션에 수업 필기를 하고 여기에 그대로 복붙 했더니 글이 다 깨져서 한참 수정했다🥲 무사히 첫 날 수업을 마쳤다! 오랜만에 듣는 실시간 강의여서 그런지 학생 때로 돌아간 것 같고 새로웠다ㅎㅎ 첫 강의는 빅데이터와 데이터 리터러시를 주제로 했다. 데이터 분석에 대한 개념을 기초부터 다지기에 매우 적절했던 강의였다. 특히 인터넷에서 서칭으로 찾을 수 있는 내용이 아닌, 정말 현업과 현실, 실제 기업 데이터로 수업을 듣게 돼서 집중도 잘됐다. 특히 강사님이 미국에서 10년 정도 계셨다고 했는데 데이터쪽에서 우리 나라보다 훨씬 먼저 선도된 문화도 듣고, 컨텐츠가 흔하게 들을 수 있는 내용이 아니라서 정말 흥미로웠다! 수업 내용만 필기한 게 억울할 정도 ㅠㅠ 그런 내용들을 메모해놨으면 나중에 다시 읽어보면서 좀 더 넓은 시야로 볼 수 있을 것 같았는데 열심히 강의 과정만 받아 적는 습관..ㅎ 강의 자료는 제공되니까 이런 사소한 부분에서 습관을 들이면 좋을 것 같다. 이론 수업만 연강하면 루즈하지 않을까 라는 걱정과는 달리 수업 마지막까지 지루할 틈 없었다. 하루만 듣는 게 아쉬운 정도..ㅎㅎ 나중에 기회가 되면 특강 같은 것도 있었으면 좋겠다.
(+ JD를 활용해서 공부나 포폴, 취업 준비 방향을 잡는 방법으로 강의해주신 부분이 인상 깊었다. 왜냐면 내가 종종 쓰는 방법이었는데😎 나름 꼼수라고 생각해서 어디 말하기가 민망했다,, 그런데 이렇게 현직자가 직접!! ~~한 방식이 있다. 트렌드를 파악하기 좋다.라고 말씀해주시니 마음의 안정이 찾아왔🤧 적극 활용하면 좋을 듯한 현업에 계신 분들께만 들을 수 있는 노하우.. 이런게 진정한 꿀팁 아닐까 싶다.)
(++ QnA나 데이터 관련 직업군은 내가 한 질문이나 내 관심사 위주로 필기 하다보니 편향된 부분이 있는 것 같다. 이런 부분은 따로 정리해서 개별 게시물로 작성하는 것도 좋을 것 같다.)