Tags
- 도쿄
- Python
- 축복렌즈
- 17-55
- 사진
- fdr-x3000
- 전시
- 대만
- 제주도
- 카페
- 군산
- 대만여행
- 맛집
- 전주
- 여행
- 우리fisa
- 우리에프아이에스
- 오사카
- 해리포터
- k-디지털트레이닝
- SQL
- 축복이
- 우리fis아카데미
- 글로벌소프트웨어캠퍼스
- CS231n
- 시청
- 수요미식회
- 650d
- 건담
- ai_엔지니어링
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Today
- Total
Recent Posts
300x250
브렌쏭의 Veritas_Garage
[우리FISA] EDA(Exploratory Data Analysis) 본문
EDA의 정의
- 데이터를 분석하기 전에 데이터를 이해하기 위해 수행하는 과정
- 데이터의 특징을 파악하고 시각화를 통해 데이터의 패턴을 발견하는 과정
Anscombe's quartet
- 앤스컴 콰르텟 a.k.a. 앤스컴의 4분할 그래프
- 4개의 데이터 집합이 평균, 분산, 상관관계, 회귀선이 같은 동일한 통계적 특성을 가지고 있음을 보여주는 예시
"숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적
용어집
- 일화적 증거(anecdotal evidence): 과학적인 조사에 의한 것이 아닌 우연하게 수집된 증거.
- 모집단(population): 통계 조사에서 관심을 갖는 집단.
- 종단적 연구(cross-sectional study): 특정시점에 모집단에 대한 자료를 수집하는 연구.
- 횡단적 연구(longitudinal study): 시간을 두고 모집단을 추적하는 연구, 동일한 그룹에서 반복적으로 데이터를 수집한다.
- 레코드(record): 데이터셋에서 하나에 대한 정보(데이터 튜플, row, 행)
- 표본(sample): 자료를 수집하는데 사용된 모집단의 부분집합.
- 대표성(representative): 만약 모집단의 모든 멤버가 표본에 뽑힐 가능성이 동일하다면 대표성이 있다고 말한다.
- 오버샘플링(oversampling): 적은 표본 크기로 생기는 오류를 피하기 위해 사용되는 방법
- 원시자료(raw data): 가장 처음에 수집되어 계산 및 해석이 전혀 없는 상태의 데이터.
- 재코드(recode): 원시자료에 특정 계산 혹은 다른 방법을 통해 수정된 데이터.
- 자료 정제(data cleaning): 데이터의 타당성 확보, 오류 식별, 자료형 간의 변환 등을 포함하는 과정.
EDA ?
원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고,
데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법.
주로 빅데이터 분석에 사용된다.
- 모델링에 앞서 데이터를 다양한 각도에서 관찰하고 이해하는 과정
- 그래프나 통계적인 방법으로 자료를 직관적으로 살펴본다
전통적인 CDA 방식과 다르다 (가설설정이 선행되지 않음)
CDA(Confirmatory Data Analysis)
- 가설을 세우고, 가설을 검정하는 방식
CDA방식이 과거 데이터를 바탕으로 가설을 평가하고 추정한다면,
EDA방식은 Raw data를 가지고 유연하게 탐색하고, 데이터의 특징과 구조로부터 통계모형을 만드는 분석방법
확증적 데이터 분석 :: 추론통계
수집한 데이터를 이용하여 추론 예측하는 통계 기법으로 신뢰구간 추정, 유의성 검정 기법 등을 이용
탐색적 데이터 분석 :: 기술통계
수집한 데이터를 요약 묘사 설명하는 통계 기법으로 데이터의 대표값, 분포 등을 이용함
시각화의 목표는 = 데이터를 잘 보려고
가장 단시간에 해당 데이터를 이해할 수 있도록 만드는 것
- 방법론 or Process
- Top-down vs Bottom-up
- 처음으로 무언가 살펴볼 때는 Bottom-up
- 의미있는 것을 파악해 추가로 얻어낸 정보를 토대로 Top-down 으로 검증
- 잘라보기, 달리보기, 내려다보기, 올려다보기
- 기존에 도출한 데이터의 현실성 및 분석에서 활용한 모델의 적정성 체크
- 실세계에서 활용한 뒤 추가적으로 정보를 얻을 수 있다.
- 시간 : 정기적이기 마련이기 때문에
- 공간 : 한정되어 있기 때문에
- metadata : 데이터의 데이터
- 과정을 통해 시도해보지 않은 차원들 간 조합이나 특정 차원을 특정 값으로 고정해 보면서 인사이트를 고도화하고 확장할 수 있다. (파생변수, transpose)
- 잘라보기(Slice)
- 전체 데이터의 패턴을 탐색한 다음 일정 기준에 따라 데이터를 쪼개 보는 것
ex. 전체 카드 소비 패턴 데이터 중 남성, 여성의 소비 패턴 데이터
- 전체 데이터의 패턴을 탐색한 다음 일정 기준에 따라 데이터를 쪼개 보는 것
- 달리보기(Dice)
- 차원들을 기준으로 잘라내어 서로 다른 관점의 단면들을 살펴보는 것
ex. 위 데이터를 20대, 30대, 40대로 연령별로 나누어 비교 분석하는 경우
- 차원들을 기준으로 잘라내어 서로 다른 관점의 단면들을 살펴보는 것
- 내려다보기(Zoom Down)
- 현재 바라보는 관점에서 하위 계층으로 기준을 세분화해 보는 것
ex. 성별 기준 연령별 소비 패턴 데이터
- 현재 바라보는 관점에서 하위 계층으로 기준을 세분화해 보는 것
- 올려다보기(Zoom Out)
- 그 반대로 현재보다 상위 계층에 관점에서 보는 것
ex. 전체 카드 데이터의 소비 패턴 데이터
- 그 반대로 현재보다 상위 계층에 관점에서 보는 것
- 잘라보기(Slice)
- Top-down vs Bottom-up
EDA시 고려해야 할 점
- 현실 세계에서의 거의 대부분 데이터는 시간과 공간 관점의 연결고리 를 기본으로 갖고 있다.
- 이 부분이 빠져있다면 보완하여 활용할 여지를 생각해보아야 한다.
- 상관관계 / 인과관계
- 상관관계 - 경향성
- 인과관계 - 시간에 의해서 원인과 결과가 만들어진 것이기 때문에
- 인과관계가 있는데 상관관계가 없을 수도 있다.
그래서 상관관계를 살펴보는 데서 탐색을 시작해야 한다.
- 인과관계가 있는데 상관관계가 없을 수도 있다.
- 이상치 (산점도와 같은 관계 시각화 도구로 확인한다)는 분석에 큰 이상을 줄 수 있다.
- 최종사용자의 인지적인 요소
- 3차원으로 된 시각화는 원근감으로 인한 인지적 오차가 생기는 문제점이 있다.
- 빅데이터는 단순한 선형 구조의 방식으로 설명하기에는 한계가 있다.
- 최근 주목받는 것이 데이터시각화이다.
- 사람의 눈은 습관적으로 상단 왼쪽부터 하단 오른쪽 귀퉁이로 파악한다.
- 등등
현업에서 겪는 문제점
출처 [https://newsjel.ly/archives/newsjelly-report/data-storytelling/15032]
시간은 늘 모자라긴 하지
'[Project_하다] > [Project_공부]' 카테고리의 다른 글
[Data Visualization] Libraries (0) | 2024.07.22 |
---|---|
[우리FISA] 2주차 회고 Python Libraries (1) | 2024.07.19 |
[우리FISA] Data Visualization (0) | 2024.07.19 |
[@mohsin.shaikh324] Matplotlib vs. Seaborn vs. Plotly (0) | 2024.07.19 |
[우리FISA] Pandas method and functions (0) | 2024.07.18 |
[우리FISA] NumPy (0) | 2024.07.17 |
[우리FISA] Python Class (0) | 2024.07.16 |
Comments