Tags more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Today

Total

Recent Posts

300x250

관리 메뉴

브렌쏭의 Veritas_Garage

[우리FISA] EDA(Exploratory Data Analysis) 본문

[Project_하다]/[Project_공부]

[우리FISA] EDA(Exploratory Data Analysis)

브렌쏭 2024. 7. 19. 12:30

EDA의 정의

데이터를 분석하기 전에 데이터를 이해하기 위해 수행하는 과정
데이터의 특징을 파악하고 시각화를 통해 데이터의 패턴을 발견하는 과정

Anscombe's quartet

앤스컴 콰르텟 a.k.a. 앤스컴의 4분할 그래프
4개의 데이터 집합이 평균, 분산, 상관관계, 회귀선이 같은 동일한 통계적 특성을 가지고 있음을 보여주는 예시

"숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적

용어집

일화적 증거(anecdotal evidence): 과학적인 조사에 의한 것이 아닌 우연하게 수집된 증거.
모집단(population): 통계 조사에서 관심을 갖는 집단.
종단적 연구(cross-sectional study): 특정시점에 모집단에 대한 자료를 수집하는 연구.
횡단적 연구(longitudinal study): 시간을 두고 모집단을 추적하는 연구, 동일한 그룹에서 반복적으로 데이터를 수집한다.
레코드(record): 데이터셋에서 하나에 대한 정보(데이터 튜플, row, 행)
표본(sample): 자료를 수집하는데 사용된 모집단의 부분집합.
대표성(representative): 만약 모집단의 모든 멤버가 표본에 뽑힐 가능성이 동일하다면 대표성이 있다고 말한다.
오버샘플링(oversampling): 적은 표본 크기로 생기는 오류를 피하기 위해 사용되는 방법
원시자료(raw data): 가장 처음에 수집되어 계산 및 해석이 전혀 없는 상태의 데이터.
재코드(recode): 원시자료에 특정 계산 혹은 다른 방법을 통해 수정된 데이터.
자료 정제(data cleaning): 데이터의 타당성 확보, 오류 식별, 자료형 간의 변환 등을 포함하는 과정.

EDA ?

원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고,
데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법.
주로 빅데이터 분석에 사용된다.

모델링에 앞서 데이터를 다양한 각도에서 관찰하고 이해하는 과정
그래프나 통계적인 방법으로 자료를 직관적으로 살펴본다

전통적인 CDA 방식과 다르다 (가설설정이 선행되지 않음)

CDA(Confirmatory Data Analysis)

가설을 세우고, 가설을 검정하는 방식

CDA방식이 과거 데이터를 바탕으로 가설을 평가하고 추정한다면,

EDA방식은 Raw data를 가지고 유연하게 탐색하고, 데이터의 특징과 구조로부터 통계모형을 만드는 분석방법

확증적 데이터 분석 :: 추론통계

수집한 데이터를 이용하여 추론 예측하는 통계 기법으로 신뢰구간 추정, 유의성 검정 기법 등을 이용

탐색적 데이터 분석 :: 기술통계

수집한 데이터를 요약 묘사 설명하는 통계 기법으로 데이터의 대표값, 분포 등을 이용함

시각화의 목표는 = 데이터를 잘 보려고

가장 단시간에 해당 데이터를 이해할 수 있도록 만드는 것

방법론 or Process
- Top-down vs Bottom-up
  - 처음으로 무언가 살펴볼 때는 Bottom-up
  - 의미있는 것을 파악해 추가로 얻어낸 정보를 토대로 Top-down 으로 검증
- 잘라보기, 달리보기, 내려다보기, 올려다보기
  - 기존에 도출한 데이터의 현실성 및 분석에서 활용한 모델의 적정성 체크
  - 실세계에서 활용한 뒤 추가적으로 정보를 얻을 수 있다.
    - 시간 : 정기적이기 마련이기 때문에
    - 공간 : 한정되어 있기 때문에
    - metadata : 데이터의 데이터
  - 과정을 통해 시도해보지 않은 차원들 간 조합이나 특정 차원을 특정 값으로 고정해 보면서 인사이트를 고도화하고 확장할 수 있다. (파생변수, transpose)
    - 잘라보기(Slice)
      - 전체 데이터의 패턴을 탐색한 다음 일정 기준에 따라 데이터를 쪼개 보는 것
        ex. 전체 카드 소비 패턴 데이터 중 남성, 여성의 소비 패턴 데이터
    - 달리보기(Dice)
      - 차원들을 기준으로 잘라내어 서로 다른 관점의 단면들을 살펴보는 것
        ex. 위 데이터를 20대, 30대, 40대로 연령별로 나누어 비교 분석하는 경우
    - 내려다보기(Zoom Down)
      - 현재 바라보는 관점에서 하위 계층으로 기준을 세분화해 보는 것
        ex. 성별 기준 연령별 소비 패턴 데이터
    - 올려다보기(Zoom Out)
      - 그 반대로 현재보다 상위 계층에 관점에서 보는 것
        ex. 전체 카드 데이터의 소비 패턴 데이터

EDA시 고려해야 할 점

현실 세계에서의 거의 대부분 데이터는 시간과 공간 관점의 연결고리 를 기본으로 갖고 있다.
- 이 부분이 빠져있다면 보완하여 활용할 여지를 생각해보아야 한다.
상관관계 / 인과관계
- 상관관계 - 경향성
- 인과관계 - 시간에 의해서 원인과 결과가 만들어진 것이기 때문에
  - 인과관계가 있는데 상관관계가 없을 수도 있다.
    그래서 상관관계를 살펴보는 데서 탐색을 시작해야 한다.
이상치 (산점도와 같은 관계 시각화 도구로 확인한다)는 분석에 큰 이상을 줄 수 있다.
최종사용자의 인지적인 요소
- 3차원으로 된 시각화는 원근감으로 인한 인지적 오차가 생기는 문제점이 있다.
- 빅데이터는 단순한 선형 구조의 방식으로 설명하기에는 한계가 있다.
  - 최근 주목받는 것이 데이터시각화이다.
- 사람의 눈은 습관적으로 상단 왼쪽부터 하단 오른쪽 귀퉁이로 파악한다.
- 등등

현업에서 겪는 문제점

출처 [https://newsjel.ly/archives/newsjelly-report/data-storytelling/15032]

시간은 늘 모자라긴 하지

'[Project_하다] > [Project_공부]' 카테고리의 다른 글

[Data Visualization] Libraries (0)	2024.07.22
[우리FISA] 2주차 회고 Python Libraries (1)	2024.07.19
[우리FISA] Data Visualization (0)	2024.07.19
[@mohsin.shaikh324] Matplotlib vs. Seaborn vs. Plotly (0)	2024.07.19
[우리FISA] Pandas method and functions (0)	2024.07.18
[우리FISA] NumPy (0)	2024.07.17
[우리FISA] Python Class (0)	2024.07.16