브렌쏭의 Veritas_Garage

[우리FISA] EDA(Exploratory Data Analysis) 본문

[Project_하다]/[Project_공부]

[우리FISA] EDA(Exploratory Data Analysis)

브렌쏭 2024. 7. 19. 12:30

EDA의 정의

  • 데이터를 분석하기 전에 데이터를 이해하기 위해 수행하는 과정
  • 데이터의 특징을 파악하고 시각화를 통해 데이터의 패턴을 발견하는 과정

전통적인 CDA 방식과 다르다 (가설설정이 선행되지 않음)

Anscombe's quartet

형상은 다르지만 동일한 수치를 보여주고 있다

  • 앤스컴 콰르텟 a.k.a. 앤스컴의 4분할 그래프
  • 4개의 데이터 집합이 평균, 분산, 상관관계, 회귀선이 같은 동일한 통계적 특성을 가지고 있음을 보여주는 예시

"숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적

용어집

  • 일화적 증거(anecdotal evidence): 과학적인 조사에 의한 것이 아닌 우연하게 수집된 증거.
  • 모집단(population): 통계 조사에서 관심을 갖는 집단.
  • 종단적 연구(cross-sectional study): 특정시점에 모집단에 대한 자료를 수집하는 연구.
  • 횡단적 연구(longitudinal study): 시간을 두고 모집단을 추적하는 연구, 동일한 그룹에서 반복적으로 데이터를 수집한다.
  • 레코드(record): 데이터셋에서 하나에 대한 정보(데이터 튜플, row, 행)
  • 표본(sample): 자료를 수집하는데 사용된 모집단의 부분집합.
  • 대표성(representative): 만약 모집단의 모든 멤버가 표본에 뽑힐 가능성이 동일하다면 대표성이 있다고 말한다.
  • 오버샘플링(oversampling): 적은 표본 크기로 생기는 오류를 피하기 위해 사용되는 방법
  • 원시자료(raw data): 가장 처음에 수집되어 계산 및 해석이 전혀 없는 상태의 데이터.
  • 재코드(recode): 원시자료에 특정 계산 혹은 다른 방법을 통해 수정된 데이터.
  • 자료 정제(data cleaning): 데이터의 타당성 확보, 오류 식별, 자료형 간의 변환 등을 포함하는 과정.

EDA ?

원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고,
데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법.
주로 빅데이터 분석에 사용된다.

  • 모델링에 앞서 데이터를 다양한 각도에서 관찰하고 이해하는 과정
  • 그래프나 통계적인 방법으로 자료를 직관적으로 살펴본다

Machine Learning 에 이어진다

전통적인 CDA 방식과 다르다 (가설설정이 선행되지 않음)

CDA(Confirmatory Data Analysis)

  • 가설을 세우고, 가설을 검정하는 방식

CDA방식이 과거 데이터를 바탕으로 가설을 평가하고 추정한다면,

EDA방식은 Raw data를 가지고 유연하게 탐색하고, 데이터의 특징과 구조로부터 통계모형을 만드는 분석방법

확증적 데이터 분석 :: 추론통계

수집한 데이터를 이용하여 추론 예측하는 통계 기법으로 신뢰구간 추정, 유의성 검정 기법 등을 이용

탐색적 데이터 분석 :: 기술통계

수집한 데이터를 요약 묘사 설명하는 통계 기법으로 데이터의 대표값, 분포 등을 이용함


시각화의 목표는 = 데이터를 잘 보려고

가장 단시간에 해당 데이터를 이해할 수 있도록 만드는 것

  • 방법론 or Process
    • Top-down vs Bottom-up
      • 처음으로 무언가 살펴볼 때는 Bottom-up
      • 의미있는 것을 파악해 추가로 얻어낸 정보를 토대로 Top-down 으로 검증
    • 잘라보기, 달리보기, 내려다보기, 올려다보기
      • 기존에 도출한 데이터의 현실성분석에서 활용한 모델의 적정성 체크
      • 실세계에서 활용한 뒤 추가적으로 정보를 얻을 수 있다.
        • 시간 : 정기적이기 마련이기 때문에
        • 공간 : 한정되어 있기 때문에
        • metadata : 데이터의 데이터
      • 과정을 통해 시도해보지 않은 차원들 간 조합이나 특정 차원을 특정 값으로 고정해 보면서 인사이트를 고도화하고 확장할 수 있다. (파생변수, transpose)
        • 잘라보기(Slice)
          • 전체 데이터의 패턴을 탐색한 다음 일정 기준에 따라 데이터를 쪼개 보는 것
            ex. 전체 카드 소비 패턴 데이터 중 남성, 여성의 소비 패턴 데이터
        • 달리보기(Dice)
          • 차원들을 기준으로 잘라내어 서로 다른 관점의 단면들을 살펴보는 것
            ex. 위 데이터를 20대, 30대, 40대로 연령별로 나누어 비교 분석하는 경우
        • 내려다보기(Zoom Down)
          • 현재 바라보는 관점에서 하위 계층으로 기준을 세분화해 보는 것
            ex. 성별 기준 연령별 소비 패턴 데이터
        • 올려다보기(Zoom Out)
          • 그 반대로 현재보다 상위 계층에 관점에서 보는 것
            ex. 전체 카드 데이터의 소비 패턴 데이터

EDA시 고려해야 할 점

  • 현실 세계에서의 거의 대부분 데이터는 시간과 공간 관점의 연결고리 를 기본으로 갖고 있다.
    • 이 부분이 빠져있다면 보완하여 활용할 여지를 생각해보아야 한다.
  • 상관관계 / 인과관계
    • 상관관계 - 경향성
    • 인과관계 - 시간에 의해서 원인과 결과가 만들어진 것이기 때문에
      • 인과관계가 있는데 상관관계가 없을 수도 있다.
        그래서 상관관계를 살펴보는 데서 탐색을 시작해야 한다.
  • 이상치 (산점도와 같은 관계 시각화 도구로 확인한다)는 분석에 큰 이상을 줄 수 있다.
  • 최종사용자의 인지적인 요소
    • 3차원으로 된 시각화는 원근감으로 인한 인지적 오차가 생기는 문제점이 있다.
    • 빅데이터는 단순한 선형 구조의 방식으로 설명하기에는 한계가 있다.
      • 최근 주목받는 것이 데이터시각화이다.
    • 사람의 눈은 습관적으로 상단 왼쪽부터 하단 오른쪽 귀퉁이로 파악한다.
    • 등등

현업에서 겪는 문제점

출처 [https://newsjel.ly/archives/newsjelly-report/data-storytelling/15032]

2022년 기준 데이터 시각화 트렌드

시간은 늘 모자라긴 하지

선호하는 툴 조사, 엑셀과 종이 폼 미쳤다
가장 어려운 점

 

Comments