브렌쏭의 Veritas_Garage

[ML] 통계 개념 기초 :: 기술통계 본문

[Project_하다]/[Project_공부]

[ML] 통계 개념 기초 :: 기술통계

브렌쏭 2024. 9. 9. 10:27

통계란, 수집된 자료에 대해 수치적으로 처리하고 연구하는 과정

기술 통계와 추론 통계가 있다

기술통계 (서술 통계, Descriptive statistics)

  • 수집한 데이터를 요약, 묘사, 설명하는 통계 기법
  • 자료의 요약된 정보를 대푯값(Representative value)으로 표현
  • 한계
    • 자료의 대표 특성을 확인할 수 있다.
    • 통계 없이는 대용량의 자료를 설명할 방법이 없다.
    • 자료의 자세한 정보는 확인할 수 없다.
    • 자료의 세세한 정보는 통계의 관심사가 아니다.
  • 통계적 수치(통계량)
    • 중심에 대한 통계
    • 산포에 대한 통계
    • 관계에 대한 통계
    • 형태에 대한 통계
  • 중심: 자료의 대표적인 값
    • 평균, 중앙값, 최빈값
  • 산포: 자료의 흩어진 정도
    • 분산, 표준편차, 범위
  • 관계: 자료 간의 관련성
    • 상관계수, 회귀분석 (Correlation, Regression)
  • 형태: 자료의 분포 형태
    • 왜도, 첨도 (Skewness, Kurtosis)

중심 경향성

  • 평균 (Mean): 자료의 총합을 자료의 개수로 나눈 값
    • 모평균, 표본평균, 샘플 평균
  • 중앙값 (Median): 자료를 크기 순서대로 나열했을 때 가운데 위치한 값
    • 극단적인 값에 영향을 받지 않는다. (제외되어 버린다.)
  • 최빈값 (Mode): 자료 중 가장 많이 나타나는 값
    • 이산형 자료에 대해서만 적용 가능
  • 절사평균 (Trimmed Mean): 극단적인 값들을 제외한 나머지 값들의 평균
    • 이상치에 민감하지 않다. (영향을 덜 받는다.)
    • 이상점: 자료의 범위에서 크게 벗어난 값. (Outlier)
  • 기하평균 (Geometric Mean): 자료의 곱을 자료의 개수 제곱근으로 나눈 값
    • 어떤 값이 상대적인 변화율을 나타낼 때 사용

산포도

  • 자료의 변동성을 나타내는 통계량
    • 중심으로부터 얼마나 떨어져 있는지를 나타내는 지표
  • 편차: 각 자료 값과 평균의 차이
    • 편차의 합은 항상 0
    • 편차의 제곱의 합이 최소가 되는 값이 평균
  • 범위 (Range): 최대값과 최소값의 차이
  • 분산 (Variance): 평균과 각 자료 값의 차이의 제곱의 평균
    • 편차 제곱의 평균
    • 편차: 각 자료 값과 평균의 차이
  • 표준편차 (Standard Deviation): 분산의 제곱근
    • 분산의 단위 문제를 해결
    • 평균으로부터 얼마나 떨어져 있는지를 나타내는 지표
  • 변동: 표준편차의 제곱
    • 분산과 표준편차는 자료의 변동성을 나타내는 지표
    • 변동은 자료의 흩어진 정도를 나타내는 지표

이상치를 판별하거나 예측한 결과에 대한 신뢰성을 판단, 시계열 데이터의 변화 추이를 분석하는 등 다양한 분야에서 활용

상관관계

  • 두 변수 간의 관계를 나타내는 통계량
  • 상관계수 (Correlation Coefficient): 두 변수 간의 관계를 나타내는 지표
    • -1 ~ 1 사이의 값을 가짐
    • 0에 가까울수록 두 변수 간의 관계가 없다.
    • 1에 가까울수록 두 변수 간의 관계가 높다.
    • 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가
    • 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소
정규화와 표준화 (Normalization, Standardization)

상관관계를 알기위해서는 각 데이터의 범위가 동일해야 한다.

정규화: 데이터의 범위를 0과 1 사이로 변환 (음수가 있을 경우에는 -1 ~ 1으로 변환)
  • Min-Max Scaling
  • Z-Score Normalization
  • 특정 범위를 지정하고 데이터의 범위를 동일하게 스케일링하기 위해 사용
  • 표준화: 데이터의 평균을 0, 표준편차를 1로 변환
    • 데이터의 중앙에 배치하게 된다.
    • 데이터 간 크기 차이로 인한 오류나 편향을 제거
    • 결과적으로 해당 데이터의 포인트가 중심으로부터 얼마나 떨어져 있는지를 측정한다.
  • MinMax정규화: 데이터의 범위를 0과 1 사이로 변환
    • 최소값을 0, 최대값을 1로 변환
    • 값을 균등하게 배정한다.
  • $$
    X_{new} = \frac{X - X_{min}}{X_{max} - X_{min}}
    $$
  • Robust정규화: 이상치와 에러값으로부터 영향을 받지 않는 정규화 방법
    • 중앙값을 0, IQR을 1로 변환
      • IQR: 사분위값
    • 이상치에 민감하지 않다.
    • 평균과 분산 대신, 중앙값과 IQR을 사용
  • $$
    X_{new} = \frac{X - Q1}{Q3 - Q1}
    $$
표준화와 편차

데이터에서 평균을 빼고 표준편차로 나누어 표준정규분포를 따르도록 만드는 과정

$$
Z = \frac{X - \mu}{\sigma}
$$

  • 자료들이 서로 다른 분포를 가지고 있을 때, 이를 비교하기 위해 사용
  • 자료들은 모두 정규분포라고 가정한다.
  • 평균이나 분산에 관계없이 표준화된 지표를 얻을 수 있다.
  • 표준 점수(Standard Score)
    • z-score, z-value
    • 통계적으로 정규 분포를 만들고, 개개의 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
    • 차원없는 값으로, 표준화된 값이라고도 한다.
    • 0에 가깝다면 평균에 가깝다는 의미
  • 편차값(Deviation Value)
    • 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
    • 평균을 기준으로 한 편차값
    • 평균을 50, 표준편차를 10으로 설정
관계와 통계

관계란 자료와 자료 사이의 연관성을 나타내는 수치

  • 수치일 뿐, 실제 관계를 나타내지 않는다.
상관관계

두 변수 사이의 관계, 그 강도와 방향을 나타내는 수치
이를 통해 한 변수가 변화함에 따라 다른 변수가 어떻게 변화하는지를 알 수 있다.
인과관계를 나타내지 않는다.
그저 관계를 정량화하는 지표

  • 공분산(Covariance): 두 변수가 함께 변하는 정도
    • 두 변수가 함께 변하는 정도를 나타내는 지표
    • 두 변수가 함께 증가하거나 감소하면 양수, 반대로 증가하거나 감소하면 음수
    • 단위에 따라 값이 달라지므로 해석이 어렵다.
    $$
    cov(x, y) = \frac{\sum(x-\bar{x})(y-\bar{y})}{n-1}
    $$
  • 공분산의 단점:
    • 두 변수 사이의 상관성이 낮아도 수치가 크면, 공분산 값이 크게 나올 수 있다.
    • 반대로 두 변수 사이의 상관성이 높아도 수치나 낮으면, 공분산 값은 작게 나올 가능성이 있다.
  • 상관계수(Correlation Coefficient): 두 변수 사이의 관계를 나타내는 지표
    • 두 변수 사이의 관계를 나타내는 지표
    • -1 ~ 1 사이의 값을 가짐
    • 0에 가까울수록 두 변수 간의 관계가 없다.
    • 1에 가까울수록 두 변수 간의 관계가 높다.
    • 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가
    • 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소
    $$
    r = \frac{cov(x, y)}{\sigma_x \cdot \sigma_y}
    $$
    • 공분산을 각 변수의 표준편차로 나눈 값
    • 단위에 영향을 받지 않는다.
  • 인과관계
    • A가 변하면 B도 변한다.
    • A로 인해 B가 변했다.
    • 원인과 결과

형태에 대한 통계

분포의 비대칭 정도, 뾰족한 정도를 나타내는 지표
자료의 분포나 왜곡 정도를 나타내는 지표
분포의 형태를 나타내는 지표

  • 왜도(Skewness): 분포의 비대칭 정도
    • 분포의 비대칭 정도를 나타내는 지표
    • 왼쪽으로 치우쳤으면 음수, 오른쪽으로 치우쳤으면 양수
    • 0에 가까울수록 대칭
  • 첨도(Kurtosis): 분포의 뾰족한 정도
    • 평균과의 거리를 나타내는 지표
    • 0보다 크면 뾰족한 분포, 작으면 완만한 분포
    • 정규분포의 첨도는 3
Comments