Tags
- 오사카
- CS231n
- Python
- 맛집
- 제주도
- fdr-x3000
- 도쿄
- 군산
- k-디지털트레이닝
- 카페
- 대만
- 17-55
- 축복렌즈
- 전주
- 전시
- ai_엔지니어링
- 여행
- 대만여행
- 수요미식회
- 시청
- 축복이
- 해리포터
- 글로벌소프트웨어캠퍼스
- 우리fis아카데미
- 우리fisa
- 우리에프아이에스
- 사진
- SQL
- 650d
- 건담
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
Recent Posts
300x250
브렌쏭의 Veritas_Garage
[ML] 통계 개념 기초 :: 기술통계 본문
통계란, 수집된 자료에 대해 수치적으로 처리하고 연구하는 과정
기술 통계와 추론 통계가 있다
기술통계 (서술 통계, Descriptive statistics)
- 수집한 데이터를 요약, 묘사, 설명하는 통계 기법
- 자료의 요약된 정보를 대푯값(Representative value)으로 표현
- 한계
- 자료의 대표 특성을 확인할 수 있다.
- 통계 없이는 대용량의 자료를 설명할 방법이 없다.
- 자료의 자세한 정보는 확인할 수 없다.
- 자료의 세세한 정보는 통계의 관심사가 아니다.
- 통계적 수치(통계량)
- 중심에 대한 통계
- 산포에 대한 통계
- 관계에 대한 통계
- 형태에 대한 통계
- 중심: 자료의 대표적인 값
- 평균, 중앙값, 최빈값
- 산포: 자료의 흩어진 정도
- 분산, 표준편차, 범위
- 관계: 자료 간의 관련성
- 상관계수, 회귀분석 (Correlation, Regression)
- 형태: 자료의 분포 형태
- 왜도, 첨도 (Skewness, Kurtosis)
중심 경향성
- 평균 (Mean): 자료의 총합을 자료의 개수로 나눈 값
- 모평균, 표본평균, 샘플 평균
- 중앙값 (Median): 자료를 크기 순서대로 나열했을 때 가운데 위치한 값
- 극단적인 값에 영향을 받지 않는다. (제외되어 버린다.)
- 최빈값 (Mode): 자료 중 가장 많이 나타나는 값
- 이산형 자료에 대해서만 적용 가능
- 절사평균 (Trimmed Mean): 극단적인 값들을 제외한 나머지 값들의 평균
- 이상치에 민감하지 않다. (영향을 덜 받는다.)
- 이상점: 자료의 범위에서 크게 벗어난 값. (Outlier)
- 기하평균 (Geometric Mean): 자료의 곱을 자료의 개수 제곱근으로 나눈 값
- 어떤 값이 상대적인 변화율을 나타낼 때 사용
산포도
- 자료의 변동성을 나타내는 통계량
- 중심으로부터 얼마나 떨어져 있는지를 나타내는 지표
- 편차: 각 자료 값과 평균의 차이
- 편차의 합은 항상 0
- 편차의 제곱의 합이 최소가 되는 값이 평균
- 범위 (Range): 최대값과 최소값의 차이
- 분산 (Variance): 평균과 각 자료 값의 차이의 제곱의 평균
- 편차 제곱의 평균
- 편차: 각 자료 값과 평균의 차이
- 표준편차 (Standard Deviation): 분산의 제곱근
- 분산의 단위 문제를 해결
- 평균으로부터 얼마나 떨어져 있는지를 나타내는 지표
- 변동: 표준편차의 제곱
- 분산과 표준편차는 자료의 변동성을 나타내는 지표
- 변동은 자료의 흩어진 정도를 나타내는 지표
이상치를 판별하거나 예측한 결과에 대한 신뢰성을 판단, 시계열 데이터의 변화 추이를 분석하는 등 다양한 분야에서 활용
상관관계
- 두 변수 간의 관계를 나타내는 통계량
- 상관계수 (Correlation Coefficient): 두 변수 간의 관계를 나타내는 지표
- -1 ~ 1 사이의 값을 가짐
- 0에 가까울수록 두 변수 간의 관계가 없다.
- 1에 가까울수록 두 변수 간의 관계가 높다.
- 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가
- 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소
정규화와 표준화 (Normalization, Standardization)
상관관계를 알기위해서는 각 데이터의 범위가 동일해야 한다.
정규화: 데이터의 범위를 0과 1 사이로 변환 (음수가 있을 경우에는 -1 ~ 1으로 변환)
- Min-Max Scaling
- Z-Score Normalization
- 특정 범위를 지정하고 데이터의 범위를 동일하게 스케일링하기 위해 사용
- 표준화: 데이터의 평균을 0, 표준편차를 1로 변환
- 데이터의 중앙에 배치하게 된다.
- 데이터 간 크기 차이로 인한 오류나 편향을 제거
- 결과적으로 해당 데이터의 포인트가 중심으로부터 얼마나 떨어져 있는지를 측정한다.
- MinMax정규화: 데이터의 범위를 0과 1 사이로 변환
- 최소값을 0, 최대값을 1로 변환
- 값을 균등하게 배정한다.
- $$
X_{new} = \frac{X - X_{min}}{X_{max} - X_{min}}
$$
- Robust정규화: 이상치와 에러값으로부터 영향을 받지 않는 정규화 방법
- 중앙값을 0, IQR을 1로 변환
- IQR: 사분위값
- 이상치에 민감하지 않다.
- 평균과 분산 대신, 중앙값과 IQR을 사용
- 중앙값을 0, IQR을 1로 변환
- $$
X_{new} = \frac{X - Q1}{Q3 - Q1}
$$
표준화와 편차
데이터에서 평균을 빼고 표준편차로 나누어 표준정규분포를 따르도록 만드는 과정
$$
Z = \frac{X - \mu}{\sigma}
$$
- 자료들이 서로 다른 분포를 가지고 있을 때, 이를 비교하기 위해 사용
- 자료들은 모두 정규분포라고 가정한다.
- 평균이나 분산에 관계없이 표준화된 지표를 얻을 수 있다.
- 표준 점수(Standard Score)
- z-score, z-value
- 통계적으로 정규 분포를 만들고, 개개의 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
- 차원없는 값으로, 표준화된 값이라고도 한다.
- 0에 가깝다면 평균에 가깝다는 의미
- 편차값(Deviation Value)
- 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
- 평균을 기준으로 한 편차값
- 평균을 50, 표준편차를 10으로 설정
관계와 통계
관계란 자료와 자료 사이의 연관성을 나타내는 수치
- 수치일 뿐, 실제 관계를 나타내지 않는다.
상관관계
두 변수 사이의 관계, 그 강도와 방향을 나타내는 수치
이를 통해 한 변수가 변화함에 따라 다른 변수가 어떻게 변화하는지를 알 수 있다.
인과관계를 나타내지 않는다.
그저 관계를 정량화하는 지표
- 공분산(Covariance): 두 변수가 함께 변하는 정도
- 두 변수가 함께 변하는 정도를 나타내는 지표
- 두 변수가 함께 증가하거나 감소하면 양수, 반대로 증가하거나 감소하면 음수
- 단위에 따라 값이 달라지므로 해석이 어렵다.
cov(x, y) = \frac{\sum(x-\bar{x})(y-\bar{y})}{n-1}
$$ - 공분산의 단점:
- 두 변수 사이의 상관성이 낮아도 수치가 크면, 공분산 값이 크게 나올 수 있다.
- 반대로 두 변수 사이의 상관성이 높아도 수치나 낮으면, 공분산 값은 작게 나올 가능성이 있다.
- 상관계수(Correlation Coefficient): 두 변수 사이의 관계를 나타내는 지표
- 두 변수 사이의 관계를 나타내는 지표
- -1 ~ 1 사이의 값을 가짐
- 0에 가까울수록 두 변수 간의 관계가 없다.
- 1에 가까울수록 두 변수 간의 관계가 높다.
- 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가
- 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소
r = \frac{cov(x, y)}{\sigma_x \cdot \sigma_y}
$$- 공분산을 각 변수의 표준편차로 나눈 값
- 단위에 영향을 받지 않는다.
- 인과관계
- A가 변하면 B도 변한다.
- A로 인해 B가 변했다.
- 원인과 결과
형태에 대한 통계
분포의 비대칭 정도, 뾰족한 정도를 나타내는 지표
자료의 분포나 왜곡 정도를 나타내는 지표
분포의 형태를 나타내는 지표
- 왜도(Skewness): 분포의 비대칭 정도
- 분포의 비대칭 정도를 나타내는 지표
- 왼쪽으로 치우쳤으면 음수, 오른쪽으로 치우쳤으면 양수
- 0에 가까울수록 대칭
- 첨도(Kurtosis): 분포의 뾰족한 정도
- 평균과의 거리를 나타내는 지표
- 0보다 크면 뾰족한 분포, 작으면 완만한 분포
- 정규분포의 첨도는 3
'[Project_하다] > [Project_공부]' 카테고리의 다른 글
[ML] 통계 기초 :: 추론 통계 (0) | 2024.09.09 |
---|---|
[WEB_HTTP] Cookie와 Session (0) | 2024.08.29 |
[RAG] RAG와 ELK (0) | 2024.08.26 |
[Python] Django Basics (0) | 2024.08.26 |
[AI번역] SIMD 명령어로 벡터 검색 가속화 (0) | 2024.08.22 |
[AI번역] 엘라스틱서치의 벡터 검색: 설계 이면의 논리 (0) | 2024.08.22 |
[ELK] Logstash (0) | 2024.08.16 |
Comments