- 맛집
- 우리fisa
- 650d
- 우리에프아이에스
- 축복이
- 군산
- k-디지털트레이닝
- 여행
- 글로벌소프트웨어캠퍼스
- 수요미식회
- 전주
- 시청
- 축복렌즈
- 대만
- 17-55
- ai_엔지니어링
- 전시
- 제주도
- 카페
- 대만여행
- 건담
- Python
- CS231n
- 우리fis아카데미
- 오사카
- fdr-x3000
- 해리포터
- 도쿄
- SQL
- 사진
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
브렌쏭의 Veritas_Garage
[ML] 통계 기초 :: 추론 통계 본문
추론 통계 Inferential Statistics
추론 통계란?
수집된 자료를 분석하여 모집단에 대한 결론을 도출하는 통계적 방법
표본에서 얻은 통계량을 이용하여 모집단의 특성을 추론하는 방법
- 모집단 (Population): 연구 대상 전체
- 표본 (Sample): 모집단의 일부분
- 모수 (Parameter): 모집단의 특성을 나타내는 수치
- 통계량 (Statistic): 표본의 특성을 나타내는 수치
추론 통계의 한계
표본을 통해 모집단의 특성을 추론하는 것은 불확실성을 동반한다.
- 표본의 특성이 모집단의 특성과 일치하지 않을 수 있다.
- 표본의 크기가 작을수록 추정치의 신뢰도가 낮아진다.
- 시간적, 공간적 변화로 인해 모집단의 특성이 변할 수 있다.
- 표본 추출 방법에 따라 추정치가 달라질 수 있다.
추론 통계의 기본 개념
통계적 가설검정 (Statistical Hypothesis Testing)
- 가설을 세우고 검정하는 과정
- 귀무가설 (Null Hypothesis, H0): 기존의 가정
- 대립가설 (Alternative Hypothesis, H1): 새로운 가정
- 유의수준 (Significance Level): 귀무가설을 기각하는 기준
- p-value: 귀무가설이 참일 때, 표본에서 계산된 통계량이 나타날 확률
- 검정통계량: 표본에서 계산된 통계량
- 기각역: 귀무가설을 기각하는 통계량의 범위
신뢰구간 (Confidence Interval)
- 모수가 포함될 것으로 예상되는 구간
- 신뢰수준: 신뢰구간이 모수를 포함할 확률
- 표본오차: 신뢰구간의 폭
- 표본의 크기: 신뢰구간의 폭에 영향을 준다.
이러한 추론 통계의 개념을 이용하여 통계적으로 의사결정을 내릴 수 있다.
복원 추출과 비 복원 추출
복원 추출 (Sampling with Replacement)
- 표본을 추출한 후, 다시 모집단에 포함시킨 후 추출하는 방법
- 표본의 크기가 모집단의 크기보다 클 경우, 복원 추출을 사용한다.
비 복원 추출 (Sampling without Replacement)
- 표본을 추출한 후, 다시 모집단에 포함시키지 않고 추출하는 방법
- 표본의 크기가 모집단의 크기보다 작을 경우, 비 복원 추출을 사용한다.
확률
미래에 발생할 사건에 대한 불확실성을 수치적으로 나타낸 것
- 사건 (Event): 발생할 수 있는 결과
- 표본 공간 (Sample Space): 가능한 모든 결과의 집합
- 확률 (Probability): 사건이 발생할 가능성
- 확률의 성질
- 0 <= P(A) <= 1
- P(S) = 1
- P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
- P(A') = 1 - P(A)
- 조건부 확률 (Conditional Probability)
- 사건 B가 일어났을 때 사건 A가 일어날 확률
- P(A|B) = P(A ∩ B) / P(B)
- 독립 사건 (Independent Events)
- 사건 A가 발생하더라도 사건 B에 영향을 주지 않는 사건
- P(A ∩ B) = P(A) * P(B)
- P(A|B) = P(A)
- 베이즈 정리 (Bayes' Theorem)
- 사전 확률과 사후 확률 사이의 관계
- P(A|B) = P(B|A) * P(A) / P(B)
- 등등
빈도론적 확률 vs 베이지안 확률
빈도론적 확률 (Frequentist Probability)
- 사건이 발생하는 빈도를 확률로 정의
- 반복적인 실험을 통해 확률을 추정
- 무한히 반복되는 것을 가정하고 어디에 수렴하는지를 확인
- 상대도수: 사건이 발생한 횟수 / 전체 시도 횟수
- 절대도수: 사건이 발생한 횟수
- 확률: 상대도수가 수렴하는 값
베이지안 확률 (Bayesian Probability)
- 사전 정보를 바탕으로 확률을 추정
- 사전 확률과 사후 확률 사이의 관계를 분석
- 사전 확률: 사건이 발생할 확률
- 가능도: 사건이 발생할 확률
- 사후 확률: 사건이 발생한 후의 확률
- 베이즈 정리: 사전 확률과 사후 확률 사이의 관계
빈도론적 확률 - 라플라스의 법칙
라플라스의 법칙 (Laplace's Rule of Succession)
- 고전적 확률에 대한 정의
- 표본공간의 각 원소들이 일어날 가능성이 같다고 가정하여 확률을 정의
확률의 공리
확률의 공리 (Kolmogorov's Axioms)
음이 아닌성 (Non-Negativity)
- 모든 사건 A에 대해 P(A) >= 0
- 확률은 언제나 0 이상이어야 한다.
- 음수 확률은 존재하지 않는다.
- 확률은 동시에 언제나 1보다 작거나 같다.
모든 가능한 결과의 확률의 합은 1 (Normalization)
- P(S) = 1
- 표본공간의 확률은 언제나 1이다.
배반사건의 합집합의 확률은 각 사건의 확률의 합 (Additivity)
- 동전을 던졌을 때, 앞면이 나오는 사건 A와 뒷면이 나오는 사건 B는 서로 배반사건이다.
- 그렇다면 앞면이나 뒷면이 나올 수 있는 확률은 앞면이 나올 확률과 뒷면이 나올 확률의 합과 같다.
추론 통계의 기본 개념
확률 분포
확률 분포 (Probability Distribution)
- 확률 변수가 가질 수 있는 값과 그 값이 나타날 확률에 대한 정보
- 이산 확률 분포 (Discrete Probability Distribution)
- 확률 변수가 취할 수 있는 값이 이산적인 경우
- 확률 질량 함수 (Probability Mass Function)
- 확률 변수가 특정 값을 가질 확률
- 대수의 법칙: 시행 횟수가 무한대로 커질 때, 특정 사건이 발생하는 비율이 확률에 수렴
- 기대값 (Expected Value)
- 확률 변수의 평균
- $E(X) = \sum_{i=1}^{n} x_i \cdot P(X=x_i)$
확률 변수 (Random Variable)
- 확률적인 과정을 통해 값이 결정되는 변수
- 이산 확률 변수 (Discrete Random Variable)
- 확률 변수가 취할 수 있는 값이 이산적인 경우
이항 분포
이항 분포 (Binomial Distribution)
- 이항 분포는 이항 시행의 결과를 확률적으로 나타낸 분포
- 이항 시행 (Binomial Experiment)
- 동일한 조건에서 n번 시행하는 것
- 각 시행의 결과는 성공 또는 실패
- 각 시행은 서로 독립적
- 각 시행의 성공 확률이 p일 때, 성공 횟수를 X라고 하면 X는 이항 분포를 따른다.
누적 분포 함수
누적 분포 함수 (Cumulative Distribution Function)
- 확률 변수 X가 x보다 작거나 큰 값을 가질 확률
- 항상 0 이상 1 이하의 값을 가진다.
포아송 분포
포아송 분포 (Poisson Distribution)
- 일정한 시간 또는 공간에서 발생하는 성공 횟수에 대한 확률 분포
- 포아송 과정 (Poisson Process)
- 일정한 시간 또는 공간에서 발생하는 사건의 수가 포아송 분포를 따르는 확률 과정
- 단위 시간 또는 공간에서 발생하는 사건의 평균 수를 $\lambda$라고 할 때, 단위 시간 또는 공간에서 k번 사건이 발생할 확률은 다음과 같다.
- $P(X=k) = \frac{e^{-\lambda} \cdot \lambda^k}{k!}$
중심극한정리
통계적 모형을 사용할 때, 정규분포를 사용할 수 있는 이유 중 하나가 중심극한정리이다.
중심극한정리 (Central Limit Theorem)
- 모집단이 어떤 분포를 가지더라도, 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규분포에 가까워진다.
- 표본의 크기가 클수록 정규분포에 가까워진다.
자료의 분포가 정규분포를 따르지 않더라도, 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규분포에 가까워진다.
따라서 이는 자료의 분포가 정규분포임을 증명하는 것이 아니다.
몬테카를로 시뮬레이션
내제된 불확실성을 가진 문제를 해결하기 위해 확률적 시뮬레이션을 사용하는 방법
난수를 이용해 확률적인 방법으로 문제를 해결하는 방법
몬테카를로 시뮬레이션 (Monte Carlo Simulation)
- 난수를 이용하여 확률적인 방법으로 문제를 해결하는 방법
- 확률적인 방법을 사용하여 문제를 해결하고, 결과를 통계적으로 분석
- 난수 (Random Number)
- 예측할 수 없는 수
- 난수를 사용하여 확률적인 방법으로 문제를 해결
몬테카를로 시뮬레이션의 장단점
장점
- 복잡한 문제를 간단하게 해결
- 불확실성을 고려한 의사결정
- 다양한 변수를 고려한 의사결정
- 시뮬레이션을 통해 결과를 예측
단점
- 난수 생성기의 품질에 따라 결과가 달라질 수 있다.
'[Project_하다] > [Project_공부]' 카테고리의 다른 글
[ML] 통계 개념 기초 :: 기술통계 (0) | 2024.09.09 |
---|---|
[WEB_HTTP] Cookie와 Session (0) | 2024.08.29 |
[RAG] RAG와 ELK (0) | 2024.08.26 |
[Python] Django Basics (0) | 2024.08.26 |
[AI번역] SIMD 명령어로 벡터 검색 가속화 (0) | 2024.08.22 |
[AI번역] 엘라스틱서치의 벡터 검색: 설계 이면의 논리 (0) | 2024.08.22 |
[ELK] Logstash (0) | 2024.08.16 |