3. 추정과 검정
통계적 추론
표본 통계량 : 표본의 정보를 요약하는 공식. (표본분포)
추정 : 표본을 바탕으로 모집단의 특성 확인
(평균, 분산 등)
검겅: 모집단의 특성에 대한 특정 가설을 설정하고 판단
(검정통계량)
표본통계량
<확률밀도함수>
연속확률변수 x에 대한 확률밀도함수 fx(x)는 다음과 같은 조건을 만족한다.
모든 실수 x에 대하여 fx(x) ≥0
p(a< x ≤ b)는 a부터 b까지 확률밀도함수와 x축 사이의 면적
(연속확률 변수↔이산확률변수, 확률밀도함수↔ 확률질량함수)
<여러 분포>
ex)정규분포 : 평균0 표준편차1
-덧-
위 분포들은 표준정규분포를 이룬다.
(표를 이용하기 위해서다)
이를 위해서는 표준화가 필요하다.
표준화 : 서로 다른 평균,
표준편차를 가지지만 정규분포를 따르는 X,Y를
일치시켜주는 방법
표준화를 통해 표준정규분포가 된다.
만드는 방법은 다음과 같다.
x와 y 각각의 데이터에서 평균값을 빼 평균값을 0으로 만든다.
(그래프의 중앙이 0으로 오도록)
다음 x와 y의 데이터를 각각 표준편차 (σ)로 나누면
평균값 0, 표준편차 1의 정규분포로 표준화 된다.
대표적인 표로 표준정규분포표다.
추정이론
모수: 모집단의 특성을 나타내는 값(기댓값, 분산 등)
추정량 : 표본의 함수. (공식으로 나오는 것)
추정치 : 추정량에 실제 값을 대입하여 구한 숫자.
하나의 모수를 추정하는 방법은 여러가지.
50명 중 2명만 뽑는 것. 50명 중 50명을 뽑는 것
다 추정하는 하나의 방법임.
<Analogy principle>
추정하는 하나의 방법으로써 널리 쓰임.
모집단 기댓값을 표본 평균으로 바꿔서 추정.
(기댓값을 표본평균으로 추정)
ex) 예시
검정이론
모집단의 어떤 특성(모수)에 대하여
사전적으로 관심있는 값에 대한 테스트
통계적 가설 : 모수에 대한 수학적인 명제
true, false로 구별되는 명제다.
ex) 1+1=3 false
귀무가설 : 내가 믿고 있는 값
대립가설 : 귀무가설이 틀린 경우 입증하는 가설
검정통계량 : 표본 데이터를 이용해 만든 함수
(귀무가설에 적합한 것을 사용하면 된다.)
가설 검정 단계
<귀무가설과 대립 가설의 설정>
1)검정 통계량 설정 및 기각역(귀무가설이 틀렸다는 증거) 설정
2)귀무 가설 하에서 검정 통계량의 표본 분포를 구함
3)표본 게이터를 통해서 검정 통계량의 값이
기각역에 속하는지 판단
p값(p-value) 주어진 귀무가설을
해당 검정 통계량으로 기각할 수 있는 최소한의 유의수준.
(1종 오류를 범할 확률)
내가 생각하는 유의수준보다 p값이 크면 받아들인다.
내가 생각하는 유의수준보다 p값이 작으면 기각한다.
(유의수준 : type1 에러)
H0 | 참 | 거짓 |
accept | ok | type 2 error |
reject | type 1 error | ok |
유의수준 : 1종 오류를 범할 확률의 최대 허용 값
(연구자가 맘대로 지정, 기각 기준, 일반적으로 5% 가정)
유의확률 : 1종 오류를 범할 확률의 추정 값
ex) 예시
참고로 위의 그래프가 나오는 경우
아래 T표를 이용하여 값을 찾을 수 있다.