빅데이터 분석기사/작업 유형 3 (stats)

사후검정 이론 및 실습 - 시험 안나올 가능성 높음

유방울 2023. 6. 10. 23:07

사후검정?

ANOVA분석의 문제 : 다르다는 것은 알지만 어떤 집단간의 차이가 있는지 알 수 없음

사후검정을 통해 어떤 것에 차이가 있는지 알 수 있음 

 

모수 통계 사후 검정의 종류

Tukey

Duncan : 통계적 유의성 도출하기 쉬움 - 1종 오류 발생확률 통제 안 함

 

scheffe : 가장 보수적, 엄격한 사후검정 방식, 통계적 유의한 차이 도출 쉽지 않음

fisher : 가장 엄격하지 않은 사후 검정 방법, 최근 연구에서 선호되지 않음 - 1종 통제 x

 

games howell :이분산, 동일하지 않은 표본의 크기, 표본수 6개 미만시 1종오류 발생률 높음

15개 이상 권장

 

민감도로 구분 

엄격하지 않아서 유의성을 도출하기 쉬움

: 세페 < 터키 < 던칸,피셔 

던칸 : 작은 차이에도 차이가 난다

but 세페 : 확실한 차이가 있어야 차이가 있다고 함

 

Tukey 실습

post hoc(라틴어) = after this

# 포스혹 
# group 0,1
# group 0,2
# group 1,2
# p-adj = pvalue임
# 귀무 : 같다
# 대립 : 다르다
from statsmodels.stats.multicomp import pairwise.tukeyhsd

data = iris[['sepal_width','target']]
posthoc = pairwise.tukeyhsd(iris.target, iris.sepal_width, data, alpha=0.05)
print(posthoc)

Multiple Comparison of Means - Tukey HSD, FWER=0.05 
====================================================
group1 group2 meandiff p-adj   lower   upper  reject
----------------------------------------------------
     0      1   -0.658  0.001 -0.8189 -0.4971   True
     0      2   -0.454  0.001 -0.6149 -0.2931   True
     1      2    0.204 0.0088  0.0431  0.3649   True
----------------------------------------------------

# [8] 그림으로 확인하기
# 선이 겹치지 않으면 유의미한 차이가 있다고 해설할 수 있음

fig = posthoc.plot_simultaneous()

의미가 있는 경우

의미가 없는 경우

scipy 패키지를 안 써서 안 나올 가능성 높음