사후검정?
ANOVA분석의 문제 : 다르다는 것은 알지만 어떤 집단간의 차이가 있는지 알 수 없음
사후검정을 통해 어떤 것에 차이가 있는지 알 수 있음
모수 통계 사후 검정의 종류
Tukey
Duncan : 통계적 유의성 도출하기 쉬움 - 1종 오류 발생확률 통제 안 함
scheffe : 가장 보수적, 엄격한 사후검정 방식, 통계적 유의한 차이 도출 쉽지 않음
fisher : 가장 엄격하지 않은 사후 검정 방법, 최근 연구에서 선호되지 않음 - 1종 통제 x
games howell :이분산, 동일하지 않은 표본의 크기, 표본수 6개 미만시 1종오류 발생률 높음
15개 이상 권장
민감도로 구분
엄격하지 않아서 유의성을 도출하기 쉬움
: 세페 < 터키 < 던칸,피셔
던칸 : 작은 차이에도 차이가 난다
but 세페 : 확실한 차이가 있어야 차이가 있다고 함
Tukey 실습
post hoc(라틴어) = after this
# 포스혹
# group 0,1
# group 0,2
# group 1,2
# p-adj = pvalue임
# 귀무 : 같다
# 대립 : 다르다
from statsmodels.stats.multicomp import pairwise.tukeyhsd
data = iris[['sepal_width','target']]
posthoc = pairwise.tukeyhsd(iris.target, iris.sepal_width, data, alpha=0.05)
print(posthoc)
Multiple Comparison of Means - Tukey HSD, FWER=0.05
====================================================
group1 group2 meandiff p-adj lower upper reject
----------------------------------------------------
0 1 -0.658 0.001 -0.8189 -0.4971 True
0 2 -0.454 0.001 -0.6149 -0.2931 True
1 2 0.204 0.0088 0.0431 0.3649 True
----------------------------------------------------
# [8] 그림으로 확인하기
# 선이 겹치지 않으면 유의미한 차이가 있다고 해설할 수 있음
fig = posthoc.plot_simultaneous()
의미가 있는 경우
의미가 없는 경우
scipy 패키지를 안 써서 안 나올 가능성 높음
'빅데이터 분석기사 > 작업 유형 3 (stats)' 카테고리의 다른 글
대립가설 기준, loc 인덱싱 (0) | 2023.06.22 |
---|---|
ANOVA 이론 및 실습 (0) | 2023.06.10 |
t-test 실습, 분류모델에서 t-test 활용 함수 (1) | 2023.06.10 |
T-test 이론 (0) | 2023.06.08 |