빅데이터 분석기사/작업 유형 3 (stats)

T-test 이론

유방울 2023. 6. 8. 22:27

t-test

스튜던트 t-테스트(Student's t-test)라고 함

귀무가설 하에서 t-분포를 따르는 통계적 가설 검정

표본을 사용한 모평균 

 

3종류

one sample t-test

표본을 사용ㅇ한 모평균 검정방법 

귀무가설 : s사의 usb 평균 수명은 20000 시간이다.

 

paired t-test 대응표본 t검정

동일 개체에 어떤 처리를 하긴 전, 후의 자료를 얻을 때 차이 값에 대한 평균 검정을 위한 방법

매일 1시간 한달 걸으면 2kg이 빠진다.(걷기 수행 전/ 수행 후 )

가능한 동일한 특성을 갖는 두 그룹에 서로 다른 처리를 해서 그 처리의 효과를 비교하는 방법

x질병 환자들을 두 집단으로 나눠 a, b 약을 투약해 약의 효과 비교

 

two sample t-test 독립표본 t-검정

서로 다른 두 그룹의 표본 평균을 비교해 두 모집단의 평균 차이가 있는지 검정

귀무가설 : 두 집단의 평균 차이 값이 0이다. 2학년과 3학년의 결석률은 같다.

 

t-test의 귀무가설, 대립가설

one-sample vs paired, two sample 성격이 다르지만 비슷함

 

앞쪽이 a집단 뒷쪽이 b집단 

# one sample
# 대립가설 기각역이 two-sided 디폴트
# 반환값 statistic, p-value
# 30000인 값을 popmean에 넣기
ttest_1samp(a, popmean, alternative='two-sided')

#paire
# a after 후!!, b before 전!!
# 반대로 넣으면 통계기호가 반대가 됨
ttest_rel(a,b, alternative='two-sided')

# independent
# 등분산인지 아닌지 표시해야함
ttest_ind(a,b, alternative='two_sided', equal_var=True)

alternativer(대립가설과 관련)

two-sided : 대립가설이 두 집단의 평균이 다르다, 기각역이 양쪽에 있음

less : 첫 번째 집단의 평균이 두 번째 집단의 평균보다 작다 -> a가 작고 b가 크다

greater : 첫 번째 집단의 평균이 두 번째 집단의 평균보다 크다. -> a가 크고 b가 작다

 

alternativ less : 효과가 있음에 대해 판단할 때, 다이어트

ttest_rel(df['after'],df['before'],alternative='less')

se : standardError

np.mean(a-b)/se

음수/양수 둘 다 존재 하지만 

양수일 때 : positive

음수일 때 : nagative : b가 커야 음수가 나옴!!