인과추론

Week 2-1 잠재적결과 프레임워크

유방울 2024. 1. 14. 18:08

Randomized Controlled Trial

인과추론이 가능한 과정을 도출하기

indentificaiton의 핵심, 인과추론의 하나의 기준점이 될 수 있는 무작위스러움을 살펴보기~!

 

Potential Outcome Framework

무작위실험에 기반한 실험적인 사고방식은 핵심임!

어떻게? 기준점이 되는지? 살펴보기 위해서 pof가 핵심임

 

비교!가 중요함

ex) 운동

운동을 한 후 효과가 있었는지 생각할 때 근육량 변화, 살이 빠졌는지 생각함

문제는 무엇과 비교를 하느냐?

같은 연령대의 평균과 비교? 인스타그램의 셀럽과 비교? 주변의 친구와 비교? 자신과의 비교?

비교는 어떤 행위의 효과를 측적하는 데 효과적임

BUT 각자의 기준으로 비교하면 각자 생각하는 효과, 비교방법의 옳음, 객관적인 평가도 어려움

 

이 때 Potential outcome framework는

인과관계를 정의하고 평가하는 데 명확한 가이드를 제시함

가장 핵심은 반사실 = Counter factor

potentail outcome과 관련

해당 treatment가 없었더라면 어땠을까? 있었다면 어땠을까?

잠재적인 결과의 차이를 정의하고 평가할 수 있음

즉, 특정 트리트먼트의 인과적 효과를 있었을 때 없었을 때의 잠재적 결과를 측정하고 정의하는 것임 !!!

 

ex1) 운동

만약 내가 운동을 하지 않았더라면 있었을 잠재적인 효과와 비교해야 제대로된 비교를 할 수 있음 ~~

 

ex2 ) 독서

독서나 학업성적에 미치는 영향에 대해 연구한다면

책을 읽었을 때의 학업성적과 책을 읽지 않았을 때의 잠재적 성적을 비교해야 제대로 가능함 !

 

여기서 잠재적인 결과를 Counterfactual 이라고 부름

이는 Potential Outcome Framework가 인과관계를 정의하는 방식임

 

Counterfactual Mindset Lies at the Heart of Theory

Counterfactual에 의한 사고방식은 비단 인과추론뿐만 아니라 어떤 이론에 대해서 생각할 때도 중요하게 생각함

 

ex 1-1  경영학

경영학의 resource based view에서도 결국 기업의 영향이나 가치는 해당 resorce가 없었을 때에 비해서 미치는 기업의 매출 증가나 비용 감소에 기여하는지에 따라서 결정됨

 

ex 1-2

마이클 포터의 다각화 전략

결국 그런 전략을 없었을 때 나오는 성과와 비교함

이는 정량적으로 측정 가능

 

잠재적 결과와 비교하는 것이 합리적인데 현실적으로는 가능하지 않다고 반문이 가능함

 

The Road Not Taken 가지않은 길

2갈래의 길이 있고

사람의 발자취가 없는 곳을 선택

지배적인 정서는 아쉬움임

그 날의 선택을 다시 돌이킬 수 있음

이 아쉬움에 공감하는 이유는 우리는 항상 우리가 선택하지 않은 길에 후회함

이는 근본적인 문제에 맞닿아 있음

 

반사실을 현실에서 마주할 수 없기 때문임!

그래서 potential 이라고 함

잠재적인 시나리오가 2개가 있음

treatment가 있었을 때 없었을 때의 결과가 있음~

 

나의 잠재적결과가 아니라 나와 다른 선택을 한 다른 사람의 인생임

우리에게 필요한 것은 treatment를 하지 않았더라면 있는 장기적인 결과일텐

실제는

 

Fundamental Problem of Causal Inference

treatment를 받지 않았더라면 있었을 장기적인 결과인데 

이 대상을 Control Group

반려동물과 우울증과 관계

반뎌동물을 키우는 사람 vs 안 키우는 사람 

만약 우울성향이 높은 사람들이 반려동물을 키울 가능성이 높다고 가정한다

애초에 이 비교가 공정한 비교가 아님!!

 

이제는 potential outcome 덕분에 왜 공정한 비교가 아닌지 명확해졌음

 

입양 후 우울증 성향과 만약 반려동물을 입양하지 않았더라면 있었을 잠재적인 결과와 비교할 때

비로소 인과적 효과를 제대로 분석할 수 있음

subject 1,2 : treatment 를 받음

subject 3,4 : treatment를 받지 않음 

빈칸을 알아내야지 Counterfactual) 인과관계를 알아낼 수 있음

individual 은 구하기 어려움 특정 한 사람은 어려움 :

Individual treatment effect(ITE)

 

ex) 일란성 쌍둥이 

주변 환경에 따라서 성격, 특성이 다름

특정 한 counterfauctual은 구하기 어려움!

 

전체를 놓고 평균을 보자면 한 집단의 평균적인 유사함을 좀 더 쉽게 유추할 수 있음

Main Focus : Average Treatment Effect (ATE)

모~~~든 빈칸을 고려한 것임!!

T그룹에서 ATT

U그룹에서 ATU

ATE에서 ITE로 가는 데에 있음

완벽하게 개인화된 것은 아니더라도 몇가지 특성으로 알아낼 수 있음

성별, 나이, 직업 등 특성에 따라 다른 인과적인 특성!!이 있음

 

인과관계를 어떻게 정의할지 명확한 틀을 제시함!

이를 해결해야 하는 방법을 제시함

이 프레임워크로 인과관계까 간단해짐

동일한 시선으로 문제를 바라보기 때문에 대화가 가능해짐 

 

T가 없었으면 있었을 잠재적 결과 Counterfactual

BUT 현실에서 관찰가능한 것은 실제 T가 없었던 Control Group임

이 인과추론의 어려움은 Counterfactual과 Control Group이 같지 않다는 것임

그래서  Control Group이 최대한 Counterfactual과 유사하도록 해야 함

 

Selection Bias 선택편향

선택편향이라고 부르는 이유는

임의적으로 배정하지 않는 이상 개인들은 각자의 이유로 t를 받을지 말지 결정함

BUT 연구자의 입장에서는 왜 이런 선택을 했는지 알 수 없음

 

EX) 반려동물

반려동물을 누군가는 키우도록, 안 키우도록 선택함

이는 성격, 가족, 경제적 상황 등 다양한 이유가 있음 -> 내생적으로 결정됨 즉, 내생성 endogeneity

반려동물을 선택했다는 사실 말고는 이 집단은 특성이 다를 수가 있음 -> 이를 선택편향이라 부름

 

counterfactual이 없음

그래서 control group으로 함 

BUT T받은 집단과 T 안 받은 두 집단의 차이가 있다면? -> 비교하는 것이 제대로된 비교가 되지 않음 ㅠ

 

결국 선택편향이 있는 경우는 이런 비교가 불가는 하고 Control group으로 인과추론이 어려움~

 

Ceteris Paribus

결국 인과추론은 Counterfactual과 control group의 특성을 비슷하게 만들어서

선택편향을 없이는 것임!

이를 라틴어로 하면 Ceteris Paribus임

 

control group이 T를 받았다는 사실에서 

가장 중요한 대원 Ceteris Paribus를 만족할 때 비로소

control group을 counterfactual로 대체할 수 있음

차이를 통해서 ATE(ATT)를 구할 수 있게 됨