인과추론

Week 1-2 인과추론의 어려움

유방울 2024. 1. 4. 11:47

데이터를 통해서 인과추론의 어려움은 이해의 첫걸음

 

Correlation does not imply causation.

Correlation : Co-movement in a direction

데이터가 함께 변화하는 패턴

Causation : Cause and effect

우리가 관심있는 것

 

일상적 or 억지스러운 예시를 함

데이터 상에서 보이는 correaton과 causation을 구별하는 것은 어려움

데이터 분석을 통해서 이를 구분하고 인과추론을 하는 것의 어려움에 대한 예시를 들어볼 것!

 

ex) 최저임금

논쟁이 뜨거움

학자간의 의견도 다름

갑론을박 많고

삶에 영향을 크게 미치는 것이 큼

고용에 대해서 의사결정을 하는 것이 중요함

 

수많은 요인이 얽혀있는 현상에서 표면적으로 드러나는 상관관계가 아닌 인과관계를 보이은 것이 인과추론임

 

최저임금의 자연실험1994 by Card and Krueger

미국 뉴저지에서 최저임금 인상시 ->

인상되지 않은 팬실베이나 식장에서 고용률의 변화를

비교 분석함

최초의 실증분석

노벨경제학상을 안겨준 연구임

 

EX 2 ) Recommendation System 

알고리즘 영역이라고 생각함

추천시스템 개발 시 실제 제품 선택에 영향을 주는지, 긍정적인 여부에 관심!

개발할지 말지 도입할지 말지는 결국 인과추론의 문제임

추천시스템이 실제 구매로 이어지는지?

Collaborative Filtering 

A, B는 비슷함

A에게 추천해서 콜라를 구매함

이 콜라를 구매한 것은 추천시스템의 인과적인 효과인가?

추천시스템이 없었다면 콜라를 구매하지 않았을까?

이는 단순한 문제가 아님

 

우리는 아무나 친구가 아니라 유유상종임

각자 취향이 있고 비슷한 ㅅ스타일을 좋아함

특성의 유사성을 Homophily라고 함

A, B가 친구 -> 친구니까 관심사가 비슷함, 비슷한 취향의 옷을 좋아함

 

추천시스템 때문이 아니라 원래 그 옷을 좋아하고, 그 옷을 자주 샀다고 하면 -> 인과관계가 아님

 

그 친구의 추천이 없어도 그 옷을 샀을 것이기 때문

이것은 우연히 발생한 상관관계임

 

Peer Effect, Socail Influence

좋아하고 구독하는 인플루언서가 있음 -> 그들이 추천시 구매함

이는 명확한 인과관계임

 

추천시스템으로 구매한 것, 인플루언서의 추천을 통해 구매한 것을 데이터 상으로 구별할 수 있을까?

 

연구

아마존에서 추천시스템에 의해서 추천된 상품이 75%는 이게 없어도 구매했을 것이라고 함

 

뛰어난 성능의 알고리즘 -> 뛰어난 성과를 낸다고 생각함

but

넷플릭스 실험

House of Cards라는 미드와 관련된 컨텐츠를 보여줌

그럼에도 관련성이 적고 좀 더 인기있는 콘텐츠가 더 선택받는 일이 많다고 함

물론 알고리즘 성능은 좋았지만 실제 이것이 비즈니스 성과로 이어지는 지는 인과추론의 문제임

 

그래서 알고리즘 도입에 앞서 AB테스트를 함으로써 성과지표에 미치는 인과적인 효과를 추론하고자 노력함

 

EX 3) Companion Animals and Depression

애완동물 키우는 것이 정서적으로 안정, 우울증 감소에 효과적임

toy example ) 반려동물을 키우는 것과 안키우는 사람들의 우울증 성향은?

실제로 키우는 사람이 우울증 성향이 더 강함

이 데이터로 반려동물이 우울증에 미치는 인과적인 효과를 분석했을 때 

전문가들의 예상과 달리 반려동물을 키우는 것이 우울하게 만든다는 결론을 내릴 수 있는가??

선후관계가 바뀐 것을 예상할 수 있음

상대적으로 우울증 성향이 강한 집단(1인 가구, 독거노인) 

이들이 반려동물을 키울 가능성이 높음

즉, 이들을 대상으로 비교하는 것이 더욱 합리적임

그래서 우울성향이 비슷한 집단끼리 비교시 우울증이 감소함!!

 

전체집단에서의 성향과, 세부집단에서의 경향성이 다른 현상을 Simpson's paradox 현상이라고 함

중요한 것은 :  Same Data but Different Conclusion!

left : 반려동물을 키우는 것은 우울증을 높인다.

right : 반려동물을 키우는 것은 우울증을 낮춘다.

그러면 우리는 어떤 사실을 믿어야 하는가?

이 예시는 상식을 통해서 후자가 더 나은 분석이라는 것을 판단함

but 상식을 활용하지 못하는 경우가 많음

 

EX 4) Treatment Effectiveness

질병 처방에 대한 A, B

각 질병에 대한 사망률이 있음

처방 Total로 봤을 때 16.1%로 A가 더 좋음

but 증상이 경미한 경우 Mild Symptom만 보았을 때 10%로 B사망률 더 낮음

중증도 B가 더 낮음

-> 이 또한 Simpson's paradox

그렇다면 어떤 처방을 내려야 하는가???

데이터만으로 답할 수 없음

즉, 이러한 데이터가 나타나게 된 요인, 인과적인 구조에 따라서 달라질 수 밖에 없음

 

if 증상정도인 S(Symptom)가 처방 T(Treatment), 사망률 Y(Mortality rate)에 모두 영향을 준다면

-> T가 사망률을 낮추는 데 더 효과적이라고 할 수 있음

BUT if  T에 따라서 S가 달라지고 있다면 

 

이런 Causal Structual에 의해서 effect가 결정되는데

이를 위해서 데이터 이상의 도메인 지식이 필요함

이는 인과적인 결정이 이뤄질 수 있는 틀이 필요함

 

EX 5) Effectiveness of Paid Search Ads

홈페이지 광고의 인과적 효과

MACYS를 검색시 보이는 화면

AD는 Paid Search Ads의 결과

아래는 Organic Search의 결과

그렇다면 과연 유료검색을 걸었을 때 신규 고객이 

홈페이지에 들어온 수치를 분석, 구매도 비교

but 유저들의 행동을 보면 쉽지 않음 

ex) 고객 10명, 고객아닌 10명

1. 광고 없었을 때 기존 고객은 자연검색으로 홈페이지로 유입

2. 광고 있을 때 회사의 이상은 광고가 있고 기존은 그대로 들어오고 /고객 아닌 사람이 유입

이는 광고에 의해서 들어온 것이기 때문에 인과관계!

이 광고가 없었다면 유입되지 않았을 것임!

 

3. 광고 없을 때 Organic Search로 들어옴 Paid가 상위로 뜸

그래서 단순히 자연검색으로 들어노는 기존 가장 위에 있는 유료 검색을 타고 들어옴

-> 이는 광고 효과가 없음 

why? 광고가 없어도 당연히 홈페이지에 들어왔음

+ 광고가 있던 없던 고객이 아니었던 사람들이 들어오지 않음 

이는 상관관계임

 

BUT 문제는 이러한 상관관계와 인과관계에 대한 시나리오는 데이터에서 구분할 수 없음

광고가 있을 때 유입된 사람이 10명으로 단정지을 수 있음

BUT 1번째 시나리오는 신규고객이 유

2번째 시나리오는 기존고객의 유입경로가 달라졌을 뿐임 -> 광고효과가 없음

이는 데이터로 확인할 수 없음

 

이는 의사결정 문제에서 중요함

광고비용과 유료검색을 통해서 들어온 사람들로 들어온 수익을

ROI를 계싼했을 때 높게 추정되고 있음을 보임 5000% 이상

현장실험, 자연실험으로 해보면 

투자수익률이 마이너스거나 0으로 떨어지고 있음

이는 굉장히 큰 차이ㅣ이고 현실에서 5000% 이상의 투자면 현실에서는 무조건 해야 하는 투자

BUT 누군가 마이너스의 ROI를 주장하면 재검토가 필요함

광고를 통해서 수익을 높이는 것보다 우선 장기적으로 고객 유입을 늘려 시장 점유를 늘리는 것이 목표라면 ㄱㅊ지만

단순히 광고 수익을 높이는 것이라면 결정을 제고해야 함

즉, 상관관계와 인과관계의 차이에 따라서 마케팅 전략이 달라짐

예산이 달린 중요한 결정임

 

EX 6) Diversification and Firm Value

사업다각화는 사업에 있어서 중요한 의사결정

기업 가치가 오를 것을 기대하고 사업다각화를 진행함

사업 다각화는 기업가치가 음의 상관관계가 대세됨

2000년대가 되면서 데이터를 사용하면서 이에 대한 결과를 의심함

여러 분석을 통해서 음의 관계가 단순히 상관관계에 불과함

다각화는 기업가치와 상관없거나, 양의 상관관계임!

기업가치에 하락을 경험하는 기업이 다른 산업으로의 다각화를 함

즉, 이 관계가 음의 관계를 가질 수밖에 없음

-> 다각화을 해서 기업가치가 낮아지는 것이 아니라 

기업가치가 낮아질 것 같은 기업이 출구전략으로서 다각화를 함

 

이러한 요인을 제거하고 실험하면 다각화는 기업가치에 긍정적임!!

 

즉, 기업의 흥망성회를 가릴 수 있는 다각화의 결정을 해야함