Week 1-4 인과추론의 목적
When is Causal Inference Necessary?
언제 인과추론을 사용해야 하는지?
Primary Goal of Causal Inference
전통적으로 사회과학 분야에서 인과추론을 관심가져온 것은 원인에 대한 처방을 하기 위함임
Causal Effect는 Design될 수 있는 Treatment에 대해서만 객관적으로 정의되고 측정될 수 있음
그래서 No causation withoust manipulation은 인과추론에 있어서 하나의 교리로 받아들여짐
원인변수는 조작가능해야 함
manipulation의 이해를 위한 예시
고용에서의 성차별 분석
Gender가 원인이 되어서 고용률의 차이를 분석함
이 때 성별을 원인변수가 될 수 있는가?
조절할 수 있는 변수가 아님
즉, 인과추론 관점에서 적절한 연구 디자인이 아님
적절한 연구 디자인이 아니라는 것이지 연구 주제가 아니라는 것이 아님!
조절변수는 이력서에 있는 사진이 적절함
공공정책이 성별에 따른 고용률의 차이에 미치는 영향을 분석할 수 있음
고용시장에서 성차별의 차이를 줄이기 위해서~
사진을 포함하지 않도록 제도를 개선할 수 있음
적절한 공공정책을 제안할 수 있음
Goal-Oriented Framework of Data Science
아무리 복잡한 현상이라도
input과 output을 구별해야 함
이를 연결하는 것은 매커니즘, 알고리즘 통해서 fitting 해서 학습시킴
이렇게 분리하면 연구 목적을 분명하게 생각할 수 있음
IF input에 대한 intervention(개입)과 manipulation함으로써 output을 향상하는 것이 주된 목적!
-> causal inference 방법론이 필요함
-> Intervention-oriented research라고 함
IF output을 정확하게 예측
-> Solution-oriented research라고 함
인과추론과 예측 방법론의 차이는 현상이나 데이터 그 자체에 있지 않음
동일한 현상을 분석하더라도 분석 목적에 따라서 방법론이 달라지는 것 뿐임
또 다른 예시
EX 1)
도시 안전 점검이라는 같은 현상에 대해서 연구 목적에 따라 다른 접근이 필요함
Input : Risk Factors
안전점검을 시행해야할지 말아야 할지 결정하는 것!
이를 위해서
어떤 위험요인을 가진 건물이나 식당이 안전에 위험이 되는지??
어떤 안전점검이 인과적 효과가 있는지?
이를 확인해야함!
그래야 안전점검을 통해 도시안전이 향상할 수 있기 대문임
1-1 예시로
가장 효과적으로 안전점검을 배치하는 것이라고 함
이는 원인에 대한 intervention이 아니라 식당별로 위생 안전을 정확하게 예측하고, 특정 목적에 따라서 점검 스케쥴링을 해야 함
예측된 안전도가 가장 낮은 식당들을 중심으로 스케쥴을 짤 수 있음
이 때 식당의 안전도를 정확하게 예측하기 위해서 반드시 원인변수를 활용할 필요가 없음
chinese fastfood가 낮을거라면 이것이 반드시 원인이 아니더라ㄱ도 좋은 예측을 할 수 있음
이 푸드점이 저소득층이 사는 곳에 포진되어 있다면 위생상태가 좋지 않을 가능성이 큼
즉, chinese food 만으로도 안전도 예측이 충분히 가능함
but 이를 원인으로 잘못 오해하면
-> 다른 업종으로 전환하게 한다면?
-> 안전을 향상시키는 데 아무런 효과가 없을 것임
EX 2)
소셜미디어 상의 입소문 효과 : Electronic word-of-mouth
input : 특정 구매자, 포스팅, 친구들, 팔로워들의 구매, 리액션
그 목적이 무엇인지 분명하게 생각해야 함
영향력을 있는 인플루언서 섭외를 해서 매출을 늘리고 싶은지?
제품을 구매할 확률이 높은 고객을 찾아서 개인화된 타켓을 할건지?
이에 따라 방법론이 달라짐
intervention을 통해서 소셜 네트워크에서 제품 유도를 목적으로 한다면
인과추론임!
but 인과적효과가 없더라도 누군가를 구독하는 자체로도 좋은 예측을 할 수 있음
인과추론의 데이터과학을 구독하더라도 어떤 제품을 추천해도 구매하지 않을 가능성이 있음
but 인과추론에 관심이 있고 대부분 대학원생일 확률이 높음
예측만 해도 충분, 원인을 알 필요 없는 것
EX 3)
전자 의료기록 데이터로 약물처방이 실제로 뇌졸증을 낮추는지 인과추론 가능
분석의 목적이 다르더라도 활용되는 데이터는 같음
목적에 따라 방법론이 다를 뿐!
When is Causal Inference Necessary?
researach qusetion
교육이 임금에 어떤 영향을 미칠지? -> 교육에 들어가는 비용을 줄인다면 임금에 어던 영향?
헬스케어가 임금에 어떤 영향을 미칠지? -> 헬스케어를 변화시키면 임금에 어떤 영향?
이 질문의 숨겨진 이면 때문에 인과추론이 중요함
존 스노우의 연구
본질적으로 인과추론의 목적에 대해서 나타냄
콜레로 확산의 원인이 물이라는 것을 밝혀냄
-> 물을 끓여 마시도록 권유
런던 콜레라 확산지 근처의 펌프
이 펌프를 사용하지 못하도록 손잡이를 없앰
원인에 대한 이해를는 결과를 향상하기 위해 필수적임!!
Importance of Mecahnisms in Casual Inference
Casual inference의 메커니즘 이해가 중요함!
더 효과적인 introvention strategy를 고안하는 데 있어서 중요함
ex) 괴혈병 치료제 개발 연구
장기간 항해로 인해 괴혈병을 고통받음, 죽어감
당시 치료제 개발을 위해 해군 군위관은 다양한 실험을 함
레몬이 괴혈병을 막을 수 있다는 것을 알게 됨 - > 즉 비타민 C
더이상은 우리를 괴롭히는 질병이 아님
레몬 안의 신성이 원인이라고 생각함 배에 싣는 것은 상함 -> 레몬은 즙을 내고 끓여서 사용함 -> 산성이 살아 있음!
BUT 결과적으로 비타민 C를 확잉해서 레몬이 효과가 없다는 것을 확인함
즉, 레몬이 괴혈병의 치료제 라고 발명한 것도 그것에 대한 메커니즘 이해를 하지 못해서 사람들이 죽었음
-> 즉, 이는 메커니즘의 이해가 왜 중요한지에 대해 보여주는 사례임
최근 연구 트렌드도 단순히 인과관계를 확인하는 것을 넘어서 이러한 메커니즘에 대한 이해를 요구하는 추세
콜레라에서 유사한 사례
많은 사람들은 미야즈마라는 나쁜 공기에 의해서 병이 확산된다고 생각함
어던 지역에서 콜레라가 확산되더라도 이것의 메커니즘이 오염된 물인지 거기서 발생된 공기인지에 따라서
해결하는 전략이 달라짐
이에 달라진 전략에 따라서 달라진 것은 역사가 말해주고 있음
The Right Tool for the Right Question
모든 연구나 데이터분석 과제가 인과추론을 필요하지 않음
prediction으로도 충분할 수 있음
연구에 있어서 맞는 것은 없고
맞는 툴에 맞는 과제를 이용하면 됨
해결하고자 하는 문제에 적합한 방법론을 매칭시키는 것이 중요함
망치만 갖고 있다면 모든 물건이 못으로 보임
한 가지 방법론만 갖고 있다면 하의 방법론만으로 해결할 수 있음
다양한 방법론을 보유하고 있다면 더 다양하게 접근할 수 있음
Methodology is Necessary Condition, but Not Sufficient
방법론 자체는 좋은 연구를, 좋은 데이터 분석을 위한 충분조건이지 필요조건이 될 수 없음
즉, 아무리 좋은 방법론이더라도 방법론 자체에 대한 연구가 아닌 이상 좋은 연구가 될 수 없음
BUT, 아무리 좋은 연구 주제가 있거나 데이터가 있더라도 잘못된 방법론을 사용한다면 그릇될 수 있음
방법론이라고 하는 것은 연구나 데이터분석 과제에 있어서 제대로된 가치를 인정받기 위한 Hygiene factors
방법론은 중요하지만 너무 경도하면 주객전도가 될 수 있음을 명시~!