인과추론

Week 1-3 빅데이터와 AI 시대의 인과추론

유방울 2024. 1. 5. 13:39

Can Big Data and AI be a Remedy for Causal Inference?

과연 빅데이터가 ai가 인과추론에 대한 해결책?

 

The Rise of Data Based Empirical Research

데이터 기반한 실증연구, 양적연구가 분야 막론 증가하고 있음

경제학, 경영학 실증연구 증가

우리는 데이터가 모든 것을 해결해줄 수 있을 것이라고 생각함

BUT 빅데이터가 진화할수록 인과추론을 어렵게 하고 있음

많은 데이터의 상관관계를 찾아야함

 

기사의 Bad Bigdata 예시

데이터 과잉시대에서 연구에서 인과관계를 분석하는 것이 어려운 것을 짐작할 수 있음

 

데이터 그 이상이 필요함

잘 설계된 Research Design

빅데이터는 인과추론에 대한 더 많은 기회를 제공해줌!

사회과학자, 데이터과학자, 데이터분석자의 협업이 필요함

 

유명한 빅데이터 책임!

챕터 4가 인과추론 관련임

 

의료 빅데이터

아이스크림과 오렌지쥬스를 마신 환자들이 건강이 좋아지고 암 재발률이 감소한다는 결과를 발견한다면

어떻게, 왜 건강을 호전시켰는지에 대한 원인을 이해하는 것은 그다지 중요하지 않을 수 있다고 주장함

but 많은 비판이 있음

correlation, casion에 대한 목적에 차이를 망각한다고 함! 

 

IF 데이터 분석의 목적이 미래의 암의 발생 위험이 높은 고위험 환자를 추려내서 특별 명단을 만들고자 한다면

빅데이터 속에서 다양한 패턴들과 corrlation을 찾아낸다면 -> 중요함

 

IF 암 재발을 방지하기 위한 적절한 처방을 내리는 목적 -> 적절한 이유 없는 처방을 불가능함

건강을 호전시킨 것이 다른 게 원인이라면? 아이스크림과 오렌지쥬스를 마시는 것은 전혀 도움이 되지 않을 것

 

이렇게 빅데이터는 우리가 간과하고 있는 새로운 패턴을 알 수 있음

BUT 인과관계에 의한 패턴인지, 상관관계에 의한 패턴인지 정확하게 알 수 없음

이는 분석의 목적에 따라서 구분하는 것이 중요함 ~~~~

 

ML/AI and Causal Inference

최근에 머신러닝, 인공지능 발전으로 다양한 혁신이 이뤄지고 있음

스스로 학습해서 알아서 패턴을 찾아감

 

BUT 인과추론 관점에서 집고 가야 할 부분은

인공지는 알고리즘은 특정 패턴을 학습하는 Prediction 머신임

그렇기 때문에 진정한 ai 발전을 위해서는 causal inference의 중요성이 대두되고 있음

 

어떠한 Causal Model, Framework가 고려되지 않은 일반적인 ml, ai 방법론들은 

상관관계에 기반해서 데이터에 나타나는 패턴을 학습함

그렇기 때문에 인과관계를 추론하는 데에 한계가 있음

 

결국 인과관계를 합리적으로 추론하기 위해서는

최고 성능 gpu, ml기법 보다는

앞으로 배우게 될 causal framwork, model이 필요함!!!!

 

오른쪽과 같은 ml에 인과추론이 더해진 방법론들이 활발하게 연구되고 있음

통계적, 계량경계적 접근 뿐만 아니라 인과추론방법론을 다룰 것임

 

Statistics and Causal Inference

기본적으로 인과추론은 통계에 뿌리를 두고 있음

가장 큰 차이점은 전통적으로 통계는 데이터를 통해 통계 모형을 찾음

but 인과추론은 우리가 관심있는 인과효과를 정의하고, 추정가능한지, 어던 조건과 가정으로 추정가능한지 정의하는 일

이후 어떤 통계모형과 머신러닝 모델을 사용하는지 정할 수 있음

 

핵심은 

인과추론이 어떤 조건에서 가능한지 여부를 결정하는 Identification

실제 데이터를 통해서 이를 추정하는 Estimation 과정

이러한 인과추론의 조건을 이해하는 체계적인 틀을 제공해주는 것이 Casual Model, Casual Framework

 

그래서 인과추론 가능여부는 데이터를 보기 전에 결정이 됨

Design approach의 핵심임!

 

 

-----

요약

빅데이터와 AI의 발전으로 양적, 질적연구가 분야를 막론하고 증가함

BUT 데이터의 증가는 모든 것을 해결해주는 것이 아닌 인과추론의 어려움을 더욱 증대시킴

이를 해결하기 위해서 통계를 근간한 인과추론을 공부 해야 함

ML, AI는 결과만을 제시하고 스스로 학습하고 예측하기 때문에 이유를 제시하지 않기 때문임

데이터 그 이상의 것인 도메인 지식은 인과추론이 되는 것임!!