etc/memo

Inference(추론)과 Prediction(예측)

uyt8989 2023. 1. 24. 16:52

 저번 학기에 대학교에서 머신러닝과 계량경제학 강의를 들었다. 머신러닝도 경제학과에서 열린 수업이다 보니 둘은 비슷하지만 또 매우 다르다는 느낌을 받았다. 개강 후 한 달 정도 지나니 두 수업 모두 통계적 지식이 부족해서 이해가 안 되는 부분은 차치하더라도 inference(추론)와 prediction(예측)에 대해 정확한 개념이 부족해서 수업이 더 어렵게 느껴지지 않나 하는 생각이 들었다. 그전까지는 그냥 추론은 data generating process, 즉 이 데이터가 어떤 분포를 가지고 있는지 알아내는 데에 관심 있고, 예측은 unseen data를 말 그대로 예측하는 것에 관심이 있다는 정도로만 알고 있었다. 하지만 이쯤에서 추론을 통해 data generating process를 정확히 알 수 있다면 예측은 당연히 가능한 것이 아닌가 하는 생각이 들었다. 정확한 추론이 불가능하기 때문에 어쩔 수 없이 결과라도 잘 나오는 예측을 사용하는 것인가? 하는 질문도 생겼다. 그래서 학기가 끝난 지는 꽤 됐지만 이제서라도 생각정리도 할 겸 내 나름대로 내린 결론을 적어두려고 한다.

 

 일단 이번에 들은 계량경제학 강의는 기초 강의는 아니고 나름 "Applied"이라는 말도 들어가고 "Micro"라는 말도 들어가는 고학년 과목이었다. 수업은 주로 모델 하나를 다루고 그 모델을 사용한 유명한 논문을 리뷰하는 식으로 진행됐다. 수업에서 다뤘던 모형 중에 기억나는 건 IV Estimation, LATE, DID, RDD 등이 있다. 지금은 이 모형들의 디테일한 부분은 잘 기억나지 않지만 이 모형들 모두 많은 조건을 필요로 한다는 것은 잘 기억하고 있다(애초에 계량경제학을 접할 때 배우는 선형회귀도 조건이 많이 달린다). 이 중에서 가장 만만(?)한 도구변수의 경우만 해도 exogeneity, relevance, exclusion restriction의 세 가지 조건이 충족되어야 적절한 도구변수다. 조건이 주렁주렁 많이 달리기 때문에 확장성과 범용성(?)은 머신러닝에 비해 많이 부족한 것 같다. 대신 정말 엄밀하게 데이터의 분포에 대해서 고민한다는 느낌을 받았다.

 

 머신러닝의 경우엔 추론 쪽보다는 예측에 관심이 많다고 알고 있다. 실제로 공부해 보니 로지스틱 회귀와 거기서 파생된 모델들은 어느 정도 해석이 가능한 모델이지만 DNN이나 트리 모형 같은 경우에는 결과를 해석하기가 꽤나 까다롭다. 설명 가능하다 혹은 설명 가능하지 않다로 나뉘기도 한다. 그리고 모델을 사용하기 전에 사용자가 사용하려는 데이터가 어떻게 생겼는지, 사용하려는 모델이 여기에 부합하는지에 대한 고민을 하기는 하지만 그 노력의 정도가 계량경제학에 비하면 훨씬 적은 것 같다. 대신 계량경제학에서 배웠던 모델들 보다는 훨씬 여기저기 사용할 수 있어 보였다. 

 

 추론과 예측은 대충 봤을 때 되게 비슷한 뜻인 것 같다. 하지만 자세히 생각하면 추론은 과거의 사건에 대해서만 관심 있고, 예측은 아직 일어나지 않은 사건에 대해 관심 있는 느낌이다. 실제로 학기를 다니면서도 비슷한 느낌을 받았다. 계량경제학 논문에서는 전혀 예측에 대해 언급이 없었다. 물론 모든 계량경제학이 그렇다는 말은 아니고 적어도 내가 접했던 논문들의 경우 과거에 어떤 정책을 시행했는데 그 정책이 어느 정도의 효과를 보였는지 등에 대한 내용이었다. 하지만 머신러닝은 테스트 용으로 데이터를 따로 빼둘 정도록 학습 과정에 사용되지 않은 데이터에 대한 성능을 중요시 여겼다. 그래서 일단 내가 내린 결론은 추론은 이전, 예측은 이후에 집중한다는 것이다.

 

 써놓고 보니 내용이 별로 없는 것 같고 내용에 자신도 없지만 글 쓴 시간이 아까워서 그냥 올린다.

 

* 아직 공부가 부족한 학부생입니다. 위의 포스팅에 틀린 부분이 있다면 정정 부탁드립니다. *

 

Reference)

 

Inference vs Prediction

Many people use prediction and inference synonymously although there is a subtle difference. Learn what it is here!

www.datascienceblog.net

 

Difference Between Inference and Prediction [Updated 2022]

{"@context":"https://schema.org","@type":"FAQPage","mainEntity":}

askanydifference.com

 

Machine Learning for Decision Making

Best of Both Worlds, Part 1

medium.com