Statistical thinking

Author

Sungkyun Cho

Published

September 11, 2024

데이터를 분석한다는 것은?

Data is a window, not a mirror to reality!

  • 수많은 가정과 사전 지식을 전제로 함: 올바른 결과 뿐 아니라 효율적인 분석을 위해 필요
  • 분석 결과는 주어진 가정에 대한 분명한 제시(transparency)와 그 가정을 기반으로 한 적절한 해석이 요구됨

예측 모델 vs. 관계/원인 분석

예측 모델

예측의 신속성과 정확성
Machine Learning 강점
Algorithmic

  • 이미지/사물 인식
  • 개인화된 추천 목록: 유튜브, 넷플릭스
  • 시리, ChatGPT의 답변
  • 비즈니스 분석
  • 이상치 탐지

관계/원인 분석

현상/실재에 대한 이해과 매커니즘 파악
Statistical Models 강점
Parametric

  • 음식/운동의 효능
  • 광고의 효과
  • 복지/치안 정책의 효과

Causal Inference

Source: The Book of Why by Judea Pearl, Dana Mackenzie (2018)

Association

  • 관찰을 기반으로 규칙성 발견하고 예측
  • 올빼미가 쥐의 움직임을 관찰하고 잠시 후 쥐가 어디에 있을지를 파악
  • 컴퓨터 바둑 프로그램이 수백만 개의 바둑 게임 데이터베이스를 연구하여 어떤 수와 승률이 높은지 알아내는 것
  • 하나의 이벤트를 관찰하면 다른 이벤트를 관찰할 가능성이 달라진다면, 하나의 이벤트가 다른 이벤트와 연관되어 있다고 말할 수 있음
  • “치약을 구매한 고객이 치실도 구매할 가능성이 얼마나 되는가?”; \(P(치실 ~| 치약~)\)
  • 통계의 핵심: 상관관계, 회귀
  • 올빼미는 쥐가 왜 항상 A 지점에서 B 지점으로 가는지 이해하지 못해도 훌륭한 사냥꾼이 될 수 있음
  • 위스키 한 병을 들고 있는 보행자가 경적을 울릴 때 다르게 반응할 가능성이 있다는 것을 기계가 스스로 파악할 수 있는가?
    • Association 단계의 한계: 유연성과 적응성의 부족

Intervention

  • 관찰을 넘어, 세상에 대한 개입
  • “치약 가격을 두 배로 올리면 치실 판매량은 어떻게 될까?”
  • 데이터에는 없는 새로운 종류의 지식을 요구
  • 통계학의 언어로는 이 질문을 표현하는 것조차 불충분함
  • 수동적으로 수집된 데이터만으로는 이러한 질문에 대답할 수 없음
    • 과거의 데이터를 이용하면?
    • 과거에 가격이 두 배 비쌌을 때, 치실 판매량으로 추론?
    • 이전에 가격이 두 배 비쌌을 때, 다른 이유가 있었을 수 있음
  • 전통적으로 실험을 통해 해결
  • 정확한 인과 관계 모델이 있으면 관찰 데이터만으로도 가능; \(P(치실 ~| ~do(치약~))\)
  • 사실, 일상 생활에서 항상 개입을 수행: 어떻게(How) 하면 두통이 사라질까?

Counterfactuals

  • 두통이 사라졌다면 왜(Why) 그럴까?
  • 약을 먹지 않았어도 두통이 사라졌을까?: 가상의 세계 (counterfactual world)
  • “현재 치약을 구매한 고객이 가격을 두 배로 올려도 여전히 치약을 구매할 확률은 얼마인가?”
  • 우리는 현실 세계(고객이 현재 가격으로 치약을 구매했다는 것을 알고 있는)와 가상의 세계(가격이 두 배 높은 경우)와 비교
  • 보이는 세계 볼 수 있는 새로운 세계 볼 수 없는 세계(보이는 것과 모순)
  • 이를 위해서는 “이론” 또는 “자연의 법칙”이라고 볼 수 있는 근본적인 인과 과정의 모델이 필요

전형적인 인과적 질문들

  • How effective is a given treatment in preventing a disease?
  • Was it the new tax break that caused our sales to go up? Or our marketing campaign?
  • What is the annual health-care costs attributed to obesity?
  • Can hiring records prove an employer guilty of sex discrimination?
  • I am about to quit my job, will I regret it?
  • 특정 치료법이 질병 예방에 얼마나 효과적일까요?
  • 새로운 세금 감면 혜택이 매출 상승의 원인이었을까요? 아니면 마케팅 캠페인 때문이었나요?
  • 비만으로 인한 연간 의료 비용은 얼마인가요?
  • 채용 기록으로 고용주의 성차별을 입증할 수 있나요?
  • 직장을 그만두려고 하는데 후회하게 될까요?

   번역 by DeepL

구체적인 예들

  • 닭의 울음이 태양을 솟게 하는가?
  • 돈과 행복: 패턴 vs. 예외
    • 특정 A의 임금이 p 에서 q 로 증가할 때, 트렌드대로 움직이겠는가?
    • 특정 B의 임금이 r 에서 s 로 감소할 때, 트렌드대로 움직이겠는가?
    • 특정 C의 임금을 올려주면, 트렌드대로 움직이겠는가?
  • 미혼자에 대한 임금 차별
    • 연령을 고려한 마라톤 기록?
    • 나이와는 무관한/독립적인 마라톤 능력에 대해 말하고자 함

Source: https://doi.org/10.1186/2052-1847-6-31

분석가의 태도

  • 심리적 관성/편견 주의
  • 분석가의 책임의식
  • 두 가지 접근법(예측과 이해)는 서로 상보 관계!

데이터 분석에 관한 전통적인 분류

  • 탐색적 분석 vs. 가설 검증
    exploratory vs. confirmatory

    • 탐색적 분석
      • 통찰 혹은 가설의 기초 제공
      • 끼워 맞추기? 오류에 빠지기 쉬움
    • 가설 검증
      • 진위의 확률을 높임
      • 탐색적 분석으로부터 온 가설은 재테스트
  • 관찰 vs. 실험 데이터
    observational vs. experimental

    • 당근과 시력?
    • 커피의 효과?
    • 남녀의 임금 차별?
    • 심리치료의 효과?
  • 표본 vs. 모집단
    sample vs. population

    • Parameter(모수), uncertainty(불확실성)
    • 내일 태양이 뜰 확률?
    • 연봉과 삶의 만족도와 관계
    • 성별과 임금과의 관계
    • 두통약의 효능: “effect size”


통계적 사고

Distributions

  • 남녀 임금의 차이

  • Associatiions과 그 strengths 비교

카테고리 변수에 대해서도 비슷하게 생각할 수 있음.
이 경우, 두 그룹 간의 차이에 대한 효과의 크기를 말할 수 있고, 예를 들어, 결혼과 삶의 만족도 간의 관계(association)와 그 크기(strength)

Confounding

일반적으로, 표면적으로 드러난 변수간의 관계가 숨겨진 다른 변수들(lurking third variables)에 의해 매개되어 있어 진실한 관계가 아닌 경우, confounding 혹은 confounder가 존재한다고 함.

Common Cause

신발을 신고 잠든 다음날 두통이 생긴다면?


Source: Introduction to Causal Inference (ICI) by Brady Neal

극단적이지만 이해하지 쉬운 예로는

  • 머리가 길면 우울증도 높다?
  • 초등생이 발이 크면 독해력도 높다?

Spurious relations

앞서 든 예도 마찬가지로

올바른 관계를 파악하려면, 동일한 나이에 대해 그 관계를 파악한 후 각 나이에서의 효과를 (weighted) 평균해서 살펴봐야함

통계에서는 이를 나이를 통제 (control for age)한다고 표현하며, 같은 의미로 다음과 같은 표현을 씀

  • 나이를 고려했을 때; account for age
  • 나이를 조정했을 때; adjust for age
  • 나이와 무관/독립인; independent of age

Simpson’s paradox


Source: The book of why by Judea Pearl

예를 들어, 은퇴한 노인들을 대상으로 규칙적인 걷기가 사망율을 감소시킬 것이라는 가설을 확인하기 위해 1965년 이후 8000명 가량의 남성들을 추적조사한 데이터의 일부를 이용했는데,

  • 12년 후 사망율에서 casual walker(하루 1마일 이하)와 intense walker(하루 2마일 이상)가 각각 43%, 21.5%로 나타났음.
  • 이 걷기의 효과를 의심케 하는 요소들(confounding)은 무엇인가?
  • 건강이 나빠 많이 걷지 못했을 수도…
  • 많이 걷는 사람은 상대적으로 젊을 수도…
  • 많이 먹는 사람이 덜 걸을 수도…
  • 술을 많이 먹는 사람이 덜 걸을 수도…

남녀 연봉 차이의 원인을 찾으려면?

  • 직업 특성, 부서, 직급, 연령, 출산, 출세욕

COVID-27
Source: Introduction to Causal Inference (ICI) by Brady Neal

학생들의 과제는 성적에 영향을 주는가?
Source: National Education Longitudinal Study of 1988 (NELS:88)

Colider bias

운동능력이 뛰어나면 지능이 떨어지는가?


Source: Statistical Modeling by Daniel T. Kaplan

Mechanisms/Mediation

  • 레몬과 괴혈병

만약, 장거리 항해에서 상급자(높은 연령)에게만 과일이 제공되었을 때, 나이가 많은 선원들에게서 괴혈병이 덜 생겼다는 현상으로부터 연령과 괴혈병의 관계를 추론해서는 안됨. 하지만 예측은 여전히 유효함.

Interaction/Moderation

나이가 듦(age)에 따라 지구력(endurance)의 감소가 강도 높은 운동을 한 기간(년수)(exercise)에 따라 변화

  • 보호 요인 (protective factor)
  • 위험 요인 (risk factor)

Interaction의 패턴
  1. Synergistic or enhancing interaction
  • 상호작용 효과가 원래 효과들과 같은 방향으로 작용하는 경우
  • 삶의 만족도(Y)가 직업 스트레스(X)와 부정적인 관계에 있고, 부부관계의 문제(Z)와도 부정적인 관계에 있는 경우
  • 이 둘의 상호작용이 부정적이라면, 직업 스트레스와 부부관계의 문제가 동시에 증가하면 각각의 sum이 예측하는 것보다 더 낮은 삶의 만족도가 예측됨.
  1. Buffering interaction
  • 두 변수가 반대 방향으로 Y에 작용하고 있을 때, 한 변수가 다른 변수의 효과를 감소시키는 경우
  • 즉, 한 변수의 impact가 다른 변수의 impact를 줄여주는 경우
  • 건강보건에 대한 연구에서, 한 변수가 질병의 위험요인이고 다른 변수가 질병의 위험을 줄여주는 보호요인인 경우
  • 위의 예에서처럼, 나이(X)는 지구력 감소의 위험요인이고, 운동기간(Z)은 지구력 보호요인인 경우
  1. Interference or antagonistic interactionin
  • 두 변수가 같은 방향으로 Y에 작용하고 있을 때, 상호작용은 반대 방향으로 작용하는 경우
  • 대학생의 학업성취도(Y)에 대하여, 학업동기(X)와 학업능력(Z)이 모두 학업성취도(Y)에 긍정적인 영향을 미치나 이 두 변수는 서로 보완적인 효과를 가지고 있음.
  • 즉, 성취도에 대한 학업능력의 중요성은 높은 학업동기에 의해 낮아질 수 있음.
  • 반대로, 학업동기에 대한 중요성은 높은 학업능력에 의해 낮아질 수 있음.

수집된 데이터의 성격

Selection Bias

수집된 데이터의 성격에 따라 인과추론을 방해하거나(confounding)
일반화할 수 있는 대상의 범위가 제한됨(external validity)

  • 노인에 관한 데이터: 누가 사망했는가?
  • 과거 기록을 이용?
  • 회사 구성원에 대한 조사: 근속년수에 따른 샘플 속성의 변화
  • 누가 참여했는가? 어떤 방식으로 참여했는가?
    • 관측되지 않은 데이터: 어떤 사람/대상이 왜 누락되었는가?
  • 어떤 유저들의 데이터인가?: SNS의 기록은 누가 남기는가?
  • 코호트/특정세대의 특성: 그들의 특성인가?

실험

Experiment

RCT (randomized controlled trial)

  • 개념적으로는 물리적 통제라고 볼 수 있으며,
  • 두 그룹으로 집단을 randomly assign(무선/무작위 배정/할당)