Statistical thinking

데이터를 분석한다는 것은?

Data is a window, not a mirror to reality!

수많은 가정과 사전 지식을 전제로 함: 올바른 결과 뿐 아니라 효율적인 분석을 위해 필요
분석 결과는 주어진 가정에 대한 분명한 제시(transparency)와 그 가정을 기반으로 한 적절한 해석이 요구됨

예측 모델 vs. 관계/원인 분석

예측 모델

예측의 신속성과 정확성
Machine Learning 강점
Algorithmic

이미지/사물 인식
개인화된 추천 목록: 유튜브, 넷플릭스
시리, ChatGPT의 답변
비즈니스 분석
이상치 탐지

관계/원인 분석

현상/실재에 대한 이해과 매커니즘 파악
Statistical Models 강점
Parametric

음식/운동의 효능
광고의 효과
복지/치안 정책의 효과

Causal Inference

Source: The Book of Why by Judea Pearl, Dana Mackenzie (2018)

Association

관찰을 기반으로 규칙성 발견하고 예측
올빼미가 쥐의 움직임을 관찰하고 잠시 후 쥐가 어디에 있을지를 파악
컴퓨터 바둑 프로그램이 수백만 개의 바둑 게임 데이터베이스를 연구하여 어떤 수와 승률이 높은지 알아내는 것
하나의 이벤트를 관찰하면 다른 이벤트를 관찰할 가능성이 달라진다면, 하나의 이벤트가 다른 이벤트와 연관되어 있다고 말할 수 있음
“치약을 구매한 고객이 치실도 구매할 가능성이 얼마나 되는가?”; \(P(치실 ~| 치약~)\)
통계의 핵심: 상관관계, 회귀
올빼미는 쥐가 왜 항상 A 지점에서 B 지점으로 가는지 이해하지 못해도 훌륭한 사냥꾼이 될 수 있음
위스키 한 병을 들고 있는 보행자가 경적을 울릴 때 다르게 반응할 가능성이 있다는 것을 기계가 스스로 파악할 수 있는가?
- Association 단계의 한계: 유연성과 적응성의 부족

Intervention

관찰을 넘어, 세상에 대한 개입
“치약 가격을 두 배로 올리면 치실 판매량은 어떻게 될까?”
데이터에는 없는 새로운 종류의 지식을 요구
통계학의 언어로는 이 질문을 표현하는 것조차 불충분함
수동적으로 수집된 데이터만으로는 이러한 질문에 대답할 수 없음
- 과거의 데이터를 이용하면?
- 과거에 가격이 두 배 비쌌을 때, 치실 판매량으로 추론?
- 이전에 가격이 두 배 비쌌을 때, 다른 이유가 있었을 수 있음
전통적으로 실험을 통해 해결
정확한 인과 관계 모델이 있으면 관찰 데이터만으로도 가능; \(P(치실 ~| ~do(치약~))\)
사실, 일상 생활에서 항상 개입을 수행: 어떻게(How) 하면 두통이 사라질까?

Counterfactuals

두통이 사라졌다면 왜(Why) 그럴까?
약을 먹지 않았어도 두통이 사라졌을까?: 반사실적(가상의) 세계 (counterfactual world)
Individual Treatment Effect: \(\tau_i \equiv Y_i(1) - Y_i(0)\): the fundamental problem of causal inference
Average Treatment Effect: \(\tau \equiv E[Y_i(1) - Y_i(0)] = E[Y_i(1)] - E[Y_i(0)]\): 여러 관측치(데이터)를 이용해 (노이즈를 제거하면서) 최적의 인과효과를 추정

\(i\)	\(T\)	\(Y\)	\(Y(1)\)	\(Y(0)\)	\(Y(1) - Y(0)\)
1	0	0		0	?
2	1	1	1		?
3	1	0	0		?
4	0	1		1	?
…	…	…	…	…	?

“현재 치약을 구매한 고객이 가격을 두 배로 올려도 여전히 치약을 구매할 확률은 얼마인가?”
우리는 현실 세계(고객이 현재 가격으로 치약을 구매했다는 것을 알고 있는)와 가상의 세계(가격이 두 배 높은 경우)와 비교
보이는 세계 볼 수 있는 새로운 세계 볼 수 없는 세계(보이는 것과 모순)
이를 위해서는 “이론” 또는 “자연의 법칙”이라고 볼 수 있는 근본적인 인과 과정의 모델이 필요

전형적인 인과적 질문들

How effective is a given treatment in preventing a disease?
Was it the new tax break that caused our sales to go up? Or our marketing campaign?
What is the annual health-care costs attributed to obesity?
Can hiring records prove an employer guilty of sex discrimination?
I am about to quit my job, will I regret it?

특정 치료법이 질병 예방에 얼마나 효과적일까요?
새로운 세금 감면 혜택이 매출 상승의 원인이었을까요? 아니면 마케팅 캠페인 때문이었나요?
비만으로 인한 연간 의료 비용은 얼마인가요?
채용 기록으로 고용주의 성차별을 입증할 수 있나요?
직장을 그만두려고 하는데 후회하게 될까요?

번역 by DeepL

구체적인 예들

닭의 울음이 태양을 솟게 하는가?

돈과 행복: 패턴 vs. 예외

특정 A의 임금이 p 에서 q 로 증가할 때, 트렌드대로 움직이겠는가?
특정 B의 임금이 r 에서 s 로 감소할 때, 트렌드대로 움직이겠는가?
특정 C의 임금을 올려주면, 트렌드대로 움직이겠는가?

미혼자에 대한 임금 차별 vs. 편견

미혼자에 대한 임금 차별이 있는가? 차별이 의미하는 바는 무엇인가?
연령을 고려한 후에도 기혼자의 임금은 미혼자보다 높은가?
연령을 고려한 후/연령을 조정한 후(adjusted for age)의 차이는 얼마라고 봐야하는가?

연령을 고려한 마라톤 기록?

나이와는 무관한/독립적인 마라톤 실력에 대해 말하고자 함

Source: https://doi.org/10.1186/2052-1847-6-31

가난, 인종, 범죄 간의 관계

Racial differences in homicide rates are poorly explained by economics

출산율은 왜 감소하는가?

분석가의 태도

심리적 관성/편견 주의
분석가의 책임의식
두 가지 접근법(예측과 이해)는 서로 상보 관계!

데이터 분석에 관한 전통적인 분류

탐색적 분석 vs. 가설 검증
exploratory vs. confirmatory
- 탐색적 분석
  - 통찰 혹은 가설의 기초 제공
  - 끼워 맞추기? 오류에 빠지기 쉬움: spurious associations
- 가설 검증
  - 진위의 확률을 높임
  - 탐색적 분석으로부터 온 가설은 재테스트

관찰 vs. 실험 데이터
observational vs. experimental
- 당근과 시력?
- 커피의 효과?
- 남녀의 임금 차별?
- 심리치료의 효과?

표본 vs. 모집단
sample vs. population
- Parameter(모수), uncertainty(불확실성)
- 내일 태양이 뜰 확률?
- 연봉과 삶의 만족도와 관계
- 성별과 임금과의 관계
- 두통약의 효능: “effect size”

통계적 사고

Distributions

남녀 임금의 차이
Associatiions과 그 strengths 비교

카테고리 변수에 대해서도 비슷하게 생각할 수 있음.
이 경우, 두 그룹 간의 차이에 대한 효과의 크기를 말할 수 있고, 예를 들어, 결혼과 삶의 만족도 간의 관계(association)와 그 강도(strength)

Confounding

일반적으로, 표면적으로 드러난 변수간의 관계가 숨겨진 다른 변수들(lurking third variables)에 의해 매개되어 있어 진실한 관계가 아닌 경우, confounding 혹은 confounder가 존재한다고 함.

Common Cause/Fork

신발을 신고 잠든 다음날 두통이 생긴다면?

Source: Introduction to Causal Inference (ICI) by Brady Neal

극단적이지만 이해하지 쉬운 예로는

머리가 길면 우울증도 높다?
초등생이 발이 크면 독해력도 높다?

Answers!

Spurious relations

앞서 든 예도 마찬가지로

올바른 관계를 파악하려면, 동일한 나이에 대해 그 관계를 파악한 후 각 나이에서의 효과를 (weighted) 평균해서 살펴봐야함

통계에서는 이를 나이를 통제 (control for age)한다고 표현하며, 같은 의미로 다음과 같은 표현을 씀

나이를 고려했을 때; account for age
나이를 조정했을 때; adjust for age
나이와 무관/독립인; independent of age

Simpson’s paradox

Source: The book of why by Judea Pearl

예를 들어, 은퇴한 노인들을 대상으로 규칙적인 걷기가 사망율을 감소시킬 것이라는 가설을 확인하기 위해 1965년 이후 8000명 가량의 남성들을 추적조사한 데이터의 일부를 이용했는데,

12년 후 사망율에서 casual walker(하루 1마일 이하)와 intense walker(하루 2마일 이상)가 각각 43%, 21.5%로 나타났음.
이 걷기의 효과를 의심케 하는 요소들(confounding)은 무엇인가?

Answers!

건강이 나빠 많이 걷지 못했을 수도…
많이 걷는 사람은 상대적으로 젊을 수도…
많이 먹는 사람이 덜 걸을 수도…
술을 많이 먹는 사람이 덜 걸을 수도…

남녀 연봉 차이의 원인을 찾으려면?

직업 특성, 부서, 직급, 연령, 출산, 출세욕

COVID-27
Source: Introduction to Causal Inference (ICI) by Brady Neal

학생들의 과제는 성적에 영향을 주는가?
Source: National Education Longitudinal Study of 1988 (NELS:88)

Coliders/Immorality

미모가 뛰어나면 연기력이 떨어지는가?

코딩 기술이 뛰어나면 협업능력이 떨어지는가?
어느 회사에서 지원자의 코딩 능력과 협업 능력을 1점부터 5점까지 정량화하여,
총점 8점 이상을 받은 지원자를 모두 채용한다고 했을 때,

Mechanisms/Mediations/Chains

만약, 장거리 항해에서 상급자(높은 연령)에게만 과일이 제공되었을 때, 나이가 많은 선원들에게서 괴혈병이 덜 생겼다는 현상으로부터 연령과 괴혈병의 (직접적) 관계를 추론해서는 안됨. 하지만 예측은 여전히 유효함.

Interaction/Moderation

나이가 듦(age)에 따라 지구력(endurance)의 감소가 강도 높은 운동을 한 기간(년수)(exercise)에 따라 변화

보호 요인 (protective factor)
위험 요인 (risk factor)

Interaction의 패턴

Synergistic or enhancing interaction

상호작용 효과가 원래 효과들과 같은 방향으로 작용하는 경우
삶의 만족도(Y)가 직업 스트레스(X)와 부정적인 관계에 있고, 부부관계의 문제(Z)와도 부정적인 관계에 있는 경우
이 둘의 상호작용이 부정적이라면, 직업 스트레스와 부부관계의 문제가 동시에 증가하면 각각의 sum이 예측하는 것보다 더 낮은 삶의 만족도가 예측됨.

Buffering interaction

두 변수가 반대 방향으로 Y에 작용하고 있을 때, 한 변수가 다른 변수의 효과를 감소시키는 경우
즉, 한 변수의 impact가 다른 변수의 impact를 줄여주는 경우
건강보건에 대한 연구에서, 한 변수가 질병의 위험요인이고 다른 변수가 질병의 위험을 줄여주는 보호요인인 경우
위의 예에서처럼, 나이(X)는 지구력 감소의 위험요인이고, 운동기간(Z)은 지구력 보호요인인 경우

Interference or antagonistic interactionin

두 변수가 같은 방향으로 Y에 작용하고 있을 때, 상호작용은 반대 방향으로 작용하는 경우
대학생의 학업성취도(Y)에 대하여, 학업동기(X)와 학업능력(Z)이 모두 학업성취도(Y)에 긍정적인 영향을 미치나 이 두 변수는 서로 보완적인 효과를 가지고 있음.
즉, 성취도에 대한 학업능력의 중요성은 높은 학업동기에 의해 낮아질 수 있음.
반대로, 학업동기에 대한 중요성은 높은 학업능력에 의해 낮아질 수 있음.

Selection Bias

수집된 데이터의 특성에 따라 인과추론을 방해하거나(confounding); internal validity(내적 타당도)
일반화할 수 있는 대상의 범위가 제한됨; external validity(외적 타당도)

노인에 관한 데이터: 누가 사망했는가?
- Survival bias: 일종의 collider bias
- 예를 들어, 비만이 사망율에 미치는 효과에 대한 과소추정
의료 분야에서 발견되는 패러독스
- 비만은 당뇨 환자에게 이익이 되는가?
과거 기록을 이용?; 수녀들의 자서전 연구
- 추적조사/종단연구(longitudinal study)
회사 구성원에 대한 조사: 근속년수에 따른 샘플 속성의 변화
누가 참여(안)했는가? 어떤 방식으로 참여했는가?
- 관측되지 않은 데이터: 어떤 사람/대상이 왜 누락되었는가?
- 어떤 사람들이 설문/실험에 참여했는가? 혹은 어떤 문항에 응답했는가?/하지 않았는가?
어떤 유저들의 데이터인가? 가령, SNS의 기록은 누가 남기는가?
코호트/특정세대의 특성: 그들만의 특성인가?

Abraham Wald: “Where are the missing holes?”

Source: War History Online

Experiments

개입없이 수동적으로 얻은 관찰 데이터의 분석에서는 항상 confounding이 존재할 기능성이 있음
결정적인 인과관계를 파악하기 위해, 전통적으로 “통계학”의 시각에서 인과문제를 해결하기 위해 RCT (randomized controlled trial)라고 부르는 소위 gold standard한 실험 연구를 통해서 해결하고자 했음
개념적으로는 “물리적 통제”라고 볼 수 있음; vs. “통계적 통제”
두 그룹으로 집단을 randomly assign(무선/무작위 배정/할당): 모든 면에서 동질한 성향을 가짐. 예를 들어, 두 집단의 연령이 평균적으로 동일해짐.
분야마다 효과를 제대로 검증하기 위한 많은 실험 설계들이 발전되었음; 연구방법론

앞서 든 예에서, 걷기가 사망율에 미치는 효과를 검증하려면, 가령 600명을 300명씩 두 그룹으로 무작위로 나눈 후 한쪽은 1마일 이하를 걷도록 하고 나머지는 2마일 이상을 걷게 한 후 12년 후 사망율을 확인해야 함.

하지만, 실험 연구는 자체로 많은 한계를 지님

많은 경우 실험이 불가능하거나 완전한 통제가 어려움
실험에서 처치한 구체적인 상황에서만 유효하고; 어느 지형을 어느 속도로 누구와 어떻게 걸었는지에 대한 실험 통제하에서
따라서 그 효과 또한 일반화되어 표현하기 어려움
반대로, 덜 통제된 실험의 경우 어떤 요인의 효과인지 불분명
완전한 통제를 할수록 더 인위적인 상황이 연출됨; 자연스러운/현실적인 상황에서 적용된다는 보장이 없음
실험 참여자는 어떻게 왜 참여한 것인가?