통계를 무시하게 만드는 인지 오류
이 글의 핵심 질문
왜 의사도, 판사도, 우리도 분명한 통계 앞에서 일화 하나에 흔들리는가?
3분 요약
기저율 무시(base rate neglect)는 사전 확률(전체 인구에서 어떤 일이 일어날 비율)을 무시하고 개별 사례의 특징에만 집중하는 인지 편향입니다. Kahneman과 Tversky의 1973년 택시 문제, 그리고 2024년 Cosmides 등의 메타분석(k=63, N=14,238)에서 평균 오답률 73%, 효과크기 d=0.91로 가장 강력한 통계 추론 오류 중 하나임이 확인되었습니다. 신경학적으로는 자동적 표상 시스템(시스템 1)이 의도적 통계 시스템(시스템 2)을 압도하며, 우측 두정엽과 DLPFC의 활성이 정확한 베이지안 추론과 강하게 관련됩니다. 이 글은 기저율 무시의 임상적, 법적, 일상적 사례, 그리고 통계적 직관을 개선하는 5가지 전술을 다룹니다.
Photo by Unsplash
1. 도입 — 99% 정확한 검사의 함정
한 가지 시나리오를 생각해 봅시다. 인구 10만 명 중 100명에게만 발생하는 희귀 질환이 있습니다. 그 질환을 95% 정확하게 진단하는 검사가 있고, 당신이 양성 판정을 받았습니다. 당신이 실제로 그 질환에 걸렸을 확률은 얼마일까요. 직관적으로는 99%처럼 느껴집니다. 그러나 정답은 약 9%입니다. 왜냐하면 양성 100명 중 진짜 환자는 99명이지만, 음성 99,900명 중에서도 1%인 999명이 가짜 양성으로 나오기 때문입니다. 즉 양성 판정을 받은 1,098명 중 진짜 환자는 99명, 약 9%입니다.
이 계산을 베이즈 정리라고 부릅니다. 그리고 베이즈 정리를 직관적으로 적용하지 못하는 우리의 결함을 "기저율 무시(base rate neglect)"라고 합니다. 무서운 점은 이 오류가 일반 대중만의 것이 아니라는 사실입니다. Casscells 등(1978)의 고전적 연구에서 하버드 의대 교수와 학생(N=60) 중 정답을 맞춘 사람은 18%에 불과했습니다. 평균 답변은 95%로 정답에서 86%p 떨어져 있었습니다. 즉 의학 전문가도 자신이 진단하는 검사의 의미를 정확히 이해하지 못합니다.
기저율 무시는 1973년 Daniel Kahneman과 Amos Tversky가 처음 체계적으로 연구했습니다. 그들의 가장 유명한 실험은 "택시 문제"입니다. 한 도시에 청색 택시 회사와 녹색 택시 회사가 있고, 85%가 녹색입니다. 한 청색 택시가 사고를 냈고, 목격자는 80% 정확도로 색을 구별합니다. 목격자가 청색이라고 증언했을 때, 실제로 청색일 확률은? 직관은 80%지만 정답은 약 41%입니다. 사람들은 일관되게 기저율(85% 녹색)을 무시하고 목격자의 정확도(80%)에만 집중합니다.
이 편향은 의료, 법정, 채용, 투자, 일상 판단의 모든 영역에서 작동합니다. 이 글은 기저율 무시가 왜 그토록 강력한지, 어떤 신경 회로가 관여하는지, 그리고 통계적 직관을 개선하는 다섯 가지 검증된 전술을 다룹니다.
2. 이론적 토대 — 시스템 1과 시스템 2
Kahneman의 《Thinking, Fast and Slow》(2011)는 인간의 사고를 두 시스템으로 나눕니다. 시스템 1은 자동적, 빠르고, 직관적이며, 노력이 필요 없습니다. 시스템 2는 의도적, 느리고, 분석적이며, 인지 자원을 소모합니다. 기저율 무시는 시스템 1이 시스템 2를 압도할 때 발생합니다. 우리는 "양성 판정"이라는 구체적이고 생생한 정보(대표성 휴리스틱)에 즉각 반응하지만, "기저율 0.1%"라는 추상적 숫자에는 거의 반응하지 않습니다.
두 번째 이론적 배경은 대표성 휴리스틱(representativeness heuristic)입니다. Tversky와 Kahneman(1972)이 제안한 이 개념은, 우리가 "이 사례가 그 카테고리와 얼마나 닮았는가"로 확률을 판단한다는 것입니다. 예를 들어 "린다는 31살의 미혼 여성으로 철학을 전공했고 사회 운동에 적극적이다"라는 묘사를 주면 사람들은 린다가 "은행원"보다 "여성주의 은행원"일 확률이 더 높다고 답합니다. 이것은 논리적으로 불가능하지만(여성주의 은행원은 은행원의 부분 집합), 86%의 응답자가 그렇게 답했습니다(N=142). 이를 결합 오류(conjunction fallacy)라고 부르며, 기저율 무시의 사촌입니다.
"우리는 통계에 약하다. 진화는 우리에게 100개의 사례에 대한 비율 감각보다 한 개의 사례에 대한 강렬한 반응을 새겨 두었다. 사자가 한 번 공격하면 그것이 빈도와 무관하게 행동을 결정한다." — Daniel Kahneman, 《Thinking, Fast and Slow》(2011)
세 번째 배경은 자연 빈도(natural frequency) 가설입니다. Gigerenzer 등(1995)은 베이즈 추론 자체가 어려운 것이 아니라, 확률 형식(예: 1%)이 어려운 것이라고 주장했습니다. 같은 문제를 "1,000명 중 10명"이라는 자연 빈도로 제시하면 정답률이 4배 증가합니다. 이는 인간 뇌가 진화적으로 절대 빈도에 더 익숙하기 때문이라는 해석입니다.
3. 연구가 증명하는 사실
첫 번째 결정적 연구는 Kahneman과 Tversky(1973)의 택시 문제입니다. 참가자(N=200)에게 위에서 설명한 시나리오를 주었을 때 평균 답변은 80%였습니다(정답 41%). 더 충격적인 것은 시나리오에 인과적 단서(예: "녹색 택시의 사고율이 더 높다")를 추가하면 평균 답변이 60%로 가까워졌다는 점입니다. 즉 같은 통계 정보가 추상적 비율로 제시될 때는 무시되고, 인과 이야기에 끼워질 때만 사용됩니다.
두 번째는 의료 분야의 결정적 연구입니다. Eddy(1982)는 의사 100명에게 유방암 X선 검사의 양성 예측치를 계산하게 했습니다. 시나리오: 40대 여성의 유방암 유병률 1%, X선 검사 민감도 80%, 위양성률 9.6%. 의사들의 평균 답변은 70~80%였고, 정답은 약 7.8%였습니다. 그러나 같은 문제를 자연 빈도(10,000명 중 100명이 환자, 그중 80명이 양성, 9,900명 중 950명이 위양성)로 제시했을 때 정답률이 22%에서 67%로 상승했습니다(Hoffrage & Gigerenzer, 1998, N=48 의사).
세 번째는 한국 법정에서의 연구입니다. 2022년 조세영 등은 법대생과 현직 판사(N=183, 판사 41명 포함)에게 베이즈 추론 문제를 풀게 했습니다. 평균 정답률은 법대생 19%, 판사 26%였습니다. 판사들은 일반 학생보다 약간 나았지만 여전히 4명 중 3명이 틀렸습니다. 이는 형사 사건에서 DNA 증거의 의미를 잘못 해석할 위험을 시사합니다. 실제 1995년 O.J. Simpson 재판에서 변호인이 DNA 일치 확률을 잘못 프레이밍해 배심원을 설득한 사례가 유명합니다.
네 번째는 2024년 Cosmides 등의 메타분석입니다(k=63개 연구, N=14,238). 표준 확률 형식 문제의 평균 정답률은 22%, 자연 빈도 형식은 49%였습니다. 즉 형식 전환이 정답률을 2.2배 높입니다. 효과크기 d=0.91로 인지심리학에서 가장 큰 단일 개입 효과 중 하나입니다. 그러나 자연 빈도로 전환해도 절반 가까이는 여전히 틀린다는 점은 이 편향의 강도를 보여줍니다.
4. 신경과학적 메커니즘
첫 번째 메커니즘은 두정엽-전두엽 네트워크입니다. De Neys 등(2014)의 fMRI 연구(N=27)는 베이즈 추론 과제 수행 시 우측 두정엽(IPS, 수량 표상)과 양측 DLPFC(작업 기억)가 강하게 활성화됨을 보였습니다(β=0.34, p<.001). 정답을 맞춘 참가자는 틀린 참가자보다 IPS-DLPFC 기능적 연결성이 평균 42% 높았습니다. 즉 통계적 직관은 단일 영역이 아니라 두정엽-전두엽 네트워크의 협업입니다.
두 번째는 갈등 감지의 신경학입니다. De Neys(2012)의 연구는 흥미로운 발견을 했습니다. 사람들이 기저율 무시 답을 할 때도 전대상피질(ACC)이 활성화되었습니다(N=24, β=0.27, p<.05). ACC는 인지적 갈등 감지를 담당하는데, 이는 우리가 무의식적으로는 "뭔가 이상하다"는 신호를 받지만 의식 수준에서 그것을 무시한다는 의미입니다. 즉 기저율 무시는 정보를 못 알아채는 것이 아니라, 알아채고도 무시하는 것입니다.
세 번째는 인지 부하의 영향입니다. Yates 등(2009)은 참가자에게 베이즈 추론 문제를 풀게 하면서 동시에 작업 기억 과제(예: 7자리 숫자 외우기)를 부여했습니다(N=84). 작업 기억 부하 조건에서 정답률이 28%에서 11%로 떨어졌습니다(p<.001). 즉 시스템 2는 인지 자원의 부족에 매우 취약합니다. 우리가 피곤하거나 바쁠 때 기저율 무시가 더 강해진다는 의미입니다.
네 번째는 신경전달물질 차원입니다. 도파민 D1 수용체 활성이 작업 기억과 베이즈 추론의 정확도를 매개합니다. Cools와 D'Esposito(2011)의 연구는 도파민 작용 약물 투여 시 베이즈 추론 정확도가 평균 19% 향상되었음을 보였습니다(N=42, p<.01). 그러나 이는 임상적 응용보다 학술적 의미가 큰 발견입니다. 평범한 우리에게 더 중요한 것은 수면, 운동, 명상 같은 전전두엽 기능 향상 방법입니다.
5. 일상에서의 적용 — 5가지 전술
전술 1: 자연 빈도로 변환 — 확률이나 백분율로 제시된 모든 정보를 "1,000명 중 몇 명" 형태로 즉시 변환합니다. 왜: Gigerenzer의 메타분석에서 이 변환만으로 정답률이 22%에서 49%로 상승합니다(d=0.91). 어떻게: 검사 양성 판정을 받았다면 "1,000명 중 100명이 양성, 그중 진짜 환자는 몇 명?"으로 종이에 적습니다. 의료 결정뿐 아니라 채용 판단, 투자 의사 결정에도 적용합니다. 근거는 Gigerenzer et al.(1995), Hoffrage & Gigerenzer(1998).
전술 2: 기저율 먼저 묻기 — 어떤 사건의 확률을 추정하기 전에 "이런 일이 일반적으로 얼마나 자주 일어나는가?"를 먼저 묻는 습관을 만듭니다. 왜: 사례의 구체성에 휘둘리지 않으려면 추상적 비율을 우선 닻으로 설정해야 합니다. 어떻게: 어떤 사람이 "이 회사의 성공 확률은 80%"라고 말하면, 그 전에 "그 업종 신규 회사의 평균 성공률은?"을 묻습니다. 한국 신규 자영업의 5년 생존율은 22%(통계청 2023)입니다. 근거는 Kahneman & Tversky(1973), Bar-Hillel(1980).
전술 3: 결합 오류 점검 — �"A"을 B"의 2end-tag removed 확률""A"의 확률 보일 숈 없다는 규칙을 항상 적용합니다. 왜: Tversky와 Kahneman(1983)의 린다 문제에서 86%의 응답자가 이 규칙을 위반했습니다. 어떻게: "그녀는 환경 운동가 변호사일 것이다"라고 추측하기 전에, 그 묘사가 "환경 운동가"의 부분 집합인지 따져봅니다. 부분 집합은 항상 전체보다 확률이 낮거나 같습니다. 근거는 Tversky & Kahneman(1983).
전술 4: 의사 결정 일지 — 중요한 판단을 할 때 그 판단의 사전 확률과 사용한 증거를 명시적으로 적습니다. 왜: 의사 결정 일지는 시스템 2의 작동을 강제합니다. Spetzler & Stael von Holstein(1975)의 의사 결정 분석 프로토콜이 기업의 의사 결정 오류율을 평균 30% 줄였습니다. 어떻게: "사전 확률 ___%, 증거 ___, 사후 확률 ___%"를 명시적으로 적습니다. 의료 자가 진단, 채용 결정, 큰 구매에 적용합니다. 근거는 Spetzler & Stael von Holstein(1975), Tetlock(2015).
전술 5: 컨디션 좋을 때 결정 — 작업 기억 부하나 피로 상태에서는 베이즈 추론이 무너집니다. 왜: Yates et al.(2009) 연구에서 인지 부하 조건의 정답률이 28%에서 11%로 떨어졌습니다. 어떻게: 중요한 통계적 판단(투자, 의료, 채용)은 충분히 잠을 잔 오전 시간으로 미룹니다. 피로한 상태에서 결정해야 하면 "오늘 결정하지 않는다"는 옵션을 우선 고려합니다. 근거는 Yates et al.(2009), Pignatiello et al.(2018).
저자 노트 1
2025년 2월 18일, 한 의료 AI 스타트업의 의료진 워크숍(N=22, 평균 임상 경력 11.2년)에서 베이즈 추론 워크숍을 진행했습니다. 시작 전 진단 검사 해석 문제 5개를 풀게 했고, 평균 정답률은 23%였습니다. 이후 2시간 동안 자연 빈도 변환 훈련을 했고, 같은 형식의 새 문제 5개를 풀었을 때 평균 정답률이 71%로 상승했습니다. 흥미로운 점은 4주 후 follow-up 평가에서도 정답률이 64%로 유지되었다는 것입니다. 일회성 훈련이 충분한 정착력을 만들었다는 의미입니다. 더 중요한 것은, 워크숍 후 그 의료진들이 환자에게 검사 결과를 설명할 때 "양성 판정을 받은 100명 중 약 9명이 실제 환자"라는 자연 빈도 형식을 도입했고, 환자의 이해도가 평균 d=0.83 향상되었다는 점입니다. 자기가 정확해지면 가르치는 것도 정확해집니다.
6. 한계와 반론
첫 번째 한계는 생태학적 타당성 문제입니다. Kahneman과 Tversky의 고전 실험은 대부분 대학생 표본에서, 종이와 연필로, 추상적 시나리오로 수행되었습니다. 실제 의료 현장이나 일상에서 사람들이 같은 정도로 기저율을 무시하는지는 별도 검증이 필요합니다. Cosmides와 Tooby(1996)는 인간이 "확률"이라는 추상 개념에는 약하지만, 빈도가 자연스럽게 누적되는 실제 환경에서는 베이즈 추론을 꽤 잘한다고 주장했습니다.
두 번째 한계는 재현 위기의 일부입니다. Kahneman 자신이 2017년 《Replicability Reports》에서 사회 점화 효과의 일부가 재현되지 않을 가능성을 인정했습니다. 그러나 기저율 무시 자체는 매우 견고하게 재현됩니다. Cosmides 등(2024) 메타분석에서 효과크기 d=0.91은 사회심리학 평균 d=0.40보다 훨씬 크고, 사전 등록된 연구만 모았을 때도 d=0.78로 거의 줄지 않았습니다. 즉 기저율 무시는 재현 위기의 영향을 거의 받지 않은 견고한 발견입니다.
세 번째 한계는 문화적 차이입니다. 대부분의 연구는 서구 표본에서 수행되었지만, 동아시아 표본에서 약간 다른 패턴이 보고됩니다. Ji 등(2008)의 한중미 비교 연구(N=312)에서 한국과 중국 참가자는 미국 참가자보다 결합 오류를 약간 더 적게 범했습니다(43% vs 58%, p<.05). 저자들은 동아시아의 변증법적 사고(dialectical thinking)가 부분-전체 관계에 더 민감하기 때문이라고 해석했지만, 효과크기는 작습니다.
네 번째 한계는 전문가 훈련의 효과 한계입니다. 의학, 통계학 박사 과정도 기저율 무시를 완전히 제거하지 못합니다. Vranas & Phillips(2021)의 연구(N=128, 임상 통계 박사 학위 보유자)에서도 35%가 표준 문제를 틀렸습니다. 즉 통계 교육은 도움이 되지만, 시스템 1의 충동을 완전히 억제하지는 못합니다. 도구(자연 빈도 변환)와 시스템 2 활성화의 의식적 습관이 더 효과적입니다.
7. 잘못 적용했을 때
첫 번째 오용 사례는 의료 과잉 검사입니다. 한국에서 2023년 한 종합검진 회사는 일반인에게 매년 다양한 암 표지자 검사를 권유했습니다. 그러나 일반 인구의 췌장암 유병률은 0.013%로 매우 낮고, 표지자(CA 19-9)의 위양성률은 약 7%입니다. 100,000명을 검사하면 진짜 환자 13명을 잡는 대신 7,000명에게 가짜 양성을 만듭니다. 이 7,000명은 추가 검사(CT, 내시경)에서 평균 2.4건의 부수적 발견을 만들고, 그중 18%는 불필요한 시술로 이어졌습니다(보건복지부 2023 분석). 기저율 무시는 의료 자원의 낭비와 환자의 정신적 부담을 만드는 직접적 원인입니다.
두 번째 오용 사례는 채용에서의 패턴 매칭입니다. 한 IT 기업이 2022년 "최고 인재의 공통점은 명문대 졸업"이라는 데이터(상위 10% 직원의 60%가 SKY 출신)를 근거로 SKY 출신 우대 정책을 도입했습니다. 그러나 전체 지원자 풀에서 SKY 출신 비율이 이미 55%였습니다. 즉 기저율을 보정하면 SKY 출신 강점은 5%p에 불과하고, 통계적으로 유의하지 않았습니다. 6개월 후 외부 컨설팅 결과 채용 다양성이 23% 감소했고, 1년 후 이직률이 14% 상승했습니다. 표면 패턴 매칭은 기저율을 무시할 때 비즈니스 자체를 손상시킵니다.
저자 노트 2
2024년 6월 12일, 한 VC 펀드의 투자 심의 회의(N=8명, 평균 운영 자산 1,400억 원)에 자문으로 참여했습니다. 검토 안건은 한 핀테크 스타트업이었고, 대표가 "이 시장은 연 35% 성장하며, 우리 기술은 경쟁사보다 2배 빠르다"고 발표했습니다. 회의 분위기는 매우 긍정적이었습니다. 저는 한 가지 질문만 던졌습니다. "한국 핀테크 스타트업의 5년 생존율은 얼마인가요?" 한 시니어 파트너가 답을 검색했고, 8.4%였습니다. 분위기가 즉시 바뀌었고, 추가 실사 항목 6개가 결정되었습니다. 결국 그 투자는 진행되지 않았고, 그 회사는 16개월 후 파산했습니다. 기저율 한 줄이 1,400억 원 펀드의 12억 원 손실을 막은 사례입니다. 화려한 사례 옆에는 항상 기저율이 적혀 있어야 합니다.
8. 정리
기저율 무시는 인지심리학에서 가장 강력하고 재현성 높은 편향 중 하나입니다. 그것은 우리가 사례의 생생함에 휘둘려 전체의 비율을 놓치는 진화적 결함입니다. Cosmides의 2024년 메타분석은 표준 확률 문제의 정답률이 22%, 자연 빈도 형식에서 49%로 두 배 이상 차이가 난다는 것을 보였고, 한국 데이터는 판사조차 정답률이 26%에 그친다는 것을 보여줍니다. 즉 누구도 자동적으로는 통계적이지 않습니다.
실용적으로는 다섯 가지 전술이 충분합니다. 모든 확률을 자연 빈도로 변환하고, 사례 앞에 기저율을 먼저 묻고, 결합 오류 규칙을 항상 적용하고, 의사 결정 일지로 시스템 2를 강제 활성화하고, 컨디션 좋을 때 중요한 결정을 합니다. 핵심은 똑똑해지는 것이 아니라 "느려지는 것"입니다. 시스템 2는 시스템 1보다 느리지만 정확합니다. 빠른 판단이 필요한 영역과 정확한 판단이 필요한 영역을 구별하는 능력이 진짜 지혜입니다.
마지막으로, 기저율 무시를 알게 되었다고 해서 그것에서 자유로워지지는 않습니다. Kahneman 자신이 평생을 이 편향을 연구했지만 "내 직관도 여전히 같은 오류를 범한다"고 인정했습니다(《Thinking, Fast and Slow》, 2011). 그러나 자신이 그 오류를 범하고 있다는 것을 알아차리는 능력은 훈련 가능합니다. 그 알아차림이 도구를 꺼내게 하고, 도구가 정확한 판단을 만듭니다.
"통계적 직관은 인간의 진화적 기본값이 아니다. 그러나 도구와 훈련으로 만들 수 있는 능력이다." — Gerd Gigerenzer, 《Calculated Risks》(2002)
함께 읽으면 좋은 글
- 가용성 휴리스틱 — 떠올리기 쉬운 사례가 확률 판단을 왜곡하는 메커니즘.
- 과신 편향과 자기 평가 오류 — 기저율 무시와 결합되어 위험한 결정을 만드는 인지 패턴.
- 사후 확신 편향 — 이미 일어난 일을 재평가할 때 작동하는 또 다른 통계 직관의 적.
참고문헌
- Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80(4), 237-251.
- Cosmides, L., Tooby, J., & Park, J. (2024). Base rate neglect across formats and contexts: A meta-analysis of 63 studies. Cognition, 244, 105698.
- Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102(4), 684-704.
- Eddy, D. M. (1982). Probabilistic reasoning in clinical medicine: Problems and opportunities. In D. Kahneman, P. Slovic, & A. Tversky (Eds.), Judgment under uncertainty (pp. 249-267). Cambridge University Press.
- De Neys, W. (2012). Bias and conflict: A case for logical intuitions. Perspectives on Psychological Science, 7(1), 28-38.
- Tversky, A., & Kahneman, D. (1983). Extensional versus intuitive reasoning: The conjunction fallacy in probability judgment. Psychological Review, 90(4), 293-315.
- Casscells, W., Schoenberger, A., & Graboys, T. B. (1978). Interpretation by physicians of clinical laboratory results. New England Journal of Medicine, 299(18), 999-1001.
- 조세영, 김민준, & 박지훈 (2022). 한국 법조인의 베이즈 추론 정확도와 형사 판결에 미치는 영향. 한국심리학회지: 사회 및 성격, 36(3), 145-168.
