기저율 오류가 흔드는 판단력, 99% 정확한 검사가 틀리는 비밀

99% 정확한 혈액 검사에서 양성이 나왔습니다. 당신이 실제로 그 병에 걸렸을 확률은 얼마일까요.

“99% 아닌가요?”라고 생각하셨다면, 지금부터가 흥미로운 지점입니다. 실제 확률은 9%입니다. 어떻게 이런 일이 가능한지, 뇌과학과 행동경제학이 설명하는 기저율 오류(base rate fallacy) 이야기입니다.

스티브는 도서관 사서일까, 농부일까

심리학자 대니얼 카너먼이 『생각에 관한 생각』에서 소개한 실험입니다.

이웃이 스티브를 이렇게 묘사했습니다. “매우 수줍고 내성적이며, 세심하고 질서를 좋아하는 사람.” 이 설명만 보면 스티브는 도서관 사서처럼 느껴집니다. 실험에서도 대부분 그렇게 답했습니다.

그런데 중요한 정보가 하나 빠졌습니다. 미국에서 농부는 사서보다 11배 이상 많습니다. 이 비율을 감안하면, 꼼꼼하고 조용한 농부도 통계적으로 꽤 많을 수밖에 없습니다.

우리는 눈앞의 구체적 정보(스티브의 성격)에 집중한 나머지, 집단의 실제 규모라는 훨씬 중요한 정보를 무시해버렸습니다. 이게 바로 기저율 오류입니다. 개인의 특성에 집중하느라 집단 전체의 확률 기반, 즉 기저율(base rate)을 놓치는 것이지요.

(스티브가 천문학을 좋아한다면? 은행원과 우주비행사 중 누가 더 많을지 생각해보시면 금방 명확해집니다.)

99%가 어떻게 9%가 되나

다시 처음의 혈액 검사로 돌아갑니다.

조건은 이렇습니다. 해당 질환은 1,000명 중 1명에게 발병합니다. 검사 정확도는 매우 높아서 환자에게는 반드시 양성이 나옵니다. 건강한 사람에게는 99% 확률로 음성이 나옵니다.

1,000명을 무작위로 검사하면 어떻게 될까요. 실제 환자 1명이 진짜 양성을 받습니다. 나머지 999명은 건강한데, 이 중 1%인 약 10명이 거짓 양성(false positive)을 받습니다. 결국 양성 결과를 받는 사람은 총 11명. 이 중 실제 환자는 딱 1명입니다.

1/11. 약 9%입니다.

1,000명 검사 중 거짓 양성 시각화 — 진짜 양성 1명, 거짓 양성 10명, 음성 989명

이미지 출처: Scientific American

거짓 양성 역설(false positive paradox)은 바로 여기서 발생합니다. 검사의 정확도와 ‘양성이 실제 병일 확률’은 완전히 다른 이야기입니다. 기저율이 낮으면, 검사가 아무리 정확해도 거짓 양성이 진짜 양성보다 훨씬 많아집니다. 희귀 질환일수록 대규모 무작위 검진이 역효과를 낼 수 있는 이유도 여기 있습니다.

2,470건 알람 중 2,297건이 오경보였다

이 오류는 현실에서 생각보다 훨씬 자주 등장합니다.

2017년 UEFA 챔피언스리그 결승전. 웨일스 경찰은 카디프 시내에 안면인식 카메라를 배치했습니다. 17만 명의 얼굴을 스캔해 수배자를 걸러내겠다는 계획이었습니다. 시스템이 2,470명을 잠재적 범죄자로 플래그했는데, 이 중 2,297건이 거짓 양성이었습니다. 소프트웨어가 고장난 게 아닙니다. 관중 사이에서 실제 수배자의 기저율이 극히 낮기 때문에 생긴 결과입니다.

보안 전문가 브루스 슈나이어도 같은 이유에서 테러 방지 데이터마이닝을 오래전부터 비판해왔습니다. 전 국민의 통화 기록과 위치 데이터를 분석해도, 테러리스트의 기저율이 극히 낮은 이상 진짜 위협 1건에 수천만 건의 오경보가 따라옵니다. 정확한 도구도 맥락 없이 사용하면 노이즈를 쌓는 일이 됩니다.

기저율을 먼저 따지는 습관

그렇다면 어떻게 해야 할까요.

판단 전에 먼저 통계 집단을 확인해야 합니다. 내가 어떤 집단 안에 있는지가 기저율을 결정하고, 기저율이 결과의 의미를 결정합니다.

의사가 검사를 지시할 때는 보통 이유가 있습니다. 특정 증상, 가족력, 위험 요인이 있는 환자는 일반 대중과 다른 통계 집단입니다. 그 집단에서는 해당 질환의 기저율이 훨씬 높습니다. 같은 양성 결과라도, 이유 없이 무작위로 받은 검사보다 훨씬 진지하게 받아들여야 합니다. 검사 결과가 아니라 검사를 받은 맥락이 핵심입니다.

뉴스를 읽을 때도 마찬가지입니다. “A 행동을 하는 사람에게 B 특성이 나타났다”는 기사를 보면, A 행동을 하지 않는 사람들 중 B 특성이 나타나는 비율을 먼저 따져봐야 합니다. 기저율 없이 제시되는 데이터는 절반도 말하지 않는 셈입니다.

결론은 이겁니다. 가장 중요한 질문은 “이 검사가 얼마나 정확한가”가 아니라 “내가 어떤 집단에서 이 검사를 받았는가”입니다. 검사의 정확도는 그 맥락과 분리해서 말할 수 없습니다.

뭐, 대부분의 통계 공포는 맥락 없이 제시된 숫자에서 시작되더군요. 기저율 하나를 따지는 습관이, 생각보다 많은 오판을 막아줍니다.

김노마

🧠 뇌과학자. 습관연구가.
뇌과학과 행동경제학을 연구한다. 책을 좋아하고 새로운 것을 배우는 것을 즐긴다. 자기계발과 라이프해킹 관련 글을 쓴다.

댓글 남기기

※ 본 글에 사용한 모든 이미지는 별도 표시가 없으면 Freepik에서 가져온 이미지입니다.