[서평] 다크 데이터

『다크 데이터』는 우리가 의사결정에 활용하는 데이터가 결코 완전하지 않으며, 보이지 않는 데이터가 오히려 판단을 더 크게 왜곡할 수 있음을 보여주는 책이다. 저자는 데이터 분석의 가장 큰 위험이 계산 오류가 아니라, 애초에 관측되지 않았거나 제외된 정보에서 비롯된다고 말한다. 데이터는 객관적 사실처럼 보이지만, 무엇을 수집했고 무엇을 놓쳤는지에 따라 전혀 다른 결론에 도달할 수 있으며, 이 ‘빠진 정보’가 바로 다크 데이터라고 정의한다.

책은 데이터 수집 방식 자체가 이미 결과에 영향을 미친다는 점을 강조한다. 전체 수집, 표본 조사, 실험 데이터 등 다양한 수집 방식은 각각 다른 한계를 지니며, 관찰 사실만으로도 사람들의 행동이 달라지는 호손 효과는 데이터가 결코 중립적일 수 없음을 보여준다. 또한 데이터 분석의 모든 단계—질문 설정, 수집 전략, 해석—가 인간의 판단에 의존한다는 점에서, 데이터 오류의 상당 부분은 숫자가 아니라 사람의 인지 편향에서 발생한다고 지적한다.

이어서 저자는 가용성 편향, 확증 편향, 부정 편향, 편승 효과 등 다양한 인지 편향이 어떻게 데이터 해석을 왜곡하는지 설명한다. 특히 중도 하차자나 누락 데이터처럼 눈에 띄지 않는 정보가 결과를 과대평가하거나 잘못된 인사이트로 이끄는 과정을 구체적인 사례로 보여준다. 누락 데이터의 유형(UDD, SDD, NDD)을 구분하고, 단순 제거가 아닌 누락의 이유를 분석하는 태도가 얼마나 중요한지를 강조한다.

마지막으로 『다크 데이터』는 불완전한 데이터를 다루는 현실적인 전략들을 제시한다. 대치법, 시뮬레이션, 무작위 대조군 시험처럼 데이터를 숨기거나 인위적으로 보완하는 방법이 오히려 편향을 줄이는 도구가 될 수 있음을 설명하며, 데이터 분석의 핵심은 완벽한 숫자를 만드는 것이 아니라 무엇이 보이지 않는지를 끊임없이 질문하는 사고방식이라고 말한다. 이 책은 데이터를 맹신하기보다 의심하고 해석하는 태도가 더 나은 의사결정으로 이어진다는 점을 분명히 보여준다.

📌

전공 관련 도서일 경우, 내용 정리하기

1️⃣ 핵심 메시지

데이터는 항상 불완전하며, 보이지 않는 데이터(다크 데이터)가 존재함

데이터 분석의 위험은 숫자 그 자체가 아니라 누락된 정보로 인한 오해

올바른 의사결정을 위해서는

→ 무엇이 빠져 있는지 끊임없이 의심하는 태도가 필요

💡

데이터는 사실을 그대로 보여주지 않는다. 보이지 않는 데이터까지 고려할 때 비로소 ‘현실’에 가까워진다

2️⃣ 다크 데이터(Dark Data)란?

관측되지 않았거나, 수집되지 않았거나, 의도적으로 숨겨진 데이터

데이터 분석 과정에서 존재를 인식하지 못한 채 빠지는 정보

다크 데이터는:

잘못된 결론
왜곡된 인사이트
나쁜 의사결정을 초래할 수 있음

3️⃣ 데이터 수집 3가지 방식

전체 수집

모든 대상에 대한 데이터 수집

부분 수집(표본 조사)

모집단 일부만 관찰

예: 특정 시간대 방문 고객만 분석

조건 변경(실험 데이터)

조건을 바꿔 결과 변화를 관찰

예: 물 온도 변화에 따른 차 맛 비교

4️⃣ 관찰이 행동을 바꾸는 현상: 호손 효과

호손 효과(Hawthorne Effect)

: 사람들이 자신이 관찰당하고 있다는 사실을 인지하면, 평소와 다른 행동을 보이는 경향

데이터 수집에서의 문제점

데이터는 객관적으로 수집되는 것처럼 보이지만
실제로는 관찰 상황 자체가 행동을 왜곡
→ 결과적으로 자연스러운 행동 데이터가 아님

💡

데이터는 중립적이지 않고, 관찰 조건 자체가 이미 결과에 영향을 미친다

5️⃣ 데이터 판단의 주체는 인간이다

데이터 활용 과정의 현실

데이터 수집 전략 수립
수집된 데이터 분석
분석 결과의 의미 결정

→ 모든 단계는 인간의 판단에 의해 이루어짐

문제의 본질

인간은 합리적으로 판단한다고 믿지만 실제로는 무의식적인 편향에 매우 취약
증거를 균형 있게 해석하지 못하고 가장 합리적인 경로에서 쉽게 이탈

6️⃣ 판단을 왜곡하는 대표적 인지 편향들

가용성 편향 (Availability Bias)

최근에 접했거나 인상 깊은 사건을 실제보다 더 자주 발생한다고 판단
예시 : 비행기 사고 뉴스를 접한 후, 비행기 사고 확률이 실제보다 높다고 느끼는 경우

확증 편향 (Confirmation Bias)

자신의 기존 신념을 지지하는 정보만 선택적으로 수용
예시 : 특정 브랜드가 나쁘다고 생각한 뒤, 부정적인 리뷰만 찾아보는 행동

부정 편향 (Negativity Bias)

긍정적인 사건보다 부정적인 사건을 더 강하게 기억하고 평가
예시 : 열 번의 칭찬보다 한 번의 비판이 더 오래 기억에 남는 경우

묵인 편향 (Acquiescence Bias)

응답자가 질문자나 조사자의 의도를 추측해 듣기 원하는 방향으로 응답
예시 : 설문조사에서 실제 생각과 달리 “대체로 만족한다”고 답하는 경우

편승 효과 (Bandwagon Effect)

다수의 선택이나 의견을 옳은 판단이라고 여기고 따라가는 경향
예시 : 유행하는 서비스나 상품을 이유 없이 신뢰하게 되는 현상

믿음 편향 (Belief Bias)

논리적 타당성보다 개인의 신념이나 믿음에 따라 결론을 판단
예시 : 논리가 맞아도 기존 신념과 충돌하면 받아들이지 않는 경우

기괴함 효과 (Bizarreness Effect)

평범한 정보보다 이상하고 자극적인 정보가 더 잘 기억되는 현상
예시 : 데이터 전체 흐름보다 특이한 한 사례만 강하게 기억하는 경우

💡

데이터 오류의 상당수는 데이터 자체가 아니라 인간의 해석 과정에서 발생

7️⃣ 정확한 분석을 위한 핵심 질문

우리는 무엇을 알고 싶은가?

이 질문에서 빠져 있는 데이터는 무엇인가?

지금 보고 있는 데이터가

전체를 대표하는가?

특정 조건에 의해 선택된 결과는 아닌가?

💡

다크 데이터 여부는 데이터가 아니라 ‘질문이 무엇이냐’에 따라 결정

8️⃣ 숫자를 다룰 때 생기는 다크 데이터

반올림·반내림 과정에서 정보 손실 발생

특히 사람이 직접 측정할 경우 위험

요약은 필연적으로 다크 데이터를 생성

→ 하나의 평균값보다 여러 요약 통계와 분포를 함께 보는 것이 중요

9️⃣ 다크 데이터가 생기는 이유

정의가 모호함

중요한 변수 누락

측정 과정의 무작위성

도구의 한계

데이터 뭉뚱그리기

입력 실수(뚱뚱한 손가락 오류)

🔟 전체 데이터를 수집하려는 전략에 실패했다면?

📌

관측 데이터를 빠진 데이터와 연결하기

데이터 분석에서는 보이는 데이터보다 보이지 않는 데이터(누락 데이터) 가 더 중요한 경우가 많음

특히 중도 하차한 사람들의 데이터는 결과 해석에 치명적인 왜곡을 만들 수 있음

따라서 단순히 제거하는 것이 아니라, 왜 누락되었는지를 함께 분석해야 함

1️⃣1️⃣ 중도 하차한 사람들의 데이터를 무시하면 안 되는 이유

무시할 수 없게 누락된 상황 (UDD)

데이터가 누락될 확률이, 누락되지 않았다면 관측되었을 값과 직접적으로 관련된 경우
가장 위험한 누락 형태
예시 :

식단 규칙을 지키지 못해 큰 좌절을 느끼고 하차한 경우
체중 감소가 거의 없거나 오히려 증가했을 가능성이 높음

→ 이 데이터를 제외하면 효과가 과대평가됨

무작위로 누락된 상황 (SDD)

누락이 결과값 자체보다는 다른 관측 가능한 변수와 관련된 경우
예시 :

처음부터 심한 과체중이 아니어서 체중 변화가 크지 않자 의욕을 잃고 하차

→ 보정은 가능하지만, 누락 원인에 대한 이해가 필요

완전히 무작위로 누락된 상황 (NDD)

누락이 결과나 다른 변수와 아무 관련이 없는 경우
예시 :

체중 감소와 무관하게 직장이 바빠져 프로그램을 중단

→ 분석에 미치는 영향이 비교적 적음

1️⃣2️⃣ 누락 데이터 대응 전략

완전 사례 분석

모든 값이 있는 데이터만 사용
표본 감소 → 왜곡 위험

이용 가능한 모든 데이터 사용

극단값 누락 시 평균 왜곡 가능

빠진 값 패턴 분석

어떤 변수들이 함께 빠졌는지 분석

1️⃣3️⃣ 불완전한 데이터 보완

📌

대치법(Imputation) : 빠진 값을 적절한 값으로 대체하여 데이터셋을 완성하는 방법

평균 대치법 (Mean Imputation)

빠진 값을 관측된 값들의 평균으로 대체

장점 :

계산이 간단하고 빠름

한계 :

빠진 값이 극단값일 가능성이 높을수록 부적절
실제로 빠진 값들이 모두 동일했을 가능성은 매우 낮음
분산을 인위적으로 줄여 데이터를 지나치게 평평하게 만듦

최종 측정치 이월 (Last Observation Carried Forward, LOCF)

빠진 값을 이전 기록 중 가장 최근 값으로 대체

특징 :

주로 시계열·패널 데이터에서 사용

한계 :

값이 시간에 따라 변하는 경우 현실을 왜곡할 수 있음

다른 변수를 이용한 예측

빠진 값과 다른 변수들 간의 관계를 모형화해 값을 예측

방법 :

회귀 모델, 머신러닝 등 활용

특징 :

SDD(체계적으로 누락된 데이터) 에서는 비교적 효과적
UDD(무작위로 누락된 데이터) 에서는 적용이 곤란

예측의 근거가 부족하기 때문

핫데크 대치법 (Hot-deck Imputation)

빠진 값이 없는 다른 기록 중 가장 유사한 사례를 찾아 그 값을 대신 사용

특징 :

실제 관측값을 사용하므로 직관적
설문·사회과학 데이터에서 자주 사용

한계 :

‘유사성’ 정의가 분석 결과에 큰 영향

다중 대치법 (Multiple Imputation)

서로 다른 대치값을 사용해 대치를 여러 번 반복

방법 :

각 완성된 데이터셋에 대해 분석을 수행한 뒤 요약 통계값들의 분포로 최종 추정

장점 :

불확실성을 반영할 수 있어 가장 이론적으로 견고

단점 :

계산 복잡도 높음

💡

대치는 해결책이 아니라 가설을 전제로 한 임시 보완책

1️⃣4️⃣ 빠진 값 유형에 따른 상황

NDD (완전히 무작위로 누락)

누락이 데이터 값과 무관

비교적 단순한 대치법도 큰 문제 없이 사용 가능

SDD (체계적으로 누락)

누락이 관측 가능한 데이터 패턴과 관련

대치 전략 :

관측된 데이터의 구조와 분포를 반영하도록 설계해야 함
다른 변수 기반 예측, 다중 대치법이 유리

UDD (무시할 수 없게 누락)

누락 여부가 실제 값 자체와 강하게 연관

특징 :

관측된 데이터만으로는 대치값에 대한 정보가 거의 없음

주의 :

단순 대치 적용 시 심각한 왜곡 발생
누락 메커니즘 자체를 분석 대상으로 삼아야 함

1️⃣5️⃣ 데이터를 숨기는 것이 이득이 될 때

무작위 대조군 시험 (Randomized Controlled Trial, RCT)

데이터를 의도적으로 가려 편향을 제거하는 실험 설계

목적 :

새로운 치료법이 기존 표준 치료보다 실제로 효과가 있는지 검증

핵심 원칙 :

실험 과정에서 누가 어떤 처치를 받았는지 숨김

예시 :

두 가지 약을 비교할 때

의사와 환자 모두 어떤 약이 어떤 코드인지 모르게 함
각 환자에게는 코드만 부여
코드의 의미는 시험 종료 및 데이터 분석 이후에 공개

의미 :

기대·선호·선입견이 결과에 개입하는 것을 차단
데이터의 객관성과 신뢰도 극대화

시뮬레이션 (Simulation)

실제로 발생하지 않았지만, 발생할 수 있는 데이터를 생성

정의 :

현실을 모사한 인위적 데이터 환경

예시 :

비행 시뮬레이터

조종사가 극단적·예기치 못한 상황을 경험
실제 사고 위험 없이 반복 훈련 가능

특징 :

현실 세계에서 관측하기 어렵거나 위험한 상황을 다룸

의미 :

관측 데이터의 한계를 보완
“일어났을 수도 있는 일”에 대한 분석 가능

전략적으로 복제된 데이터

예측 정확도를 높이기 위해 데이터를 의도적으로 늘리는 방법

목적 :

특정 조건(예: 나이 26세)에 대한 예측 정밀도 향상

방법 :

기존 표본 데이터를 무작위로 복제해 새로운 데이터 세트 생성
관심 대상과 가까운 값일수록 더 많이 복제

26세에 가까운 데이터 → 많이
26세와 먼 데이터 → 적게

의미 :

실제 데이터 분포를 왜곡하지 않으면서
분석 대상에 가중치를 부여하는 효과

주의 :

무작위성이 유지되지 않으면 새로운 편향을 만들 수 있음

1️⃣6️⃣ 다크 데이터(DD) 유형

DD 유형 1 : 빠져 있는지 우리가 아는 데이터

DD 유형 2 : 빠져 있는지 우리가 모르는 데이터

DD 유형 3 : 일부 사례만 선택하기

DD 유형 4 : 자기 선택

DD 유형 5 : 중요한 것이 빠짐

DD 유형 6 : 존재했을 수도 있는 데이터

DD 유형 7 : 시간에 따라 변하는 데이터

DD 유형 8 : 데이터의 정의

DD 유형 9 : 데이터의 요약

DD 유형 10 : 측정 오차 및 불확실성

DD 유형 11 : 피드백과 게이밍

DD 유형 12 : 정보 비대칭

DD 유형 13 : 의도적인 다크 데이터

DD 유형 14 : 조작된 합성 데이터

DD 유형 15 : 데이터 넘어로 외삽하기

💡

다크 데이터는 항상 존재할 수 있다. 데이터는 기본적으로 불완전하다고 가정해야 한다. 정확하다고 증명되기 전까지 의심하고, 질문하고, 해석해야 한다.

[SQL] Programmers_SELECT. 특정 세대의 대장균 찾기 [BAKJOON] #1446. 지름길 (최단 경로)

Chang Hyewon