데이터 문해력, 데이터로 읽고 쓰기

《데이터 분석가의 숫자유감》 중
골든래빗 출판사
권정민, 만화주형


현대 사회에서 데이터 기반으로 무언가를 하는 것은 너무나도 자연스러운 일이 되었다. 문제를 해결할 때 근거 자료로 데이터를 가지고 와서 이를 기반으로 결론을 내린다. 신문 기사에서도 여러 통계 수치가 빈번하게 등장한다. 조금 과장하자면, 바야흐로 ‘데이터 시대’가 도래한 것인지도 모른다.
하지만 데이터를 가져다 쓰기만 하면 다일까? 그럴 리 없다. 혹자는 데이터로 사기를 치고, 혹자는 데이터로 약을 팔며, 혹자는 데이터로 아무 말을 한다. 이렇게 나온 결과는 실제와 다르거나, 쓰지 않느니만 못하기도 하다. 그리고 현실에는 제대로 된 데이터 기반의 이야기 외에도 협잡과 사기와 아무 말이 마구잡이로 뒤엉켜 있고, 우리는 그 안에서 길을 잃고 만다. 그래서 데이터를 잘 활용하는 것만큼이나 현대 사회에서 필요한 능력은 가짜 데이터 결과를 걸러내고, ‘진짜 데이터’와 ‘가짜 데이터’를 분별해서, 적절한 의제에 적절한 데이터를 근거로 활용하도록 하는 능력이다. 우리는 이를 ‘데이터 문해력’이라고 부른다.
‘데이터 문해력’은 일반적인 문해력처럼, 데이터를 사용해서 ‘읽고 쓰고 말하고 듣는’ 능력을 뜻한다. 하지만 우리가 정규 교육 과정에서 외국어를 배울 때 ‘듣기’와 ‘읽기’ 능력을 위주로 배우는 것처럼, 데이터를 직접적으로 사용하지 않는 경우 우리가 습득할 수 있는 ‘데이터 문해력’이란 데이터를 ‘읽고 듣는’ 능력에 주로 치중되어 있다.
데이터를 ‘읽고 듣는다’는 것은 어떤 것일까? 무언가 있어 보이는 것처럼 들리지만, 사실 그다지 새삼스러운 것이 없다. 우리가 SNS를 읽고 방송을 듣는 것처럼, 데이터로 읽고 듣는 것도 신문 기사를 읽거나 회사에서 보고서를 살펴볼 때 늘 하는 작업이다.
다만 우리의 언어 사용이 늘 항상 옳을 수 없고, 각자의 이해와 해석이 필요한 것처럼, 누군가가 데이터를 ‘말하고’, ‘쓴’ 것 역시 이해와 해석과 활용이 필요하다. ‘데이터는 진실만을 말한다’라고 쉽게 들 생각해서 데이터 사용이 오늘날 널리 퍼졌지만, 우리는 이런 명제와 함께 디즈레일리가 말했다고 전해지는 “세상에는 세 가지 종류의 거짓말이 있다. 거짓말과 새빨간 거짓말, 그리고 통계다”라는 문장도 같이 기억해둘 필요가 있다. 데이터를 분석한다는 것은 결국 수를 처리한다는 것이다. 사람들은 숫자에 대해 낭만적 경외감을 가지고 있어, 일단 숫자만 들이 대면 더 이상 이를‘이해하고 해석하려고’ 하지 않는다. 그렇게 사람들은 통계의 거짓말에 속아 넘어간다.
데이터를 ‘읽고 듣는다’는 것은 어떤 것일까? 무언가 있어 보이는 것처럼 들리지만, 사실 그다지 새삼스러운 것이 없다. 우리가 SNS를 읽고 방송을 듣는 것처럼, 데이터로 읽고 듣는 것도 신문 기사를 읽거나 회사에서 보고서를 살펴볼 때 늘 하는 작업이다.
하지만 이는 아직 데이터로 읽고 듣기에 익숙하지 않아서일 뿐, ‘숫자를 이해’하는 작업은 그다지 어렵지 않다. 한국인의 대부분은 정규 교육 과정을 어느 정도 이수했으며, 사실 그 정도면 숫자로 나타난 데이터를 잘 받아들이는 데 차고 넘친다. 우리가 모든 데이터 분석 결과를 정밀하게 검사할 필요도 없으며, 그냥 이 자료를 의심해야 하는지만 판단하는 걸로 우선은 충분하다. 나머지 부분은 데이터로 쉽게 ‘말하고’, ‘쓰는’ 전문가가 도울 것이다.
· · ·
01 데이터의 출처와 목적을 우선 파악해야 한다.
그러면 애초에 이 주제에 이 데이터가 말이 되는 것인지를 판별할 수 있다. 우리는 ‘조사/분석 결과에 따르면’이라는 마법의 앞머리만 보면 맞겠거니 하고 후다닥 넘겨버리기 일쑤지만, 그 조사가 알고 보니 한 개인이 자신의 친지 10명에게 물어본 결과일 수도 있다.
02 데이터에서 누락된 부분은 없는지도 확인한다.
통계 자료만 받아들면 잘 이해하기 힘들 수 있다. 하지만 이는 의외로 본능적으로 일어나는 질문이기도 하다. ‘이 책의 주요 구매자는 40대 남성입니다’라고 했을 때, 그러면 다른 인구통계집단은 어떨까, 하는 생각이 드는 것이다. 알고 보면 40대 남성이 40%를 차지하고 30대 여성이 39.7%를 차지해서, 사실 큰 의미가 없는 경우도 비일비재하다.
03 글에 숫자가 들어가면 맞는 말이라고 생각해버리기 쉬운데, 그렇지 않은 경우도 비일비재하다.
그래서 숫자와 상관없이 그 논리에 허점이 없는지를 확인하는 것도 중요하다. ‘백신 접종자 중 다음 날 아픈 사람이 5%다’라고 해서, 백신으로 인해 5%의 환자가 아플 거라고 할 수는 없다. 하지만 사람들은 의도적으로 혹은 의도치 않게 논리를 비틀어서 자신이 원하는 곳에 원하는 데이터를 꽂아 넣고는 한다.
· · ·
데이터로 명확한 현재를 말하고 미래를 확신하기란 어렵다. 데이터 분석은 결국 확률과 통계고, 과거의 사건들이다. 물론 과거의 흔적으로 현재를 이해하고 미래를 바라보는 것이 데이터 분석의 목적이지만, 그렇다고 해도 확률과 신뢰의 문제에서 현재나 미래를 100%로 단언하는 것은 매우 어려운 일이다. 확률은 명확하지 않은 신뢰구간과 함께 오고, 확신이란 정말로 낮은 확률에서나 가능한 이야기며, ‘높은 확률로’ 말할 수 있는 것도 있지만 그렇지 않은 것도 부지기수다.
데이터를 사용하면 언제나 명확하고 반짝이는 현재와 미래를 쉽게 볼 수 있을 것이라고 믿어서 데이터 산업이 지금껏 발전했는지도 모른다. 하지만 미래는 늘 유동적이며 불확실하고, 현재마저도 예외 사항으로 가득하다. 데이터로 말하는 것은, 어쩌면 무언가를 확신하는 말을 아끼게 되는 것 인지도 모른다.
그럼에도 우리는 데이터를 사용한다. 데이터가 완전히 확실한 답을 알려 줄 수는 없고, 이를 잘못 사용하는 사람이 많아서 혼란스러울 수 있지만, 그렇다고 데이터가 없던 시절로 다시는 돌아갈 수 없다. 아주 조금만 더 신경을 쓴다면 우리는 데이터를 더 쉽게 사용할 수 있고, ‘이 내용은 이런 이유로 이 정도 수준으로 확신할 수 없습니다’라고 확실하게 이야기할 수 있다.
과거에는 좁고 한정된 감각으로 세상을 파악하고 이해했다면, 이제는 데이터를 제대로 읽고 씀으로써 보지 못하고 닿지 않는 것들까지 이해하고, 감각으로만 만들어진 좁은 사고를 더 단단하고 넓게 확장할 수 있게 되었다. 부디, 이 근사한 도구를 모두가 잘 사용할 수 있게 되기를.

WRITER

권정민

세상은 데이터로 이뤄져 있다고 생각하며, 데이터를 잘 활용하고자 하는 목표를 가지고 다양한 데이터 분석 및 활용 방안을 만들고 연구하는 것을 업으로 하고 있다. 카이스트 및 포항공과대학교에서 산업공학과 전산학을 전공했으며, 다양한 산업군에서 데이터 분석을 수행하고 있다. 《빅데이터 분석 도구 R 프로그래밍》, 《The R Book(Second Edition) 한국어판》, 《딥러닝과 바둑》을 번역하고, 《딥러닝 레볼루션》과 《인터넷, 알고는 사용하니?》를 감수했다.

Leave a Reply

©2020 GoldenRabbit. All rights reserved.
서울시 마포구 신촌로2길 19 302호 (우)04051
master@goldenrabbit.co.kr
개인정보처리방침