[데이터 분석가의 숫자유감] 2화 숫자의 불확실성 : 큰 수를 더 크다고 말하지 못하고

데이터 분석가의 숫자유감
골든래빗 출판사
권정민 만화 주형


· · ·
숫자의 큰 역할 중 하나는 정량적인 비교다. 우리는 숫자의 변화를 통해 시간의 흐름을 알고, 통장의 숫자가 0에서 갑자기 확 늘어나면 월급이 들어왔는지를 알 수 있다. 회사도 마찬가지다. 숫자의 변화로 회원 수 증가를 알고, 수익이 늘어난 정도를 확인한다. 이제는 데이터 관련한 기술의 발달로, 사용자가 특정 페이지에 얼마나 들어갔는지, 게임의 어느 퀘스트에서 사용자가 많이 이탈하는지 같이 세세한 것까지 수치화해서 확인할 수 있다. 요즘 많이 사용되는 ‘데이터 기반 의사 결정’이라는 말은 이렇게 수치화된 데이터를 기반으로 판단해 다음 행보를 결정하는 것이고, 결국 전후, 혹은 다양한 상황에서 얻은 데이터를 정량적으로 비교함으로써 이루어진다.
숫자 자체의 변화는 중요하고, 숫자 변화를 기반으로 한 판단은 명확한듯 보인다. 기술의 발달로 다양한 움직임을 세밀하게 측정하기 좋아졌고, 이를 활용하는 여러 방법도 고안되었다. A/B 테스트처럼 동 시간에 사용자를 나눠서 반응을 살펴보는 등의 다양한 실제 실험도 널리 사용되고 있다. 많은 기업에서 A/B 테스트를 활용해 서비스를 개선하고, 더 나은 이벤트 효과를 노린다. 간혹 옆 사람과 SNS 버튼이 다르고, 본인에게만 특정 쿠폰이 발급되는 경험을 해보았을 것이다. 이런 것이 A/B 테스트다. 그리고 우리가 의아해하며 사용한 내용은 데이터화되어, 데이터 분석가와 현업 부서 사람이 어느 쪽을 선택할지 비교하는 데 참고자료로 사용된다.
하지만 이렇게 직접적이고 단순한 숫자 비교에는 여러 딜레마가 있다. 세상은 가변적이고, 크게 봤을 때는 동일한 것도 나눠서 보면 다르기도 하다. 1년에 36일 비가 오는 곳이라고 하더라도 매달 세 번 비가 내리지는 않는다. 어떤 달에는 6일 비가 오기도 하고, 어떤 달에는 안 올 수도 있다. 데이터 분석가는 이런 상황을 보고 어떤 달에 비가 몇 번 올 것인지를 말할 때, ‘3일’이라고 정확히 말하기보다는 ‘평균적으로 3일가량 온다(평균 3인 확률 분포 모형*을 따른다)’라고 이야기할 것이다. 단순한 차이가 있더라도, 그 차이가 통계적으로 의미가 있는지, 고려해야 할 전제 조건은 없는지, 그 차이가 정말 여러 측면에서의 차이가 맞는 것인지를 여러 도구를 사용하여 고민한다. t-검정**, z-검정*** 등의 여러 검정 방법이 있고, 이를 실험 상황에 맞게 적절하게 적용해서 참고한다.

* 푸아송 분포. 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 나타낼 때 사용되는 확률 분포 모형.
** 두 집단 간의 평균의 차이가 유의미한지 검증하는 통계 검정 방법
*** 모집단의 속성을 살피기 위하여 추출된 표본의 통계값의 평균과 연구자가 이론적 혹은 경험적 배경에서 얻은 특정 값을 비교하는 통계적 방법
‘숫자의 차이’는 절대적인 것처럼 보이는데, 이를 왜 ‘여러 면으로’ 고민해야 할까? 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다. ‘사과 3개’라는 명확하다고 생각하는 숫자의 절대성도 사실은 수많은 사람의 공통된 전제하에 만들어진 기준이다. 우리는 사과 크기가 다 다르고, 맛도 다 다르지만 한 덩어리의 열매라는 이유로 ‘한 개’라고 센다. 만약 사과를 봉지에 넣었다면 사과 가 몇 개든 신경 쓰지 않고 ‘사과 한 봉지’라고 할 것이다. 이런 간단한 숫자 사용에도 이미 전제가 적용된다. 세상의 수치 비교는 수많은 전제를 논리적으로 배치했을 때 수학이나 통계의 가치가 빛을 발하게 한다.
특정 시간에 남겨진 기록인 데이터는 더욱 고려할 사항이 많다. 데이터에는 기록 전에 형태를 잡는 과정부터 특정 정의와 합의를 포함한 많은 전제가 들어가 있다. 그렇게 쌓은 초기 데이터는 많은 가정과 합의에 의해 가지치기되고 단순화되어 요약되고 정리된다. 대개는 이런 과정을 거쳐 나온 단순한 숫자를 사용한다. 이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다. 가지치기된 내용을 풀어내는 데 여러 추론 방법과 가정을 사용해야 할 수도 있고, 이 과정에서 내용이 다소 유실되거나, 의도와는 다른 상황이 들어갈 수 있음도 이해해야 한다.
숫자는 눈에 보이고, 뺄셈은 단순하다. 하지만 다양한 상황에서 발생하는 다양한 숫자를 비교해야 한다. 숫자를 비교하려면 정의, 실험, 실제 수치, 상황 등 고려해야 하는 전제가 생각보다 많다. 무조건 숫자가 크고, 그래프가 잘 나오는 값을 고를 수는 없다. 이는 상관관계로 인과관계를 해석하려는 것*만큼이나 덧없는 일이다.

권정민
세상은 데이터로 이뤄져 있다고 생각하며, 데이터를 잘 활용하고자 하는 목표를 가지고 다양한 데이터 분석 및 활용 방안을 만들고 연구하는 것을 업으로 하고 있다. 카이스트 및 포항공과대학교에서 산업공학과 전산학을 전공했으며, 다양한 산업군에서 데이터 분석을 수행하고 있다. 《빅데이터 분석 도구 R 프로그래밍》, 《The R Book(Second Edition) 한국어판》, 《딥러닝과 바둑》을 번역하고, 《딥러닝 레볼루션》과 《인터넷, 알고는 사용하니?》를 감수했다.

만화 주형
이공계열 사범대를 전공했지만, 만화 그리는 내 모습이 가장 좋아서 웹툰 작가의 길을 걷고 있다. 동글동글한 그림체로 발랄한 에너지를 전파하고자 한다. 네이버 베스트 도전만화에서 《괜찮아, 고3이야》를 연재하여 전국의 학생들에게 오랜 시간 동안 공감과 위로를 전했다. 대표작으로 《괜찮아, 고3이야》(네이버 베스트 도전만화), 《데이터 분석가의 숫자유감》(리디북스)이 있다.

Leave a Reply

©2020 GoldenRabbit. All rights reserved.
상호명 : 골든래빗 주식회사
(04051) 서울특별시 마포구 양화로 186, 5층 512호, 514호 (동교동, LC타워)
TEL : 0505-398-0505 / FAX : 0505-537-0505
대표이사 : 최현우
사업자등록번호 : 475-87-01581
통신판매업신고 : 2023-서울마포-2391호
master@goldenrabbit.co.kr
개인정보처리방침
배송/반품/환불/교환 안내