[데이터 과학자 원칙] 데이터 분석 본질에 집중하는 4가지 초식

“더 나은 데이터 분석 방법이 하루가 멀다고 발표됩니다.

새로운 기법을 다 익히지 못해 조급한 분들에게 말하고 싶습니다.

데이터 분석의 본질은 형식에 있지 않습니다.”

 

공학과 교육, 금융, 의학 연구 분야에서 연구원, 데이터 과학자, 데이터 분석가, 개발자로 역할을 바꿔가며 데이터 주변인으로 살고 있습니다. 다루는 데이터와 업무는 바뀌었지만, 데이터를 다루는 본질은 한 번도 변하 지 않았다고 생각합니다. 하수는 형식을 취하고 고수는 본질을 꿰뚫습니다. 데이터 분석의 본질 을 달성하는 아주 간단한 초식 4가지를 소개합니다.


학부와 대학원 과정에서 생명과학을 전공하며 학계에서 주로 쓰이는 R 을 사용했습니다. 첫 면접 전까지는 A/B 테스트라는 단어도 잘 몰랐고, 심지어 데이터 관련 자격증 시험에 떨어진 적도 있습니다. 데이터 분석가 로 취업하기 전까지는 비즈니스라는 단어에 대해서 깊게 생각해본 경험 도 없고, 인공지능의 트렌드는 어텐션Attention 이후로 따라가기도 버거웠습니다.

취업 후 협업에서 배운 것도 엄청 많지만, 여전히 부족함을 느끼며 지금은 데이터 프로덕트 개발자로 살고 있습니다. 내가 데이터 과학 전공자가 아니라서 이렇게 힘들고 어려운 것인가 생각도 많이 들었습니다. 저뿐만 아니라 실제로 데이터를 다루는 사람들은 꽤 다양한 경력을 가지고 저와 같은 고민을 하고 삽니다. 전공도, 데이터 분석을 시작하게 된 계기도, 주로 다루는 데이터의 특징이나 자주 쓰는 분석도, 프로그래밍 언어도 제각각인 사람들이 데이터 분석가입니다. 어쩌면 데이터를 더 잘 활 용하기 위해서 고통을 받고 있다는 공통점만 존재하는지도 모르겠습니다. 저는 이렇게 된 배경을 3가지 정도의 이유로 생각했습니다.

  1. 데이터 직군은 등장한 지 아직 오래되지 않았다. 그렇기 때문에 조직에서도 데이 터 직군을 명확하게 구분하지 못했으며 이들을 활용하는 방법을 알아가는 중이다.
  2. 데이터는 다양한 도메인에서 다양한 형태로 활용될 수 있다.
  3. 데이터를 분석하려면 기술적 역량이 있어야 하지만 기술로는 표현되지 않는 해석 의 리터러시도 필요하다.

하나 다행인 것은 진화론과 유전학에서는 한 집단은 유사한 구성원들로 이루어져 있을 때보다 다양한 형질로 이루어져 있을 때 생존에 더욱유리하다고 말한다는 사실입니다. 구성원들이 유사하다면 공통의 약점으로 인해 한순간에 무너지기 쉽기 때문입니다. 데이터 분석가들은 ‘애매하다’고 표현될 정도로 각자의 시간에서 각자의 고민을 각자의 방법으로 풀어나가고 있습니다. 이 때문에 서로를 혼란스럽기도 하지만 다양성만큼은 확실합니다. 당장 채용공고만 보더라도, 아니면 옆에서 일하는 동료들을 보더라도 서로 다름을 금방 확인할 수 있으니 데이터 분석가의 다양성을 따로 증명할 필요는 없어보입니다.

이렇게 다양성이 매우 짙은 데이터 분석가로 살아가면서 또 한 가지 고민 덩어리가 있다면 하루가 멀다고 새로운 기법이 나타난다는 겁니다. 이많은 것을 언제 어떻게 다 익혀야 할지 감이 오지 않고, 뒤처지는 기분에 사로 잡힌 데이터 분석가에게 데이터 분석의 본질을 꿰뚫는 4가지 초식을 소개합니다.

첫 번째는 ‘목적을 명확히 하고 과정을 살피자’입니다. 두 번째는 ‘익숙하지 않은 다양한 시도를 하자’입니다. 세 번째는 ‘더 잘 공감할 수 있는 사람들과 함께 성장하자’입니다. 마지막으로 ‘때로는 단순한 것만으로도 충분하다’입니다.

목적을 명확히 하고 과정을 살피자

저는 데이터 분석이 과업(비전)을 달성하는 데 필요한 문제를 정의하고, 해결하는 과정이라고 생각합니다.

학교나 연구소에 속한 조금 특수한 상황이 아니라면, 데이터 분석가가 데이터 분석을통해 이루고자 하는 궁극적인 목적은 서비스(혹은 프로덕트)로부터 수집된 데이터를 분석해 임팩트(매출)를 만드는 겁니다. 이 과정에서 사용자가 서비스의 어떤 부분을 마음에 들어 하고, 어떤 과정을 거쳐서 구매하고 사용했는지, 그 과정에서는 어떤 이슈가 있는지, 앞으로 개선해야 할 부분은 어디인지 등의 문제를 정의하고, 목적에 맞게 데이터를 수집한 뒤 분석하여 서비스를 개선해나가는 무한 반복 작업을 하게 됩니다.

궁극의 목표, 즉 데이터 분석의 본질인 ‘매출’을 만들어내려면 ‘데이터 기반 의사결정’을 도와야 하며, 그러려면 매출이 만들어지는 과정과 맥락에서 나오는 데이터 안에서 인과관계를 캐내야 합니다.

이제부터 인과추론 이야기를 (아주 얕게) 하겠습니다. ‘데이터 분석’이라는 요인으로 인해서 ‘매출 증가’라는 결과를 만드는 것이 목표라고 하겠습니다.

그런데 현실 세계에서 인과추론은 앞의 그림과 같이 간단하지 않습니다. 2021년 《Environmental Science & Technology》에 실린 대기 환경과 COVID-19의 심각도에 대한 인과추론 모델은 다음 그림과 같습니다.

적지 않은 수의 요인이 서로 영향을 주면서 결과에 영향을 만드는 것을 알 수 있습니다. 마찬가지로 데이터 분석과 매출 사이에도 수많은 요인이 서로 영향을 줍니다.

이미 잘 아시겠지만 이외에도 수많은 요인이 있음에도 매출 성장에 기여한 수많은 성공 사례를 보면 종종 한두 요인만 과하게 집중하는 실수를 범하기도 합니다. 그리고 비즈니스에서도 역시 의도적이든 아니든 선택과 집중이라는 명목하에 주효한 영향을 미친 한두 요인을 탐구하게 되지
만 보통은 많은 고생이 뒤따릅니다.

한두 가지에 집중하여 데이터 분석 성공 사례를 만들어내는 것이 왜 어려울까요? 우리는 평범한 사람이기 때문에 성공적인 데이터 분석에 필요한 모든 것을 혼자서 전부 잘해내기가 어렵습니다. 데이터 수집도 잘하고, 인프라 구성도 잘하고, 문제 정의도 잘하고 뛰어난 인사이트도 가지고 있으면서 경영진과의 의사소통도 잘해내서 액션까지 끌어내는 것은 불가능에 가깝습니다.

역량을 성장시킬 수 있는 총량이 정해져 있는 상태에서, (특히나 스페셜리스트라는 단어에 대한 오해로) 한 분야에만 상위 1%의 실력을 만들어낼 정도로 아주 많은 노력을 쏟는다면, 그 분야에서는 뛰어날 수 있지만 다른 요인들이 뒷받침되지 않아 성공적인 데이터 분석을 만들어내기가 어렵습니다.
그런데 한 가지를 상위 1%를 달성하기 위한 노력을 4개의 분야에서 상위 32%를 달성하기 위한 노력으로 바꿔서 행동해본다면, 들어가는 노력은 상대적으로 줄거나 비슷하지만, 내는 결과가 달라진다는 점에서 데이터 분석에 쓰이는 여러 요인을 적당히 잘하는 방향이 효과적일 수 있습니다. 이는 다음과 같은 수식으로 나타낼 수도 있죠.

수학적으로는 말도 안 되는 수식이지만 제가 이 수식을 통해 말하고 싶은 내용은 ‘압도적인 수준’의 데이터 분석 능력으로 인사이트를 만들어내는 데이터 분석가만큼이나, 다양한 요인들에 대한 맥락을 잘 활용하는 데 이터 분석가 또한 경쟁력 있는 데이터 분석가라는 겁니다.

많은 주니어 분석가들은 기술과 이론, 혹은 특정 지표와 방법론에 집착합니다. 그러다 보면 만족할 만한 결과를 만들어내기까지 정말 많은 노고를 쏟게 됩니다. 그 과정에서 수많은 실패와 자기반성 그리고 ‘나는 잘하는 걸까?’, ‘데이터 분석가는 다들 이렇게 결과가 안 보이는 노력을 하는 걸까?’, ‘나는 좋은 데이터 분석가랑은 거리가 먼 게 아닐까?’와 같은 고민들을 합니다. 그런 고민을 하시는 분께 전합니다.

“한두 가지 관점 말고 더 넓은 관점으로 데이터를 보세요. 목적을 명확히 알고 접근하면 충분히 좋은 결과를 도출할 수 있게 될 겁니다.”

 

익숙하지 않은 다양한 시도를 하자

Multi Armed Bandit은 최적의 의사결정을 만들어내는 방법론 중 하나로 주로 MAB로 줄여 부릅니다. MAB는 새로운 경우를 선택하는 탐색(exploration)과 기존의 검증된 경우를 선택하는 활용(exploitation)을 함께 사용합니다. 보통 추천시스템(recommendation system)에서 자주 언급됩니다. 더 좋은 의사결정을 만들어내는 또 다른 방법으로는 A/B 테스트도 있습니다. MAB는 A/B 테스트와 어떤 차이가 있을까요? MAB는 상대적으로 지속적으로 변화하는 상황에 더 유연하게 적응할 수 있다는 점이 다릅니다.

MAB가 중요한 방법인 이유는 데이터 분석의 특성에서 기인합니다. 다음은 캐글에서 데이터 분석과 현실에서 데이터 분석의 차이점을 나타낸 그림입니다.

 

현실에서는 데이터 품질이 별로이거나 부족합니다. 가설도 이미 다른 사람에 의해서 정해져 있습니다. ‘우리 제품에도 요즘 유행하는 민트초코를 넣으면 잘 팔릴꺼야’처럼요. 또한 회사마다 프로젝트마다 상이한 도구를 사용해 시각화하고 모델링하고 분석 리포트를 만들어냅니다. 어렵사리 액션 계획을 세워도 회사 정책이나 팀 사정 등으로 아예 실행이 불가한 경우도 만나게 됩니다.

이런 상황에서 어떻게 하면 더 좋은 인사이트를 찾아 유의미한 액션을 만들어내는 데이터 분석가로 성장할 수 있을까요? 각 상황을 헤쳐나갈 4가지 능력이 있어야 가능합니다. 데이터가 부족하면 채울 수집 능력, 다른 방향을 제시할 줄 아는 능력, 새로운 도구를 바르게 학습하는 능력, 비즈니스 본질을 파악해서 적절한 액션을 세우는 능력 말이죠.

현실적으로 이 모든 걸 다 잘하는 유니콘 같은 데이터 분석가는 없을 겁니다. 다행히 책이나 유튜브, 블로그 아티클, 컨퍼런스, 논문 등 좋은 자료가 넘쳐납니다. 시간과 노력을 투자하면 필요한 기술을 빠르고 정확하게 습득할 수는 있습니다. 그런데 나머지 능력을 키우려면 습관을 바꾸고 경험을 채워야 합니다.

먼저 데이터를 수집할 때 만들어지는 과정이나 품질, 관리 체계 그리고 데이터 거버넌스, 데이터 퀄리티 같은 키워드들을 만족시키는 조금 더 넓은 데이터를 확보하도록 습관을 바꿔보세요. 데이터가 없으면 힘을 많이 낼 수 없는 데이터 분석가이기에 없으면 만들어가는 경험을 해야 합니다.

두 번째로는 동일한 데이터를 보고도 상황을 다르게 해석할 수 있는 경험을 얻어보세요. 숫자에서 드러나지 않는 맥락을 파악할 수 있는 도메인 지식이라고 표현하고 싶은데요, 이론보다는 사용자들이 만들어내는 현상과 상황을 많이 경험해야 쌓입니다.

마지막으로 목적을 달성하기 위한 비즈니스의 본질을 파악하는 능력을 기르려면 데이터 분석 프로젝트를 진행하면서 성공과 실패의 경험을 맛봐야 합니다. 창업이나 다른 직무를 경험해도 채울 수 있습니다.

경험을 통해 데이터를 다르게 해석했던 한 가지 예를 들겠습니다. 다음은 은행연합회 소비자포털*에서 제공하는 데이터 일부로, 2023년 3월의 은행별로 취급하는 신용대출의 금리구간별 비중을 보여줍니다.

 

대출의 금리가 높으면 은행은 더 많은 이익을 얻을 수 있다고 생각할 수 있습니다. 무조건 높은 금리로 신용 대출을 내어주면 더 많은 이득을 볼 수 있을 것 같은데 왜 은행마다 최빈값이 다를까요? 저는 대학원생 때까지는 이 이유를 알 수 없었지만, 졸업 후 처음으로 전세금 대출을 받는 경험을 하고 난 뒤 맥락을 조금 더 다양하게 바라볼 수 있게 되었습니다. 대출을 한 번 받고 나서 상환하지 않은 채 새로 대출을 받으면 신용 대출의 금리가 올라간다는 사실을 알게 된 겁니다.

은행 입장에서는 이자로 이익을 얻는 것 이상으로 원금 회수가 중요합니다. 예를 들어 1억 원을 이미 대출하고 추가로 5백만 원을 빌린 사람과, 처음으로 5백만 원을 빌린 사람이 있다고 가정하겠습니다. 대출을 갚지 않는 최악의 상황을 고려한다면 은행 입장에서 두 사람에게 지게 되는 리스크는 다를 수밖에 없습니다. 그러므로 리스크를 이자에 반영해 관리하는 것이 합리적인 겁니다. 즉 앞의 표에서 토스뱅크는 10% 이상의 높은 금리를 고객 28.7%에게 적용하여 더 높은 리스크를 감안하는 전략을, 반면 카카오뱅크는 더 안전한 고객에게 대출을 하는 대신 낮은 이자 수익을 갖는 전략을 선택한 것이죠. (그럴 일은 없겠지만) 만약 금융업에 종사하는 데이터 분석가가 이러한 맥락을 잘 알지 못한 채로 데이터를 봤다면, ‘전북은행이 단순히 높은 금리 고객들을 더 많이 가지고 있기 때문에 빅 4 은행들보다 더 큰 이익을 낼 것 같다’와 같은 해석을 할 수도 있게 되는 거죠.

데이터 분석을 통해 좋은 인사이트를 만들어내는 것은 크게 2가지 방향으로 구분할 수 있다고 생각합니다. 데이터에서 나타나는 맥락을 발견하는 것, 그리고 데이터에서 나타나지 않는 맥락을 발견하는 것.

우리 조직의 서비스를 사용해보는 도그푸딩을 해보고, 팝업스토어에서 브랜딩 경험도 채워보고, 요리나 카페 탐방, 등산, 여행 그리고 (데이터가 아닌) 사이드 프로젝트 등 다양한 것을 경험하고, 사람을 만나는 과정에서 스스로의 해석과 경험자의 해석을 학습하며 ‘아 이런 상황에서는 이렇게 되는구나’라는 (도메인) 경험치를 쌓는 것이 중요합니다. 그 과정에서 실패와 성공을 반복하는 것 역시 중요하고요.

MAB는 기댓값을 알지 못하는 여러 방법을 테스트하면서 결괏값이 높은 것의 비중을 점차 늘리되 여전히 기댓값을 알지 못하는 방법도 시도합니다. 유사하게 데이터 분석가는 익숙하여 결괏값이 높은 데이터 분석도 하면서 동시에 기댓값을 알지 못하는 분석 외의 다양한 경험도 시도해보는 것이 좋습니다. 이를 통해 데이터를 더 새로운 관점으로 바라볼 수 있게 됩니다.

“그러니 익숙하지 않고 알지 못하는 것들도 시도해보고 그 경험들을 기반으로 데이터 분석에서 시너지를 만들어가기 바랍니다.”

 

더 잘 공감할 수 있는 사람들과 함께 성장하자

데이터 분석가는 필연적으로 같은 팀에 소속된 데이터 분석가부터 다른 팀의 팀원, 의사결정권자에 이르기까지 다양한 이해관계자를 만나게 됩니다. 이해관계자들은 각자의 상황에서 각자의 업무를 하는 만큼 다양한 수준의 데이터 리터러시를 지니고 있습니다. 그런데 대개는 함께 문제(고충)를 해결하는 협력자 역할보다는 어떻게든 설득해야 할 대상일 때가 많습니다.

데이터 분석가가 온통 설득 대상자한테만 둘러쌓여 있다면 참으로 고독할 겁니다. 고충을 공감하고, 방법을 함께 고민하거나 힌트를 공유하는 협력자를 만날 수 있는 방법이 필요합니다. 저는 커뮤니티 활동을 추천합니다.

저는 박사 과정 동안 네트워크 정보를 활용하여 유전체 데이터를 분석하는 연구를 진행했는데요, 그 당시에 R을 사용했는데 R에서 제공하는 네트워크 시각화 기능에 부족함을 느끼고 자바스크립트의 Cytoscape.js가 제공하는 기능을 R 패키지로 만들었습니다. 기능을 구현하고 나서 인터넷에 공개했는데 우연히 Shinykorea 구성원의 눈에 띄어 커뮤니티 오프라인 행사에서 발표까지 하게 되었습니다. Shiny는 R에서 웹 애플리케이션을 손쉽게 만들 수 있게 하는 라이브러리로, HTML/CSS/자바스크립트를 함께 활용하는 경우가 많았기 때문에 Shinykorea에는 제가 맛봤을 창작의 고통을 이해해주는 구성원이 많았던 탓인지 적지 않은 관심을 끌었습니다.

커뮤니티에 소속되어 활동을 하면 최근 동향과 기술, 트러블슈팅, 사용 사례들을 지속적으로 만날 수 있습니다. 데이터 분석가의 작업물은 대부분 사내 데이터를 활용하기 때문에 외부 공유가 어려운 경우가 많습니다.

커뮤니티 활동을 하면 어느 정도 가공되기는 했지만 타 조직의 데이터를 볼 수 있는 기회도 얻을 수 있습니다. 그 외에도 다른 도메인의 데이터 분석가와의 커피챗을 통해 실제로 해당 분야에서는 어떤 데이터를 사용하고 어떤 방법들을 활용해서 어떤 문제를 푸는 중인지 그리고 해당 업계에서는 어떤 것이 트렌드인지 등의 비밀스러운 이야기도 들을 수 있습니다. 그뿐만 아니라 커뮤니티에 발표할 기회를 얻게 되면 다시 한번 생각을 정리할 기회까지 얻게 됩니다. 개인 브랜딩으로 활용할 수 있다는 장점도 있습니다.
커뮤니티 활동을 적극적으로 하다 보면 데이터 이외에도 다양한 정보에 노출되기도 합니다. 많은 정보가 언젠간 도움이 될 수는 있겠지만 어떤 정보가 지금 내게 중요한지 구분하고, 휩쓸리지 않는 능력도 필요합니다. 가령 내가 속해 있는 조직은 이제 막 데이터를 수집하는 단계인데 다른 조직의 데이터팀에서 실험 플랫폼을 활용한다더라와 같은 이야기나, 활용하는 데이터의 도메인에서는 시계열 분석을 주로 다루는데 최신 인과추론 방법을 이용한 사례들에 과하게 몰입하는 것은 크게 도움을 주지못합니다.

보통 커뮤니티에서 공유되는 사례 대부분은 ‘잘된 결과 중에서도 잘된 결과’들을 최대한으로 정리한 결과입니다. 그래서 사례가 성공하려면 갖춰야 하는 조건들이나 시행착오를 상대적으로 얕게 다루는 경우가 많습니다. 유독 데이터 분석가들이 이상을 쫓다가 흑화되는 경우가 많은 건 이러한 이유가 아닐까요.
커뮤니티가 개인의 이익만 추구하기 위해 활동하는 장은 아닙니다만, 전략적으로 활용하면 분명 도움이 됩니다. 특히 외부 활동이 조직 사업에도 부합하도록 신경쓰면 좋겠습니다.

 

 

 

“조직이라는 우물 밖에서 나를 더 잘 이해하는 사람들과 교류해보세요. 조직 안에서 할 수 있는 성장과는 또 다른 성장을 이룰 수 있을 겁니다.”

때로는 단순한 것만으로도 충분하다

오컴의 면도날은 ‘상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다’라는 의미를 갖고 있는데, 이를 조금 더 변형해 ‘때로는 단순한 것만으로도 충분하다’라는 이야기를 해보려고 합니다.

데이터 분석은 데이터를 통해 상황을 설명하고, 더 나아가 예측해 대비하는 일련의 과정입니다. 그러다 보니 ‘이래서 이러할 것이다’와 같은 설명을 만들어내는 것에 길들여집니다. 한편 세상의 많은 상황은 수없이 많은 요인의 복잡한 상호작용이 만든 결과입니다. 데이터 분석에서 그 많은 요인을 모두 고려해야 하는 걸까요?

2023년 3월 《The New England Journal of Medicine》(이하 NEJM 저널)에 실린 〈Intravascular Imaging-Guided or Angiography-Guided complex PCI〉라는 논문을 하나 소개하겠습니다. 논문을 아주 간단하게 요약하면 ‘심혈관중재시술이라는 치료에서 쓰이는 기술 중 Angiography-guided 방법에 비해 Imaging-guided 방법이 위험성이 낮고, 효과도 좋다’라는 내용입니다. 데이터 업계의 예시로 비유하면 ‘빨간 버튼을 사용할 때가 초록 버튼을 사용했을 때보다 전환율이 좋았다’와 비슷한 맥락이죠.

NEJM 저널의 IF(Impact Factor)는 176.079입니다. IF는 저널의 가치를 평가하는 주요 지표로써 피인용지수 혹은 영향력 지수라고도 불립니다. 학술 논문이 얼마나 자주 인용되었는가를 나타내어 값이 높으면 높을수록 다른 사람들의 연구에 많이 인용되었고, 그만큼 사회에 큰 영향력을 미친다라고 볼 수 있습니다. IF의 효용에 대해서는 논란이 있기도 하지만, IF가 높은 연구는 해당 도메인에 있는 사람이라면 반드시 알 가치가 있는 아주 멋진 연구라는 의미로 통상 인정됩니다. 참고로 생명과학계 학자들의 목표인 《네이처(Nature)》, 《셀(Cell)》, 《사이언스(Science)》의 IF는 각각 69.5, 66.850, 63.832입니다. 그렇다면 네이처와 같은 세계적인 저널의 IF보다 훨씬 높은 IF를 가진 〈Intravascular Imaging-Guided or Angiography-Guided complex PCI〉 논문은 얼마나 많은 데이터와 요인, 세련된 방법론들을 사용했을까요?

놀랍게도 실험에 쓰인 데이터 크기, 그러니까 환자 수는 약 1,600명 정도이고, 기존의 다른 의학연구에 대비해서 극단적으로 새로운 통계치나 지표들을 사용하지는 않았습니다. 다음과 같이 2가지 색상만 사용한 선형 차트를 핵심 시각화로 사용했을 뿐입니다.

 

제가 생각하는 이 연구(데이터 분석)가 좋은 연구로 인정받은 이유는 다음과 같습니다.

  1. 두 가지 시술 중 한 가지가 더 좋다는 주장을 하기 위해
  2. 실험 설계를 단단하게 했으며
  3. 설계된 프로토콜에서 벗어나지 않게 주의하며 연구진 이외에도 다양한 사람(많은 병원과 의사, 환자)들이 데이터 수집에서부터 기여했고
  4. 그 결과는 아주 간단한 통계치로도 입증 가능했으며
  5. 이로 인해 이후의 이 시술은 더 많은 사람의 생명을 살리는 것에 기여했다.

주장과 이를 뒷받침하는 방법과 근거가 명확하고 단순했으며, 그 결과로 큰 임팩트를 만들어냈습니다. 최신 기법과 복잡한 요인을 활용하지 않고도 클래식한 기술과 단순한 분석 방법으로 사회에 큰 기여를 했다는 사실에 주목할 필요가 있습니다.

데이터 분석은 설득 과정을 거쳐 액션에 영향을 줄 수 있어야 완성되는 겁니다. 언급한 사례처럼 데이터 분석의 과정이 명확하고, 결과도 잘 나온다면 설득도 쉬워질 겁니다. 그런데 현실의 데이터 분석은 제 경험상 이상적인 데이터 분석과는 어딘가 살짝 엇나갔습니다. 왜 그랬을까 고민을 해보았습니다. 그 결과 그 어떤 데이터 분석 과정보다 다음과 같은 3가지가 선행되어야 한다는 사실을 깨닫게 되었습니다.

  1. 데이터 분석을 통해 달성하고자 하는 목적을 먼저 명확하게 정의한다.
  2. 비즈니스 모델과 프로덕트/서비스에서 발생하거나 측정 가능한 데이터를 파악한다
  3. 도메인 인사이트로 데이터에서 나타나는 현상들을 맥락으로 이해한다.

많은 데이터 분석가가 이 3가지를 인지하지 못하는 경우가 많습니다. 그러다 보니 성과를 내야 하는 데이터 분석가로서 데이터 분석을 잘 보여주는 결과를 만들기 위해 새로운 지표를 정의하거나, 복잡한 분석 방법론을 적용한다거나, 화려한 차트를 쓰는 것 같은 ‘기술적인 접근’으로 채우려는 노력을 하기도 합니다. 이를 ‘데이터 흑마법’이라고도 표현하기도 합니다. 데이터 흑마법에서 생각 나는 몇 가지 예시는 다음과 같습니다.

  • 여러 계산식과 지표 중 안 좋은 것들은 배제하고 좋은 것만 체리 피킹
  • 데이터의 품질을 핑계로 결론과 다른 결을 나타내는 데이터를 취사선택 혹은 보정
  • 원활하게 작동하기 위해 여러 조건이 필요한 (복잡한) 새로운 지표 활용
  • 메시지가 더 명확하게 드러나게 차트와 그래프 가공

이 흑마법은 앞에서 언급한 이상적인 데이터 분석 과정 중 일부가 빠져 유의미하거나 설득할 수 있는 분석의 결과가 잘 나오지 않는 상황에서 이를 메꾸기 위해 자주 등장합니다. 이 방법은 단기적으로는 결과가 날 수 있지만 장기적으로는 언젠간 또 다른 문제에 봉착하는 결과가 생기게 됩니다. 좋은 데이터 분석 사례를 만들어내는 데이터 시니어 중에는 분석 기술이 뛰어난 테크니션 유형 외에도 큰 그림을 그리는 구루 유형도 있다는 것을 생각하면, 새로운 것을 학습하는 것만큼이나 사고력을 키우는 연습도 필요한 것이 아닐까라고 생각합니다.

오컴의 면도날은 ‘여러 가지 설명 중 가장 단순한 것이 좋은 설명이다’라는 철학입니다(물론 오컴의 면도날이 항상 옳은 것은 아닙니다). 정확한 인용은 아니지만, 저는 위에서 언급한 의학 연구의 예시처럼 단순한 모델링이나 시각화로도 더 효과적인 인사이트와 전달이 가능하다는 사례들을 보며 단순함에 집중할 필요가 있다고 생각합니다.

“데이터 분석의 본질을 달성하는데 때로는 단순하고 명확한 결과와 설득 만한 것이 없습니다.”

 

글을 마치며

데이터 분석가들은 다양한 데이터 시간에 속해 있습니다. 데이터를 조직에 도입하는 초창기에 해야 하는 업무와 성장기에서 해야 하는 업무 그리고 황금기에 해야 하는 업무가 같을 수는 없습니다. 다음은 기술 수용 주기 모형을 응용해 만든 조직의 데이터 도입 시기별 필요한 데이터 분석가의 상황을 표현한 그림입니다.

 

 

조직마다 다루는 데이터 도입 단계별 필요한 데이터 분석가가 다르다는 사실을 인지하고 이익을 만들어내는 맥락을 이해하는 것이 급선무입니다. 그래서 첫 초식으로 ‘목적을 명확히 하고 과정을 살피자’를 뽑은 겁니다.

미국의 유명한 투자자인 하워드 막스는 ‘다른 투자자들과 똑같이 행동하면서 더 나은 결과를 기대할 수는 없다’라고 말합니다. 데이터를 다루는 사람으로서 다른 사람들과 동일한 툴을 쓰고 같은 과정을 거쳐 유사한 분석을 한다면 같은 결과를 얻을 뿐입니다. ‘익숙하지 않은 다양한 시도를 하자’가 뒤따라야 더 나은 인사이트를 뽑아내는 데이터 분석을 할 수 있습니다.

데이터 분석가는 설득 대상이 가득한 외로운 직책이라고 합니다. 저는 생명과학을 전공한 데이터 분석가로서 교육과 금융과 의료 분야에서 살아남고자 같은 고뇌를 하는 많은 사람을 온라인 글쓰기 활동과 커뮤니티 활동에서 만났습니다. 그 덕분에 기술적인 어려움뿐만 아니라 정신적인 고통도 이겨낼 수 있었다고 생각합니다.

하수는 형식에 취중하고 고수는 본질을 꿰뚫는다고 생각합니다. 데이터 분석의 본질이 날마다 발표되는 신기술(형식)은 아닙니다. 비즈니스에 이바지하는 것이 본질입니다. 배움을 게을리해서는 안 되겠지만 본질에 충실하다면 분명 조직에 도움이 되는 데이터 분석가가 될 거라 생각합니다.

김진환
컴퓨터과학을 공부했지만 어쩌다 보니 데이터 분야에서 커리어를 시작했습니다. 여러 커뮤니티에서 다양한 사람을 만나며 데이터와 비즈니스를 경험했고, 최소한의 데이터로 세상에 기여하겠다는 마음을 갖게 되었습니다. 지금은 의학 연구자들을 위한 데이터 프로덕트를 개발하고 있으며, 독서와 글쓰기, 고양이를 좋아하고 CRAN 기여자로서 R과 Shiny의 부흥을 꿈꾸고 있습니다.


_현) 차라투 데이터 프로덕트 개발자
_현) Udacity 데이터 사이언스 멘토
_전) 피플펀드컴퍼니 데이터 분석가
_전) 코드스테이츠 데이터 과학자

Leave a Reply

©2020 GoldenRabbit. All rights reserved.
상호명 : 골든래빗 주식회사
(04051) 서울특별시 마포구 양화로 186, 5층 512호, 514호 (동교동, LC타워)
TEL : 0505-398-0505 / FAX : 0505-537-0505
대표이사 : 최현우
사업자등록번호 : 475-87-01581
통신판매업신고 : 2023-서울마포-2391호
master@goldenrabbit.co.kr
개인정보처리방침
배송/반품/환불/교환 안내