상세 컨텐츠

본문 제목

빅데이터는 노스트라다무스가 아니다

INSIGHT

by 김편 2016. 7. 25. 09:47

본문

<김편의 내맘대로 요약>

변화를 예측하는건 어렵습니다. 아무리 뛰어난 학자나 기업가라도 미래를 100% 내다볼 수 없지요. 하지만 현재 진행형으로 일어나고 있는 수많은 현상들을 분석(이라 읽고 빅데이터라 쓰고)하고 다시 종합해 본다면 향후 어떠한 흐름이 지배적이게 될지는 유추해 볼수 있습니다.


Supply Chain Logistics는 B2B2C는물론 하이테크 기술, 글로벌 경제와 밀접한 관계를 맺고 있는 만큼 이 분야에서 감지되는 변화상을 파악하면 다가오는 미래를 한 발짝 가까이서 내다볼 수 있을 겁니다.


어제 남긴 숫자의 흔적을 통해 오늘과 내일을 준비하는 힘! 인천대 신광섭KwangSup Shin 교수의 데이터 사이언스 이야깁니다.

==============================

빅데이터 분석, ´데이터 분석의 목적´ 수립부터
정확한 예측은 존재하지 않는 것
완벽한 데이터분석 아닌, 필요한 데이터분석이 필요한 때


글. 신광섭 인천대학교 동북아물류대학원 교수


Idea in Brief

데이터 분석을 통해 정확하고 완벽한 미래를 예측하려고 하지 말자. 조금이라도 덜 틀려보자는 생각으로 데이터 분석에 접근하는 것이 오히려 더 정확한 표현이다. 데이터를 더 모을 이유가 생기고, 지금보다 더 성능이 좋은 알고리즘을 개발하는 데 집중할 이유가 생기기 때문이다. 물론 데이터를 분석하는 사람들의 정신건강에도 이로울 것이다. 우리는 현재 데이터의 시대를 살고 있다고 한다. 그러나 우리는 어쩌면 데이터에 등 떠밀리는 시대에 살고 있는지도 모른다. 데이터를 가진 것은 분명 기회이고, 무기이다. 그런데 그 무기를 맹신하게 되거나 잘못 사용하면 분명 나를 찌르거나 벨 수 있는 양날의 검이 될 수 있다는 점을 잊어선 안된다.


아주 어릴 적 기억이라 정확하지는 않지만, 당시 일기예보는 지금처럼 기상캐스터가 아닌 기상청 소속 기상통보관이 진행했다. 통보관이 직접 뉴스 말미에 “내일은 비가 오겠습니다, 미니스커트 입기에는 추운 날씨입니다”라고 알려주던 형태였다. 그 중 한 기상통보관이 현역에서 은퇴한 후 방송 프로그램에서 재미있는 일화를 소개한 적이 있다.

"전날 일기 예보를 통해 내일은 비가 오지 않는다고 말했다. 그런데 다음날 아침 하늘을 보니 비가 올 듯해서 자연스럽게 우산을 들고 출근을 했는데 때마침 비가 오더라. 그런데 옆에서 같이 출근하던 시민이 저를 보면서 “거짓말쟁이 같으니라고 자기는 우산 쓰고, 시민은 비 맞고”라고 말하더라. 미안한 마음에 우산을 들지 못했다"

기상통보관도 정확하게 알 수 없는 내일 날씨 덕분에 요즘 말로 웃픈(?) 상황이 발생한 것이다. 이처럼 통보관이 어제 비가 오지 않는다고 말했다고 오늘 비가 내리지 않는 것은 아니다. 갑작스레 소나기가 내릴 수도 있으니 말이다.
그런데 언제부터인지는 모르겠지만 요즘은 일기예보에서 “내일 비가 오겠습니다” 혹은 “오지 않겠습니다”는 말이 더 이상 들리지 않는다. “내일 비가 올 확률이 60%이니 우산을 미리 준비하는 것이 좋겠습니다”라고 한다. 정확하게 비가 온다, 오지 않는다가 아니라 비가 올 확률을 알려주는 것이다. 그 수치를 보고 우산을 들고 나갈지 결정하는 것은 본인이 직접 판단하라는 이야기다. 인터넷을 통해 제공되는 일기예보들도 대부분 유사한 형태이다.

확실히 과거 그 시절보다는 기상 예측을 위한 데이터 확보도 쉬워졌고 그것을 분석하기 위한 수퍼컴퓨터 성능, 미래를 예측하기 위한 알고리즘까지 더욱 정교해졌다. 그러나 그럼에도 불구하고 아직까지 내일 혹은 이번 주말, 그리고 다음 주 일기예보는 정확히 맞지 않는다. 어쩌면 당연한 일인지도 모른다.

지난 원고에서 데이터 분석 절차에 대해 설명한 적이 있다. 많은 사람들이 데이터를 수집하고, 그 데이터를 가지고 무엇을 할 수 있을까 고민한다. 그런데 사실 데이터 분석을 위해 우리가 가장 먼저 해야 할 일은 데이터를 모으는 것이 아니다. ‘분석의 목적’부터 명확하게 해야 한다. 데이터를 통해 무엇을 알고 싶은지 먼저 구체화해야 한다. 목적에 맞는 데이터를 찾거나 만드는 것은 그 다음 단계다. 그렇다면 데이터를 분석하는 목적을 어떻게 구분할 수 있을까. 그리고 그 과정에서 주의할 점은 무엇일까.

예측과 분류, 데이터의 목적

‘데이터 분석의 목적’이라고 검색해보면 다양한 기관에서 아주 예쁘게 설명해 놓은 자료들이 많다. 여기에서 다시 그 내용을 반복하고 싶지는 않다. 대신 아주 간단하게 짚어보고 싶은 사항만 언급하고자 한다. 데이터를 분석하고 싶은 사람들이 던지는 공통적인 질문은 “그래서 앞으로 어떻게 될 것 같은데?”다. 내일 비가 올 것인지, 해가 쨍쨍할 것인지, 고객이 우리 제품을 좋아할 것인지, 내일 주식이 오를 것인지와 같은 것이다. 우리는 모두 아직 일어나지 않은 사건에 대해 알고 싶은 것이다.

이럴 때 우리는 흔히 두 가지 방법을 사용할 수 있다. 예측과 분류가 그것이다. 예를 들어 보자. 우리는 흔히 오늘 구입한 주식이 내일 얼마에 거래될 지 예측할 수 있다. 그라나 그 예측은 맞기도, 때로는 틀리기도 한다. 여기서 내일 거래될 주식가격을 알고자 시도하는 것이 예측이다. 주식가격이 오르고, 내리는 것을 맞추는 기법은 분류다. 다시 말하자면 맞히고자 하는 값의 형태가 연속되는 값을 가질 때는 예측, 목록형 값을 가질 때는 분류라고 부른다. 공급사슬 관리영역에서는 고객의 수요, 즉 시장 판매량에 대해서 예측을 사용하며 제조 공정에서 불량은 분류 기법을 사용한다.

예측과 분류는 데이터를 분석하는 가장 기본적인 방법이고, 아마 가장 널리 오랫동안 사용되어 왔을 것이다. 그런데 이 두 방법을 적용하기 위해서는 필요한 것이 있다. 충분한 데이터를 확보해야 하는 것은 당연하다. 거기에 더해 내가 알고자 하는 것의 과거값을 알고 있어야 한다. 앞으로 일어나지 않은 사건에 대해 막연한 추측이 아닌 객관적이고 논리적인 방법을 통해 예측하고 싶다면, 과거에 발생한 사건에 대한 기록, 즉 데이터에 내가 알고자 하는 값이 포함되어 있어야 한다. 그래야 조금 더 정확한 예측 혹은 분류 모형을 개발할 수 있다.

정답이 포함된 과거 데이터로부터 미래를 예측하기 위한 모델을 구성하고 계속해서 그 성능을 개선하는 방법을 ‘지도적 학습(supervised learning)’이라고 부른다. 지도적 학습에 사용되는 데이터는 크게 독립변수와 종속변수로 구분되는데, 정답에 해당되는 변수를 종속변수라고 부르고, 나머지 변수들은 독립변수라고 부른다. 독립변수들은 종속변수를 설명하거나 그 값을 예측하기 위해 사용된다. 이때 독립변수와 종속변수의 형태가 연속형인가 목록형인가에 따라 사용 가능한 데이터 분석 방법이 다르다. 자세한 것은 아래 표를 참조할 수 있다.


예를 들어, 연봉과 주택 보유 여부와의 관계를 예측하기 위한 모델을 만든다면, 연봉은 독립변수 (X), 주택 보유 여부는 종속변수 (Y)가 된다. 이때 연봉은 연속되는 값을 가지고, 주택 보유 여부는 True/False의 두 가지 값을 가지는 목록형 변수이다. 이 경우 사용할 수 있는 가장 대표적인 방법이 바로 선형회귀(linear regression)다. 이는 일차 선형식을 통해 주택보유 여부를 판단하는 방법이다.

여기서 중요한 것은 목적을 구체화하는 과정에서 구체적인 데이터의 형태까지도 함께 고려해야 한다는 점이다. 우리가 가진 데이터의 형태가 이러하니 꼭 이 방법만 써야 한다고 말하고 싶은 것은 아니다. 데이터 분석의 순서대로라면, 우선 내가 데이터를 통해 알고 싶은 것이 정확한 수치인지, 그것도 아니라면 두세 개의 보기 중에 하나인지를 결정해야 한다. 가령 주식의 거래가를 알고 싶은 사람과 주식이 오르내릴 것에 대한 정보를 알고 싶은 사람의 목적은 엄연히 다르다. 그 다음 목적을 달성하는 데 도움이 될 수 있을 법한 데이터를 모아야 하는데, 그 형태가 무엇이냐에 따라 사용할 수 있는 방법이 달라진다. 물론 연속형을 목록형으로, 또는 그 반대로 바꿀 수 있는 방법이 존재한다. 그렇지만 그 과정에서 데이터를 분석하는 사람의 주관이 개입될 가능성도 존재하고, 데이터가 가진 정보도 손실될 수 있다는 점은 항상 고민해야 할 문제이다.

알고 싶은 것을 몰라도 데이터분석은 의미있다

데이터 분석이 꼭 내가 지금 알고 싶은 것을 명확하게 정의해야만 시작할 수 있는 것은 아니다. 다시 말하면, 무엇인가를 정확히 알고 싶을 때만 데이터를 분석하는 것은 아니라는 말이다. 앞서 답을 알고 있을 때 사용하는 데이터 분석방법을 ‘지도적 학습’이라고 했다. 이에 더해 답을 알지 못할 때, 더 정확하게 말하면 정확하게 알고 싶은 것이 무엇인지를 모를 때에는 ‘비지도적 학습(unsupervised learning)’을 사용한다. 비지도적 학습이라고 해도 과거 데이터는 가지고 있을 것이다. 이에 따라 독립변수의 형태에 따른 사용하는 방법이 달라지는데, 세부적인 내용은 아래 표와 같다.

비지도적 학습의 경우는 정확하게 목표하는 변수를 정할 수 없기 때문에 대부분 현재 확보하고 있는 데이터의 입력변수 사이의 관계를 중심으로 분석한다. 대표적인 예로 장바구니 분석(Market Basket Analysis)이 있다. Association Rule을 적용한 것인데, 이미 고전이 되어버리기는 했으나 맥주와 기저귀의 상관관계로 유명해진 기법이다.

맥주와 기저귀의 상관관계

대형마트에서 고객이 한 번에 구매한 상품의 상세 내역을 살펴보았더니 그 전까지는 관계가 전혀 없어 보였던 두 상품인 맥주와 기저귀가 동시에 구매되는 비율이 상당히 높은 것으로 나타났다. 그래서 기저귀와 맥주를 동시에 구매하는 고객의 특징을 살펴보았더니 기저귀를 구매하는 고객은 대부분 신혼부부일 가능성이 높았다. 이들 대부분이 이십, 삼십대인 만큼 맥주를 많이 소비했다.


맥주와 기저귀의 사례에서 대형마트는 정확하게 알고 싶은 것이 무엇인지는 몰랐다. 그러나 실제로 대형마트는 고객들이 동시 구매하는 상품들은 어떤 것들이 있는지를 알고 싶어 했고, A Priori라는 알고리즘을 통해 이러한 사실을 알게 되었다. 대형마트가 가진 데이터는 특정 고객이 한 번에 구매한 내역, 즉 언제 어떤 물건을 쇼핑 카트에 담았고 몇 개를 담았는지 알 수 있는 정도이다. 여기서 중요한 것은 그렇게 찾아낸 새로운 사실, 상품 사이의 관계를 어떻게 활용할 것인지 결정하는 일이다. 혹자는 구매가 동시에 일어나는 제품들을 비슷한 위치에 두어 고객들이 편하게 쇼핑을 즐길 수 있게 할 것이다. 인터넷 서점에서 책 한권을 검색해서 상세 페이지를 보면 그 책을 구매했거나 관심을 가진 고객들이 동시에 검색했고, 구매했던 책이 추천되는 것은 모두 이런 전략에서 비롯된 것이다.
그런데 반대로 뒤집어 볼 수도 있다. 어차피 기저귀를 사러 온 사람은 다시 맥주를 담으러 이동할 것이다. 그렇다면 맥주와 기저귀 사이의 거리를 가급적 멀리 떨어뜨려 놓고, 그 동선 사이사이에 맥주와 기저귀를 구매하는 20~30대 가정에서 구매할 만한 물품을 배치하는 방법도 활용 가능하다.

이렇게 이미 확보된 데이터의 상관관계를 통해 새로운 사실을 찾아내거나 혹은 기존에 알고 있던 사실에 대한 논리적 근거를 확보할 수 있다. 데이터 분석의 결과는 다시금 매출 증대, 비용 절감, 신규 고객 확보, 기존 고객 서비스 수준 향상 등과 같은 목적을 달성하기 위해 활용할 수 있다.

데이터를 가지고 있다는 사실은 직관에 의한 전략 수립이나 일부 고객이나 관리자, 전문가 의견에 기반해서 공급사슬을 경영하던 방식에 비해 새로운 전략에 대한 논리적이고 객관적인 근거를 확보하기 쉽다. 즉 이성적이고 합리적인 의사결정을 내릴 가능성이 높아질 수 있다고 할 수 있다. 물론 데이터를 분석한다고 해서 항상 더 좋은, 더 합리적인, 더 객관적인 전략을 수립할 수 있다는 것은 아니다. 그렇지만 적어도 데이터를 통해 신사업의 근거를 확보할 수 있고 실패의 가능성을 낮추거나 앞으로 일어날 일들을 시뮬레이션할 수도 있다. 이것이 데이터를 분석하고자 하는 궁극적인 목적이다.

완벽한 예측은 없다

최근 알파고, 딥러닝, IoT 등과 같은 신기술의 등장으로 데이터 분석의 긍정적인 측면만 강조되고 있는 것이 아닌가 걱정 아닌 걱정이 될 때도 있다. 마치 과거 정보통신기술이 등장하자 너도 나도 ERP만 설치하면 한 순간에 실시간으로 모든 것이 통제될 것처럼 흥분했던 시절처럼 말이다.

결론부터 먼저 말하자면, 제발 정확하게 예측하려고 하지 말자. 무슨 뜬금없는 이야기냐고 묻는 사람도 있겠다. 그러나 개인적으로 데이터 분석의 목적은 정확하게 예측하고, 분류하는 데 있지 않다. “조금이라도 덜 틀려보자”는 생각으로 접근하는 것이 오히려 더 정확한 표현이다. 어차피 아직 일어나지 않은 사건에 대한 결과를 예측하고자 하면 아마 100%의 확률로 틀리게 될 것이다. 만약 설사 결과가 맞더라도 그건 우연의 일치일 뿐이다.

그러나 데이터 분석을 통해 정확하게 맞추는 것이 아닌 예측에 대한 불확실성을 줄이고자 한다면 데이터 분석 기법은 분명 아주 효과적으로 활용될 수 있다. 데이터를 더 모을 이유가 생기고, 지금보다 더 성능이 좋은 알고리즘을 개발하는 데 집중할 이유가 생겨난다. 물론 데이터를 분석하는 사람들의 정신건강에도 이로울 것이다. 매일 틀리는 사람에서 어제보다 덜 틀리는, 개선된 결과를 내는 사람이 될 테니까 말이다.

다시 한 번 우리 주변을 둘러보자. 우린 항상 앞으로 일어날 일을 예측하고, 그 결과에 따라 행동한다. 버스가 언제 올지, 지하철이 언제 올지, 지금 출발하면 약속에 늦을 지 일찍 도착할 지를 항상 예측한다. 그런데 과거 경험이나 구체적인 데이터(현재 버스의 위치, 지하철의 위치 등)가 없으면 이것은 단순한 추측이 된다. 이러한 추측을 ´예측´으로 바꾸기 위해 우리는 데이터를 모으고 분석하는 것이다.

한 가지 더 주의해야 할 점은 평균이 가지는 함정에 빠질 수 있다는 점이다. 아래 표는 일반적인 분류의 결과를 보여주는 Confusion Matrix이다. 아주 간단하게 참(True)/거짓(False)를 예측한 결과라고 가정해보자.



실제로 참인 것을 참으로 분류하고, 거짓이었던 것을 거짓으로 분류했다면 결과를 맞힌 것이고, 그 반대는 틀린 경우이다. 일반적으로 이야기하는 정확도(accuracy)를 계산하는 법은 간단하다. 전체 3000건 중에 110(25+85)건이 틀렸으니 정확도는 96.33%가 된다. 이 정도면 아주 괜찮은 분류기법이다.

그런데 여기에 평균의 함정이 숨어 있다. 표를 자세하게 들여다보면, 과거 3000건 중 실제로 거짓인 경우는 2714건으로 약 90%에 해당된다. 만약, 우리가 데이터 분석을 하지 않고 그냥 모든 것을 거짓으로 판단했다고 생각해보자. 그럼 90% 정도의 정확도를 가진다. 나쁘지 않은 수치이다. 결국 아무것도 하지 않은 것보다 6.3% 정도 정확도를 높이자고 막대한 비용을 부담해가며 데이터 분석을 하는 것이 타당한 것일까에 대한 의문에 봉착한다.

중요한 것은 전체적으로 잘 맞히는 것이 아니라 ‘내가 맞히고 싶은 것을 잘 맞히는 것’이다. 만약 위의 사례가 할인 쿠폰을 발행하는 경우라고 생각해보자. 실제 3000명의 고객 중에 할인 쿠폰을 사용한 고객은 286명이다. 나머지는 쿠폰을 사용하지 않았다. 그런데 286명의 고객 중 201명에게만 할인 쿠폰을 발행했고, 사용하지 않는 고객 25명에게도 함께 발행했다. 실제로 사용할 수 있는 고객 85명은 포기하고 말이다.

경우에 따라서 전체적인 평균 정확도보다 쿠폰을 사용할 것이라 판단해서 실제로 쿠폰을 발행한 고객(226명) 중 실제 쿠폰을 이용한 고객(201명)은 몇 명인지 판단하는 것이 중요하다. 쿠폰을 사용할 고객(286명) 중에서 얼마만큼을 사용할 것이라고 판단했느냐(201명)가 중요하기도 하다. 반대로 원래 쿠폰을 사용하지 않을 고객의 숫자를 예측하는 것은 실제로 큰 의미가 없다. 이렇게 내가 예측하고 싶은 항목, 알고 싶은 항목을 중심으로 데이터 분석 결과의 성능을 평가할 필요가 있다. 근본적인 이유는 예측에 실패했을 때 발생하는 비용이 각각 다르기 때문이다. 쿠폰을 발행하지 않았으니 실제로는 아무런 비용도 발생하지 않았고, 고객도 쿠폰을 사용하지 않았으므로 아무런 매출도 일어나지 않았다. 그렇지만, 실제로 쿠폰을 사용할 수도 있는 고객에게 쿠폰을 발행하지 않았다면, 해당 고객으로부터 발생 가능한 매출은 기회비용이 된다.

다른 사례를 살펴보자. 품질 관리의 기본 기능 중 가장 대표적인 것은 불량의 검출이다. 실제 불량인 제품을 불량이라고 판단하는 것이 기본적인 목적이다. 그 목적 달성이 실패하는 경우를 보자. 첫 번째는 실제 불량품을 정상적인 제품으로 판단하는 경우이고, 두 번째는 정상적인 제품을 불량품이라고 판단하는 경우이다.

이 두 가지 실패에 따른 비용은 크게 달라진다. 먼저 두 번째 경우처럼 정상적인 제품을 불량품이라고 판단하게 되면, 지금까지 제품을 생산하기 위해 투입되었던 비용은 매몰비용(sunk cost)이 된다. 그런데 첫 번째 경우는 이보다 더 심각한 결과를 초래한다. 불량품이 시장에 유통되면, 우선 소비자로부터 반품되는 데 그에 따른 비용뿐만 아니라 소비자가 입은 피해, 브랜드 가치, 시장 경쟁력, 고객 신뢰도에 악영향을 미치게 된다. 그 비용이 얼마가 될 지는 제품이나 기업에 따라 다르겠지만 단순히 하나의 제품을 생산하는데 투입되었던 비용보다는 훨씬 클 것이다. 결국 데이터 분석의 목표를 명확하게 세우는 것만큼 목표 달성 여부를 합리적이고 실질적으로 평가하기 위한 방법을 구체화하는 것도 매우 중요하다

우리는 현재 데이터의 시대를 살고 있다고 한다. 그러나 우리는 어쩌면 데이터에 등 떠밀리는 시대에 살고 있는지도 모른다. 데이터를 가진 것은 분명 기회이고, 시장에서 경쟁우위를 확보할 수 있는 무기가 될 수 있다. 그런데 그 무기를 맹신하게 되거나 잘못 사용하면 분명 나를 찌르거나 벨 수 있는 양날의 검이 될 수 있다는 점을 잊어서는 안된다. 데이터를 가졌다고 모두 미래를 정확하게 볼 수 있고 잘 대비할 수 있는 것은 아니다.


관련글 더보기

댓글 영역