본문 바로가기

카테고리 없음

빅데이터 분석대로 미래는 이루어진다

어떤 이론을 놓고서도, 그 이론의 궁극적 효용이란 결국 어떤 모델을 그로부터 도출할 수 있느냐에 달렸다고 해도 과언이 아닙니다. 빅데이터 역시 이를 잘 활용했다는 평가를 받기 위해선 데이터의 정제, 해석을 통해 멋진 모델을 만들어낼 수 있어야 합니다. 물론 많은 이들은 "이 역시 앞으로는 AI가 대신하게 되는 미래"를 예견하고, 또 완성도 높은 AI라면 그 정도가 되어야 마땅하겠지만, 현 2018년 시점에서 보면 그저 SF적 상상력, 기껏해야 혁신을 향한 패기 이상으로는 보이지 않습니다. 이런 까닭에, 구체적으로 빅데이터를 다뤄 보고 HADOOP등 최첨단 솔루션도 돌려 본 분들의 주장, 모범 사례 등에 경청하는 게 일단 데이터 사이언티스트를 꿈 꾸는 젊은이들의 우선 순위 과제인 듯합니다. "추상적인" 빅데이터 만능론보다, 실제로 업무를 시행해 본 분들의 체험담이 훨씬 그들에게 유용하고 반갑게 와 닿기 때문이죠.빅데이터 시론은 요즘 경영학과 교수님들 사이에서 부쩍 의욕적으로 제안되며, 또 참고할 만한 시사점, 인사이트가 많이 발견되기도 하죠. 이 책도 말하자면 그런 부류에 속하는데, 일반론도 길게 나오지만 교수님(즉 저자)의 실제 연구와 적용을 바탕으로 한 경험담이 흥미로웠습니다. 책은 작년 3월에 출간되었는데, 이때면 아직 한국에선 대선이 치러지기 전이며 미국에서는 전년도 11월에 있은 선거 결과에 따라 새 대통령이 취임하고 두어 달이 지난 시점입니다. 얼마 전에도 모 정당이 여론 조사 결과의 공정성에 시비를 거는 일이 있었는데, 저 무렵이면 한국에서의 여론조사는 대체로 실제 결과와 맞아떨어지고 반대로 미국에서는 크게 어긋나서 이의 해석을 두고 논란이 분분할 때입니다.2016년 7월 저자 우종필 교수는 매경과의 인터뷰에서 트럼프의 승리를 예견하는 언급을 해서 주목을 끌었고, 이 예견은 4개월 뒤 현실로 드러났습니다. http://news.mk.co.kr/newsRead.php?year=2016&no=508898 이 링크로 가 보시면 흔히 교수들이 취하는 태도처럼 "그럴 수도 있다, 가능성이 적지 않다" 같은 모호한 화법이 아니라, 구글 트렌드에서 몇 가지 시도를 해 보고는 "이대로라면 트럼프가 이긴다"는 결론을 선명히 내놓았다는 걸 알 수 있습니다. 이상 징후는 이뿐이 아니라, 당시 내한했던 한국계 지식인들 여러 명이, 특정 지역 특정 계층에서 트럼프의 지지세가 어마무시하다는 현장에서의 느낌을 그대로 전함으로써, 낡은 기법에 집착하는 여론조사가 미처 보지 못한 민심의 민낯을 엿볼 수 있게 도왔습니다.FIFA 월드컵에서도, 소위 "돈은 거짓말을 않는다"는 속설 때문에, 특정 경기의 승패는 도박사들이 가장 정확히 맞히곤 하죠. 헌데 2년 전 브렉시트 국민투표에서는 이들조차 헛다리를 짚었고, 대신 구글 트렌드가 의미 있는 결과를 내놓았습니다. 구글 트렌드가 물론 "영국이 EU에 남는다, 아니다"를 점쟁이처럼 맞히는 건 아닙니다. 해석은 역시 사람이 해야 하는데(생각해 보니 점괘도 스스로 말하는 건 아니고 점쟁이가 해석을 해 줘야 하는군요), 우 교수는 해당 지표를 보고 다른 결론, 해석이 나오기가 힘들다고 관측하신 거죠."많아야 1000명 안팎인 표본을 두고서는 제대로 민심을 읽을 수 없다." 물론 전통적인 방식을 선호하는 통계학자들은 크게 반발할 겁니다. 1000명 안팎의 표본으로도 얼마든지 모집단의 경향을 추측할 수 있음은 이미 수학적, 통계학적으로 확립된 이론이라면서요. 하지만 표본의 추출, 심지어는 "보정" 과정에서 많은 오류가 낄 수 있음도 이미 이론적으로 얼마든지 뒷받침됩니다. 게다가, 표본의 수에서 상대가 될 수 없는 빅데이터 기반의 연구, 결론 앞에서야 이런 주장이 설 땅이 대단히 좁아지는 것도 명백하죠. 서로 다른 무기를 갖고 붙는 게 아니라, 같은 종류의 도구를 지니고 싸우는데 한 편이 다른 편에 비해 스펙이 월등하다면 승부는 더 보나마나이니까요.

2016년 여름 트럼프 당선에 대비하라 고 홀로 주장했던 한 학자의 놀라운 빅데이터 분석 기법 - 드디어 책으로 출간! 여론조사만 보면 힐러리 클린턴이 이긴다고 다들 생각하지요. 하지만 구글 빅데이터는 완전히 다른 얘기를 하고 있습니다. 한국도 혹시 모를 시나리오에 미리 대비해야 합니다. 2016년 7월. 그 누구도 도널드 트럼프의 대선 승리를 예상치 못했던 그 시기, [매일경제신문]에 빅데이터는 트럼프 승리 예상… 한국도 대비해야 란 제목의 기사가 실렸다. 우종필 세종대 교수와의 인터뷰 기사다. 그리고 그는 미국 대선 일주일전 개인 홈페이지에 당선자와 선거인단 수를 다시 한 번 예측한다. 트럼프 당선이란 결과가 나와 버린 지금이야 사실 그럴 줄 알았다 며 이런 저런 분석을 내놓는 ‘자칭 전문가’들이 수두룩하다. 하지만 그건 트럼프 당선 확정일인 2016년 11월 9일(한국 시간) 이후의 일이다. 당장 11월 9일 아침만 해도 트럼프의 당선을 이야기하는 사람은 아무도 없었다. 백이면 백, 힐러리 당선을 예상하고 있던 상황에서 주류 학계 학자가 일찌감치 트럼프 당선에 대비하라 고 언론에 밝힌 까닭은 뭘까. 혹시라도 틀리게 될 경우 본인 이름에 치명타가 될 수도 있는데 말이다. 다른 이유는 없었다. 바로 ‘숫자(데이터)가 그렇게 말하고 있었기 때문’이었다.

01 빅데이터를 이용한 선거예측
여론조사의 허점
구글 트렌드를 이용한 선거예측
브렉시트
미국 대선 제도
2016 미국 대선
2016 미국 대선 결과 및 예측
한국의 선거들

02 구글 트렌드를 이용한 기업의 매출액 및 주가 예측
기업의 매출 예측 가능성
월마트와 아마존
미국 10대 유통 기업들
장기적 관점에서 분석한 검색량과 매출액 그리고 주가
한국 기업들
구글 트렌드 분석의 한계점

03 구글 트렌드와 마케팅
올해의 단어들
전자담배Vape
영화

04 빅데이터를 알아야 살아남는다
빅데이터란?
빅데이터의 장점
빅데이터 적용사례
아마존과 빅데이터
데이터 사이언티스트
빅데이터의 문제와 한계점