모두 거짓말을 한다. Everybody lies.
세스 스티븐스 다비도위츠 지음
책 출간 당시 꽤 화제가 되었던 책인데 최근에야 읽게 되었다. 저자는 구글에서 데이터 분석일을 하고 그 관련으로 논문도 썼다. 데이터 마이닝에 대한 분야를 여러 방면으로 잘 소개한 책이다. 은 구성이 짜임새가 있고 실제 예시들이 재미있었고 사고 방식과 인생에 대한 통찰력도 얻을 수 있었다.
[아래는 책에서 인상 깊었던 구절]
인간은 극적인 것에 강한 흥미를 느끼기 때문에 직관에 의지하면 판단이 흔들릴 수 있다. 우리느 기억에 강하게 남는 이야기의 소재가 꽤 일반적으로 과대평가한다. 들은 것이나 개인적인 경험에만 의존하면 세상이 어떻게 돌아가는지에 관해 틀리게 생각하기 쉽다. 데이터 분석 결과는 직관과 다르게 나올 경우가 많다. 그래서 직관보다는 데이터를 기반으로 사고와 결정을 해야 오류가 덜하다.
빅데이터로 분석할 수 있는 것들은 여러가지가 있다. 프로이트는 반대 성 부모와의 성경험에 대한 욕구가 어린 시절에는 보편적이지만 이후에는 억압된다는 가설을 내세웠다. 프로이트 시절에는 이를 검증할 수 없었다. 오늘날 pornhub 덕분에 프로이트의 가설을 검증할 수 있게 되었다. 구글에 "나는 ( )와 섹스를 하고 싶다."라는 구글 검색어의 ( )에 엄마를 집어 넣으면 이와 유사한 검색어의 3/4이 근친상관과 관련있다고 한다.
이전에는 짐작만 할 뿐 확인할 수 없었던 영역에 대한 다양한 창을 열어주는 독특한 데이터 소스가 지금은 많다. 새로운 유형의 데이터 제공이 빅데이터의 첫번째 힘이다.
주위에 지켜보는 사람이 없어서 솔직할 수 있는 pornhub 검색어나 구글 검색어에 사람들의 속마음이 잘 드러난다. 솔직한 데이터 제공은 빅데이터의 두번째 힘이다. 작은 집단도 클로즈업해서 볼 수 잇는 것이 빅데이터의 세번째 힘이다.
여러 연구 결과에 따르면 미국의 남성 중 2%가 동성애자라고 알려져있으나 실제 구글 검색어의 동성애 관련 키워드 검색을 조사하면 미국 남성의 5%가 동성애자라는 결과가 도출된다.
검색 데이터는 성난 사람들을 가르치려고 하면 분노가 오히려 커진다고 말한다. 오바마가 무슬림에 대해서 연설할 때 그들에 대해 차별을 하지 말아야한다는 당위성에 대해 이야기하였다. 사람들은 그 연설이 훌륭하다고 말했지만 실제로 검색 결과에 따르면 연설 직후에 무슬림과 혐오 키워드 검색이 더 많이 늘었다. 2달 후에 오바마가 무슬림에 대해서 연설을 할 때 이번에는 아프리카 출신 노예들 중에 이슬람 교도가 많고 제퍼슨 대통령도 코란을 가지고 있었다고 말한 다음 미국의 무슬림 경찰, 소방관 등등에 대해 이야기했을 때 무슬림에 대한 악의에 찬 검색어들의 순위가 떨어졌다.
도플갱어. 빅 데이터에 따르면 신체적 특성, 출신 지역, 교육 수준, 취미 등등의 요소가 나와 비슷한 사람을 찾아내어서 그 사람을 도플갱어로 지정한 다음, 그 도플갱어가 나보다 몇 년이 앞선 사람이라면 그 사람 인생의 흥망 성쇄를 통해서 나의 흥망 성쇄도 짐작할 수 있다. 이는 야구 선수의 신체적 특성 분석을 통해서 어떤 야구 선수의 이후 성적을 예측하는데 사용되었다.
온세상이 실험실. 구글의 A/B 테스트는 매우 유용하다.
실험집단/통제집단.
뉴욕에 있는 스타이버선트 고등학교는 일류 고등학교. 간발의 차이로 스타이버선트 고등학교에 입학하지 못한 일마즈는 프린스턴 대학에 떨어지고 터프즈 대학에 입학. 그렇고 그런 회사에 입학해서 지루한 회사에 다니고 있다. 그는 항상 스타이버선트 고등학교에 합격했으면 자기 인생이 달라졌을 거라고 말한다. 스타이버선트 고등학교에 아슬아슬하게 입학한 사람들은 어떨까. 이들의 SAT 점수는 스타이버서트 고등학교에 아슬아슬하게 떨어진 사람들과 점수차가 별로 없었다. 즉 스타이버선트 효과는 없었다는 것.
마지막 챕터에서는 빅데이터로 하지 말아야 할 것에 대해 다룬다. 빅 데이터는 대출을 받으러 온 사람들의 단어를 통해 이 사람들이 돈을 갚을 것인가 말 것인가를 추측할 수 있다. 하나님을 말한 사람들 중 많은 사람들이 돈을 갚지 않고, 자신의 자산 상태와 채무 변재의 계획에 대해 이야기 하는 사람은 갚을 확률이 높다. 하지만 이러한 데이터를 기업이 쥐게 되면 무서운 사회가 될 것이다. 우리가 말하는 모든 단어들이 기업의 입장에서는 판단의 근거로 사용될 것이므로. 검색 데이터를 분석해서 범죄 발생을 막을 수도 있다. 이는 유의미한 데이터이긴 하다. 하지만 이는 1/10000이고 실제로 이 데이터를 토대로 사람의 행동을 통제한다면 범죄의 예방보다 멀쩡한 사람을 예비 범죄인으로 몰아간 부작용이 더 클 것이다.