본문 바로가기

dev

Data visualization에 관한 글.

Harvard Business Review에 실린 Sinan Aral형님의 글을 오랜만에 읽었다. 

To Go from Big Data to Big Insight, Start with a Visual 

내용부터 요약하자면 다음과 같다. 

NY times의 특정 기사에 대해 

  1. 트위터 상에서 회자되며 나타나는 행동들 (해당 기사 언급, 대화-멘션-, 리트윗 등등)
  2. 트위터로부터 NY times로 들어오는 트래픽의 양 (트위터 유저가 해당 기사 url을 클릭해서 기사를 읽는 행동) 

A와 B를 서로 비교해보면서 얻고자 하는 insight는 다음과 같다. 

  1. 온라인에서의 행동이 컨텐츠 소비와 어떤 관계가 있는지 이해하고, 예측을 하기 위함 
  2. 입소문을 통해서 사람들이 특정 기사를 얼마나 많이 읽고, 구독하고 이것이 광고 revenue에는 어떤 영향을 미치는지를 이해하기 위함 
  3. 어떻게 하면 NY times가 독자들과 더 끈끈한 소통을 할 수 있을지 insight를 얻기 위함.
아래 그래프에서 가로축은 시간의 흐름을 나타냄. 각 점(vertex)와 라인(edge)은 하나의 트윗과 그로부터 파생된 리트윗들을 나타냄. 
아랫부분의 검은색 그래프는 높을수록 트래픽이 많이 몰렸다는 뜻임.

첫 번째 그래프: 트위터의 활동도 어느 정도 있고, 특정 기사에 트래픽이 몰리는 현상을 수 차례 찾아볼 수 있지만 이 두 가지가 서로 의존적이지 않음(independent)을 볼 수 있음 = 트위터 내의 사용자 활동보다는 외부에서 일어난 일들-예를 들면 블로그나 뉴스 등-이 특정 기사를 읽는지에 더 큰 영향을 미침으로 추측됨.


두 번째 그래프: 트위터의 활동-기사에 대한 언급, 대화, 리트윗-이 굉장히 활발하지만 기사에 몰리는 트래픽은 거의 없음.  기사의 내용이 중요하다기보단 그로 인해 토론을 할 수 있는 화두를 던질 경우에 이런 현상이 일어남. 혹은 토론이 기사의 내용과 많이 빗나가서 진행되는 경우도 있음.


세 번째 그래프: 트위터의 활동이 굉장히 활발할 뿐만 아니라, 특정 인물의 행동과 트래픽이 겹치는 현상을 보여 이들을 "영향력이 있는 사용자 (influencer)"로 볼 수 있음.

입소문과 사용자 컨텐츠 집중도는 그저 단순히 "바이럴 (viral)"하다고 설명하기에는 너무나 다른 패턴이 존재한다는 것이다. 컨텐츠의 내용(타입)에 따라 다른 패턴을 보여주는 것을 알 수 있다.

결론 - 빅데이터를 저장하고 다루는 것은 정말 힘들지만, (여기서 얘기하는 빅데이터는 정말 BIG이다. 굳이 예를 들자면, 2013년 하루에 올라오는 평균 트윗이 5천 8백만건 정도, 의미있는 결과를 내기 위해서는 주제에 따라 다르지만 아무리 양보해도 최소 한달정도의 temporal한 데이터가 필요함) 그보다 더 힘든 것은 이런 대량의 데이터를 어떻게 실용적이고, 의미있는 지식으로 바꾸느냐이다. 이를 위해서는 Data visualization이 필수이며 이를 통해 빅데이터의 어떤 면을 보고, 어떤 질문을 던질 것인가에 대해 적절한 답을 얻을 수 있다고 말한다.