본문 바로가기

트위터

(2)
Data visualization에 관한 글. Harvard Business Review에 실린 Sinan Aral형님의 글을 오랜만에 읽었다. To Go from Big Data to Big Insight, Start with a Visual 내용부터 요약하자면 다음과 같다. NY times의 특정 기사에 대해 트위터 상에서 회자되며 나타나는 행동들 (해당 기사 언급, 대화-멘션-, 리트윗 등등)트위터로부터 NY times로 들어오는 트래픽의 양 (트위터 유저가 해당 기사 url을 클릭해서 기사를 읽는 행동) A와 B를 서로 비교해보면서 얻고자 하는 insight는 다음과 같다. 온라인에서의 행동이 컨텐츠 소비와 어떤 관계가 있는지 이해하고, 예측을 하기 위함 입소문을 통해서 사람들이 특정 기사를 얼마나 많이 읽고, 구독하고 이것이 광고 reven..
빅데이터가 아름답지 않은 이유. 너나 나나 자꾸 빅데이터 분석만 하면 원하는 결과가 아주 턱턱 나올 것처럼 아름다운 이야기들을 내놓고 있는데.데이터가 커진다는건 그만큼 노이즈도 많아지게 되고, 그럴수록 오히려 정확한 결과를 도출하기가 더 힘들어지는 것을 알고 그런 이야기를 하는지 모르겠다. 아주 잘 정제된 깨끗한 데이터라면, 물론 데이터가 클 수록 분석시에 선택할 수 있는 옵션이 많아져서 결과가 당연히 좋아지겠지만. 요즘 빅데이터라고 부를만큼 큰 양질의 데이터는 극히 드물게 존재하고, 이제는 다양한 환경과 취향 분석에 심심찮게 쓰이는 트위터 분석조차도 그 데이터의 정제에 상당한 노력과 시간을 필요로 한다. 게다가 이러한 노력, 시간을 들인 후에라도 그 결과에 대한 최소한의 신뢰도를 보장하는게 너무나 어려운 일임을 좀 알고 기사 좀 쓰시..