소셜 검색 알고리듬 찾기

웹 검색에 있어 PageRank가 가져온 영향력을 볼 때, 소셜 데이터가 실시간으로 전달되는 현 시대의 검색 패러다임에 걸맞는 알고리듬이 필요한 시점이 되었다.

1998년에 Larry Page와 Sergey Brin이 발표한 "Anatomy of a Large-Scale Hypertextual Search Engine"라는 논문을 빗댄 "Anatomy of a Large-Scale Social Search Engine"라는 논문을 블로그에 공개했다.  이 논문은 페이지랭크 논문이 WWW1998에서 발표된 것 처럼 오는 4월 WWW2010에서 발표된다.

이 논문의 저자들은 Q&A 기반 소셜 검색 엔진 개발 회사은 Aardvark의 개발자들로서 구글에 근무하던 직원들이 2008년에 만든 회사다. Aardvark은 내가 가지고 있는 소셜 네트웍에 질문을 던져서 빠르고 신뢰할만한 해답을 얻기 위한 서비스로서 메신저나 메일을 이용할 수 있는 특징이 있다.


구글이 도서관이라면 마을에 빗댄 그들의 알고리듬은 몇 가지 차이점이 있다. 페이지랭크가 정보의 롱테일에 기반한 크롤러와 랭킹에 기반한다면 소셜 검색에서는 어떤 주제를 잘 아는 양질의 사용자의 양이 중요하고 이를 유지 시키는 것이 관건이다.

특히, 그런 사용자의 과거 블로그 글, 트윗 내용, 소셜 네트웍 내 사용자들의 성향 같은 것이 중요하고 특히 동질의 사용자들이라고 가정한다. 문서 검색 엔진에서 링크의 권위에 해당하는 신뢰도는 정보를 주는 사람과 사용자의 친밀도와 관계성에 기초를 둔다.

구글이 키워드에 대해 적당한 문서를 찾아 랭킹을 맺어 주는 대신 Aardvark은 그 주제에 대해 알고 있는 사람을 제시한다.


대략 10만명의 사용자를 기반으로 조사해 본 결과 55.9%가 질문하거나 대답 했고, 일평균 3,167건 정도였다. 액티브 사용자의 월 평균 질문수는 3.1건이고, 신속한 답변을 얻기 위해 모바일에서 더 많이 사용했다. 질문의 87% 정도는 답변을 받았고 60%는 10분내, 평균 6분 37초내에는 답을 받았다. 70%의 사용자들이 답에 대해 만족을 표했다고...

이 논문은 소셜 네트웍 내에서 정보의 흐름과 이를 계량화 하는 좋은 예가 된다. 구글 버즈 출시 후 세르게이 브린은 "사용자들의 행동을 주시하는 것이 소셜 검색의 중요한 팩터이고 스팸을 감내하면서도 사용자에게 적절한 추천을 해 줄 수 있는 시스템을 만들 수 있느냐가 큰 도전"이라고 소셜 검색에 대한 의견을 밝혔다.

아이러니하게도 오늘 구글이 이 회사를 5천만불에 인수한다고 밝혔다. 회사 창업자인 Mac Ventilla는 애드센스를 만들었고, Nathan Still는 구글 뉴스를 이끌었던 인물로 다시 구글로 돌아가게 되었다.

따라서, 소셜 검색은 이러한 실시간성, 연관성, 신뢰성을 기반으로 빠르게 전달해 주어야 하는 만큼 실시간 검색이라는 이름으로도 불린다. 기존 검색엔진이 크롤링과 인덱싱, 랭킹이라는 정적인 방식이라면  소셜 검색은 블로그, 트위터와 소셜미디어를 기반한다.

국내에서도 소셜 검색에 대한 관심이 증가되고 있다. 그 중 라이브K라는 회사는 아마 내가 보기엔 최초로 실시간 소셜 검색에 집중하는 회사이다.
 

RSS 기반 블로그 검색 엔진인 Feedmil.com을 만드셨던 서울대 박종헌 교수님의 기술 지원하에 만들어진 서비스이므로 꽤 신뢰할 만 하다. 우리 나라 만큼 소셜 네트웍과 액티비티가 강한 나라에서 무언가 만들어 낸다면 좋은 시도와 본보기가 될 것 같다.

누가 차세대 "Anatomy of a Large-Scale"의 타이틀을 획득할지 기대가 되고 우리 연구자들에게도 여전히 기회가 열려 있다.

업데이트. 구글은 Aardvark 인수를 발표 하면서 기존의 경우와 달리 Google Labs를 통해 본격적으로 서비스를 시작하고 있다.

'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08