소프트웨어 이야기/ephemeral bubble talk on web

검색엔진과 링크 분석

이현봉 2008. 5. 23. 10:23
구글이 페이지랭크에 활용해서 널리 알려지게 된 웹페이지의 링크분석 개념은 이미 웹 초기부터 얘기가 있어왔다.  알고리즘과 AI 에 훈련을 받은 사람이 웹 검색에 대해 생각하면 자연스레 도출되는 개념이었기 때문이다.  그렇다고 해서 이들의 업적이 전혀 감해지는 것은 아니다.  먼저 했으니까.  먼저 의미가 있는 것이라는 것을 보였으니까.

나는 HITS 논문을 먼저 보았고, 뒤에 거기에 있는 페이지랭크 레퍼런스를 보고 페이지랭크 논문을 보았다. 
그래서 순수한 개념의 아름다움에는 아무래도 HITS에 더 점수를 주고 싶다. 

"
이 HITS 논문들은 1997-99 년경에 발표된 것이다.  따라서 이 즈음에 검색 품질을 높이는 방법으로 페이지내의 링크관계를 이용하려는 생각이 활발했음을 알 수 있다.

우리는 구글 검색엔진에서 페이지랭크를 보았고 또 비슷한 시대의 HITS를 보았다.  대학원생이던 Page와 Brin은 구글을 만들었고 교수이던 Kleinberg는 논문을 썼다.  어떤 사람들은 HITS가 페이지랭크에게 영감을 주었다고 한다.

페이지랭크값은 검색어와 관련없이 순수하게 링크연결이 의미하는 voting 지표에 따라 나온 값이지만 HITS의 HUB값과 AUTHORITY값은 검색어와 관계가 있다.  그러니, 같은 hub-authority 값을 지닌 페이지들이라도 주제가 다르면 절대적인 잣대로 중요성을 비교할 수 없을 것이다.  검색어가 다르지만 각각의 검색어내에서 hub-authority 값이 같은 페이지는 그 검색어내에서 상대적인 중요성 레벨이 같다고 생각할 수 있을 것 같다.  

HITS에서 base set을 선정 시 우선 기본적으로 순수 text based search를 해서 그 중 가능성 있는 페이지들로 base set를 결정하는 데, 이 때 root set를 갖고 connected component 특성을 갖는 방향으로 성장시킨다.  앞서 우리는 A. Broder 일당들의 논문에서 웹의 그래프 구조를 보았다.  거기에서 웹의 약 ¼ 정도가 strongly connected component라고 보았다.  그러면, 검색어에 대해 순수 text based search 한 결과인 Qs 에 대해 가장 큰 strongly connected component를 구해 여기에 HITS 를 적용하면 어떻게 될까?  이 때에 strongly connected component 크기가 ¼ 이 넘을까?  너무 size 가 큰가?   HITS를 검색어와 상관없이 페이지랭크와 같이 전체웹에 적용하면 어떨까?

한 페이지에 Hub값과 Authority값이 동시에 존재하는데, 이것을 갖고 랭킹을 한다면 이 값들을 어떻게 조합해서 쓰는 것이 좋을까?  검색어에 따라 달라질 수 있나?  컨텐츠 종류에 따라 달라질 수 있나?
"


'소프트웨어 이야기 > ephemeral bubble talk on web' 카테고리의 다른 글

인터넷 괴담과 information cascade  (1) 2008.05.08
구글 검색  (0) 2008.04.24
작은 세상 네트워크  (0) 2008.04.08
웹지도  (0) 2008.04.01
이 세상은 작은 세상일까, 큰 세상일까?  (0) 2008.03.26