소프트웨어 이야기/ephemeral bubble talk on web 11

검색엔진과 링크 분석

구글이 페이지랭크에 활용해서 널리 알려지게 된 웹페이지의 링크분석 개념은 이미 웹 초기부터 얘기가 있어왔다. 알고리즘과 AI 에 훈련을 받은 사람이 웹 검색에 대해 생각하면 자연스레 도출되는 개념이었기 때문이다. 그렇다고 해서 이들의 업적이 전혀 감해지는 것은 아니다. 먼저 했으니까. 먼저 의미가 있는 것이라는 것을 보였으니까. 나는 HITS 논문을 먼저 보았고, 뒤에 거기에 있는 페이지랭크 레퍼런스를 보고 페이지랭크 논문을 보았다. 그래서 순수한 개념의 아름다움에는 아무래도 HITS에 더 점수를 주고 싶다. " 이 HITS 논문들은 1997-99 년경에 발표된 것이다. 따라서 이 즈음에 검색 품질을 높이는 방법으로 페이지내의 링크관계를 이용하려는 생각이 활발했음을 알 수 있다. 우리는 구글 검색엔진에서..

인터넷 괴담과 information cascade

광우병, 인터넷괴담, 참 세상이 복잡하다. 우리 모두 개인들은 상식적, 합리적으로 살려고 한다. 그렇지만 우리 환경은 우리들을 그렇게 살 수 있도록 내버려두지만은 않는다. 불확실한 가운데 결정을 해야하고, 외부의 시선도 고려해 행동을 해야 할 경우가 많고. 인터넷 시대에 우리들은 난무하는 설과 정보들 중에서 이런 것들을 취득, 분석해서 더 많은, 더 빠른 의사결정을 요구받는다. 어떻게, 이런 요구에 따라 갈 있을까? 이런 것이 맞나? Slow life 운동이 앞으로 더 각광받을 것 같다. 정보화 사회에서, 개인들이 불확실한 정보에 입각해 어떻게 결정을 내리고, 또 이런 것이 어떤 경우에 집단적인 동조 의사결정/행동을 나타내는지에 관심이 있었다. Information cascade를 인터넷 사회에, 웹구조..

구글 검색

구글 검색 기술에 대한 글이다. 페이지랭크에 관한 것은 1998년 발표되었고, 웹검색에 관한 이 글은 2000년에, 구글 검색 엔진 구조에 관한 이글이 2001년 경에 발표되었으니 7~10 년 되는 오래 전 얘기이다. 지금은 어떻게 변했을까? 요즈음 부쩍 소프트웨어의 성능과 품질에 대해 생각을 갖는다. 하드웨어가 싸다 보니 버벅거리면 "몇 대 더 갖다놓으면 된다" 하는 생각이 퍽 널리 퍼져있다. 내가 생각해도 맞는 방법이다. 공학은 trade-off 이다. 진리를 구하는 것이 아니고, 절대 선을 추구하는 것도 아니고, 적절한 타협으로 실용적인 해를 구하는 것이 목표이다. 그렇다 해도, 가끔은 잘 만들어 보고 싶다. 브린과 페이지도 검색엔진을 연구해 보려 할 때 이런 생각을 하지 않았을까 한다. 페이지랭크..

작은 세상 네트워크

웹을 연결성 측면에서 볼 때 크게 4 부분으로 나뉘는 것을 알았다. 그리고 웹페이지간 서로 링크를 따라 통하는 것들이 1/4 정도 밖에 되지 않지만, 만약 통한다면 그 거리가 평균 16 정도인 것을. 물론 웹의 크기가 2억개의 웹페이지일 경우지만. 이 에세이는 Watts와 Strogatz가 10년 전 쓴 것이기에, 앞서 Broder 등이 쓴 Graph Structure... 보다 2년 앞선다. 이 두 글을 서로 비교해 가면서 어떻게 연결되고, 또는 서로 충돌되는 측면이 있는 지 살펴보는 것이 재미있다. 서로 잘 맞는다. 그런데, Broder 등이 쓴 뒤의 논문에 이 small world network이 references에서 빠져 있다. Broder가 Watts와 Strogatz의 글을 알고 있었다면 더..

웹지도

웹의 모양은 어떻게 생겼을까? 지도로 나타내면 어떨까? 웹 지도라면 어떤 것들을 표현해야 할까? 대표적인 연구가 Broder와 그 일당들이 한 Graph structure in the web 이다. 웹페이지를 그래프에서 vertex로 하이퍼링크를 edge로 간주해 웹을 그래프적으로 분석한 것이다. 연구를 한 당시 이들 중에 많은 수가 alta vista에 있었고, 데이터도 alta vista에서 구했는데 이제 alta vista는 역사속으로. 2000년 당시 웹 크기가 약 수십억개 이었을 것이고, 데이터 크기가 2억이니 웹의 약 10% 에 해당하는 데이터로 이 연구 결과가 얻어 졌을 것이다. 지금 웹 크기는 얼마나 될까? 수백억 정도. 아직 천억 단위는 아닐 것도 같고. 우리나라 웹 지도는? 말이 필요 ..

이 세상은 작은 세상일까, 큰 세상일까?

이 세상에서 우리는 서로 얼마나 얽혀 있을까? 나와 이명박대통령은 몇 단계를 걸치면 서로 연결될 수 있을까? 현재의 모든 인간들은 십몇만년 전 공통의 시조 할머니에서 뻗어 나왔다고 본 적이 있으니 분명이 나와 조지 부시도, 파리스 힐튼도 유전적으로 연결되긴 했을 것이다. 이런 것 말고 지금 이 시간 사회적으로 얼마나 가까울까? 이런 생각으로 재미있는 실험을 한 분이 있다. Stanley Milgram이 한 실험에서 미국 한 쪽 구석에 있는 사람에게서 시작되어 동부에 사는 한 특정인에게 편지가 전달되는 것을 보니, 약 1/4 정도 정말로 편지가 전달되고 이 경우 평균 6사람을 거치니 전달되더라 하는 것이다. 여기서 그 유명한 "six degrees of separation", 알고 보니 이 세상은 "작은 ..

사회 - 약한 연결의 힘

우리는 모두 다른 사람들과 함께 사는 사회인 들이다. 방콕족도 있다지만 대부분은 다른 사람들과 관계를 이루면서 살아간다. 웹을 몇 개의 계층, 또는 몇개의 관점에서 볼 수 있다. 가장 기본적이고, 정적인 측면으로는 웹은 static한 웹문서들이 hyperlink로 연결된 것으로 볼 수 있다. 웹문서들이 정말로 static하다고 가정하면 이 네트워크에서 history는 계속 유지되면서 새로운 문서와 연결이 추가되면서 기억을 계속 보존하면서 성장해 가는 네트웍이라 볼 수 있다. 그렇지만 웹은 이런 관계만 있는 것이 아니라는 것을 우리는 안다. 개인들간의 관계가, 먼 거리를 보지 못하는 개인들간의 상호작용이 어떻게 거시적인 사회적 현상을 만드는 지 관심을 갖아 연구를 한 양반중에 M. Granovetter가 ..

나눌수록 커진다

웹은 공평하지 않다. 먼저 자리를 잡은 녀석이 더욱 커진다. 그렇지만, 웹은 성장 중이다. 규모의 성장은 틈틈이 근본적 질적 변화를 요구한다. 한 phase의 거침없는 성장은 그 내부의 그 성장을 대체할 새로운 씨앗을 잉태한다. 또 다른 스케일, 더 긴 시간으로 보면 대부분의 경쟁적, dynamic 시스템에서 영원한 것은 없다. 이래서, 또 공평하다. 공부할 때, 논문들을 찾기에 많은 노력을 기울이곤 했다. 도서관에 모든 논문들이 있는 것도 아니고, 또 어떤 논문집은 한참 떨어진 의대 도서관에 있고, SCI로 최근 논문들 추적하는 것도 그렇고. 2005년 부터 쓰기 시작한 구글 학술검색이 없던 때 어떻게 지냈는지 벌써 가물가물하다. 그동안 LG상남도서관의 도움을 받다가 구글 Scholar를 알게 되었다...

영원한 로망스

이번 학기 대학원에서 웹과 사회에 관한 강의를 하게 되었다. 오래 전부터 관심이 있던 분야이었다가, 이번에는 학생들과 조금 더 많은 얘기를 나누고 싶어 시작해 보았다. 논문들을 읽으면서 진행하는데, 반응이 좋다. 두뇌, 지능, 의식을 과학적으로 이해해 보려는 사람들이 있다. 나도 벌써 20년 동안, 틈이 나면 떠 오르는 생각이다. 우리 뇌는 수백억개의 뉴론들이 서로 연결되어 그 신호 전달과 취합과정에서 우리가 아는 모든 지적, 감정적, 또는 영혼적 행동이 나타난다. 여기서 영감을 얻기도 했고, 또 그래서 인공지능 하는 사람들 중에서 지능이란 것을, 분산된 약간만 지능이 있는 것들이 함께 협동을 잘 해서 보다 통합적인 지능이 생성될 수 있다고 생각하는 사람들이 있다. 웹을 처음 보았을 때 비슷한 필이 왔다..