KISTI 『글로벌동향브리핑(GTB)』 2008-04-13
웹 2.0 붐을 타고 각종 미디어와 네트워크, 블로그에 대한 관심이 쏠리는 가운데, 최근 미국 시애틀에서는 흥미로운 학술회의가 열렸다. 블로그와 웹 2.0형 사회적 미디어만을 전문적으로 다루는 국제 학회 ICWSM(http://www.icwsm.org/2008)이다. 유타 대학교에서 인공지능을 연구 중인 핼 다움(http://www.cs.utah.edu/~hal/)의 자연언어 처리 블로그에 객원 필자로 학회 참석 후기를 올린 케빈 더(Kevin Duh)에 따르면, 이번 학술회의는 유관 분야인 데이터마이닝, 자연언어 처리, 심리학, 사회학, 정보과학 분야에서 전문가들이 모여든 학제간 연구 토론의 표본이었다.
이 학회에서 다루는 미디어란 1인 미디어로 확실히 자리 잡은 블로그[[GTB2005061019]를 포함하여, 뉴스그룹이나 각종 온라인 커뮤니티까지 망라한다. 웹 2.0 흐름과 함께 커뮤니티화의 속도는 가속되었고, 페이스북(http://www.facebook.com/), 플리커(http://flickr.com/), 유튜브(http://youtube.com/), 딜리셔스 등 각종 인기 사이트는 모두 온라인 커뮤니티로 분류된다. 이들 사이트는 사진 공유나 동영상 공유, 북마크 공유 등 각자 목적은 다르지만, 여러 사용자가 일종의 가상 네트워크를 이루면서 공동으로 꾸며가는 동적 미디어라는 공통점이 있다. 한쪽으로만 일방적으로 정보가 전달되던 전통적인 정적 미디어와는 전혀 다른 개념이다.
이번 학술회의에서 눈길을 끈 주제는 웹 2.0 미디어와 관련된 새로운 응용 기술들이었다. 이는 블로그와 미디어의 잠재력이 크다는 점에서 학계뿐 아니라 산업계에서도 관심을 보였기 때문이다. 이러한 현상은 블로그에 대한 투자 규모를 보면 알 수 있다. 정보통신 업계의 큰손인 구글이 블로거(http://www.bloggeer.com/)를 인수해 블로그 출판 부문을 장악하려 시도한 것이나, 탄탄한 검색엔진 기업인 애스크닷컴(http://www.ask.com/)이 반대로 블로그라인(http://www.bloglines.com/)을 통해 블로그 독자층 흡수를 노리는 것도 모두 이 때문이다[GTB2005051510][GTB2006060109]. 블로그 독자에 대한 상세한 연구가 나오는 등 학계도 블로그 현상에 주목하기 시작했다[GTB2008040307].
스토니브룩 소재 뉴욕 주립 대학교의 블로그 감정 분석 장치(http://www.cs.sunysb.edu/%7Embautin/pdf/int_senti_analysis.pd)는, 국제적으로 방대하게 영역을 확장한 블로그 공간을 새로운 기술 활용의 무대로 보는 거시적 시각이 잘 드러난 연구이다. 이 시스템은 그동안 텍스트 마이닝 분야에서 연구되어 온 텍스트 분석 기술[GTB2007050094][GTB200706067]을 활용하여, 블로그에서 특정 사건이나 인물에 대한 반응을 자동으로 추출한다. 예컨대 부시나 푸틴 같은 유명 정치인의 언행이나 정치적 상황에 따라 대중의 선호도가 급격한 변화를 보인다. 블로그와 온라인 커뮤니티는 정치적 이슈가 있을 때마다 후끈 달아오른다. 매번 여론 조사를 하지 않고도 블로그나 게시판에 올라오는 글을 자동 분석하여 대중의 의견을 파악할 수 있다면 실용적일 것이다. 스티븐 시키나(http://www.cs.sunysb.edu/~skiena/)의 블로그 감정 분석 시스템은 바로 이러한 아이디어에서 시작되었다. 특이한 점은 블로그에 국경이 없다는 점에 착안하여 여러 언어로 된 블로그 글을 통합 분석할 수 있도록 했다는 것이다.
정치학자들은 이 도구를 이용하여 하나의 사건에 대한 여러 나라 네티즌의 다른 반응을 짚어내고 분석할 수 있을 것이다. 예를 들어 일본의 총리가 야스쿠니 신사를 방문했다면, 일본과 한국, 중국의 네티즌들은 전혀 다른 감정을 블로그 공간에 표출할 것이다. 다국어 블로그 분석을 실현하려면 기술적으로 두 가지 방식이 가능하다. 첫 번째는 기계학습 기반의 분석기를 처음부터 여러 언어 데이터로 훈련하는 단순한 방법이다. 두 번째는 하나의 분석기와 자동 번역 시스템을 결합하는 방식으로, 개발 비용이 훨씬 싸다는 장점이 있다. 통계적 기법을 이용한 자동 번역 시스템의 발달[GTB2006110949][GTB2006120111]로, 두 번째 방식을 구현할 수 있게 된 것이 결정적인 계기가 되었다. 스키나는 단순한 감정 분석에 그치지 않고, 세계 지도 위에 호감도를 한눈에 볼 수 있도록 표시하는 직관적 그래픽 기반 인터페이스도 개발해 눈길을 끌었다.
마이크로소프트의 블루스(BLEWS, http://research.microsoft.com/projects/blews/blews.aspx)도 블로그 여론 분석 도구라는 점에서 스키나의 시스템과 맥락을 같이한다. 관련 분야 유명 학자들이 공동으로 참여한 이 연구는, 정치적인 블로그 포스팅은 글쓴이의 성향에 따라 보수적이거나 자유주의적인 특정 시각을 갖고 된다는 전제에서 출발한다. 블루스를 활용하면 독자들은 같은 사안에 대한 다양한 스펙트럼의 정치적 주장을 볼 수 있다. 기술적인 측면에서는 기존 방식에서 흔히 쓰던 정보 추출 기반의 블로그 내용 분석[GTB2006090878]만이 아니라 링크 분석하는 기법이 도입되었다는 점이 특징이다(http://research.microsoft.com/%7Echrisko/papers/icwsm_paper.pdf). 이를테면 어느 포스팅이나 블로그 저자의 정치적 성향을 판별할 때, 조선일보와 오마이뉴스, 워싱턴 포스트와 커먼드림즈 기사로 향하는 링크 개수를 세는 것부터 시작하여 점진적으로 계산해 나가는 것이다. 블루스는 자연언어 처리, 링크 분석, 시각화 등 전산학의 여러 기반 기술을 조합해 개발한 독창적인 시스템으로 호평을 받았다(테크크런치, “블루스 소개”, http://www.techcrunch.com/2008/03/06/microsoft-blews-brings-back-memories-of-rocket-pops-at-the-beach/)(PBS 블로그, “마이크로소프트의 블루스”, http://www.pbs.org/engage/blog/microsoft-singing-political-blews).
카네기 멜론 대학교에서 개발한 게시판 쓰레드 분석기도 흥미롭다. 이 응용 프로그램은 2차원적인 게시판 구조 속에서 대화와 토론이 중구난방으로 이루어질 때, 뒤늦게 토론에 뛰어든 사람은 과거의 논의를 한눈에 이해하거나 분석하기 어렵다는 점에 착안했다. 여러 사용자가 각자 한 마디씩 던질 수 있는 게시판은 본질적으로 입체적인 장소이므로, 논의가 길어지다 보면 평면적인 구조로는 표현할 수 없는 복잡한 실타래가 생성된다. 텍스트 분석 분야의 권위자인 윌리엄 코헨(http://www-2.cs.cmu.edu/~wcohen/)이 개발한 쓰레드 분석기는 자연언어 처리 기법을 이용해 쓰레드를 자동 파악하고 그래프 형식으로 보여준다. 현재로서는 구조가 정해져 있어 상대적으로 추적이 쉬운 편인 뉴스그룹 게시판에서만 사용할 수 있다는 점이 단점이다.
학술회의 주최 측이 시상하는 최우수 논문상을 받은 워싱턴 주립 대학교의 논문(http://www.cs.washington.edu/homes/ivan/papers/icwsm08.pdf)은 위키피디아 백과사전에 대한 연구를 다루었다. 위키의 활용 범위가 크게 확장되면서 대표적인 성공 사례인 위키피디아(http://www.wikipedia.org/)에 대한 관심도 계속 늘고 있다[GTB2007020765]. 이반 베샤스트니크(http://www.cs.washington.edu/homes/ivan/)의 주도로 이루어진 이 연구는 위키피디아의 일반 백과사전 공간이 아닌 집필자 토론 공간을 분석하여, 협력적 공동 작업이 이루어지는 과정에서의 의사결정 진행 과정을 탐구하고 있다. IBM 연구소의 위키피디아 연구(http://www.research.ibm.com/visual/papers/hidden_order_wikipedia.pdf) 등 비슷한 연구가 많이 수행되는 중이나, 전형적인 소셜 네트워크와는 다른 특성을 보이는 토론 페이지에 주목하는 점에서 독특한 점이 있다.
웹 2.0에서 가장 중요한 개념 중 하나인 공동 태깅(tagging)[GTB2005111287][GTB2007020455]과 관련된 제록스 연구소의 연구(http://www-users.cs.umn.edu/%7Eechi/papers/2008-ICWSM/2008-03-tagging-encoding-ICWSM.pdf)는, 시간 축을 따라 변화는 온라인 커뮤니티의 골격에 관심을 보인다는 점에서 위키피디아의 토론 구조 연구와 공통점이 있다. 태깅은 딜리셔스(http://del.icio.us/) 등 공유 북마크 사이트를 시작으로 지금은 거의 도입되지 않은 사이트가 없을 정도로 크게 활용되고 있다. 제록스 연구소는 자유로운 태깅 시스템에서 콘텐츠에 공동으로 붙이는 태그가 쌓여가는 과정을 정보공학 관점에서 추적했다. 이 연구 자체는 태그의 효율성을 재는데 치중하고 있으나, 방법론적 측면에서 일반적인 지식의 공동 축적 과정을 분석할 때 활용될 수 있을 것으로 보인다.
전반적으로 이 분야 연구는 아직 시작 단계이다. 이번에 열린 학술회의도 제2회로 개최된 것이다. 전산학과 언어학이 만나 전산언어학이라는 새 학문 분야가 탄생했듯이, 웹 2.0을 중심으로 여러 학문 분야가 만나 “사회적 전산언어학”이라는 새로운 분야가 처음 구성되고 있는 시점이다. 앞으로도 학제간 연구가 활성화되어 더 큰 학문으로 발전하고 더 많은 응용 시스템 개발로 연결될 가능성이 크다. 이 분야에서 새로 시작하는 벤처 기업도 적지 않은 것으로 알려져, 상업적인 잠재력을 높이 평가받고 있다. 올해 학술회의에서는 단순한 콘텐츠 공유 사이트와 이미 많은 연구가 진행된 위키피디아에 대한 논의가 많은 편이었으나, 향후 좀 더 구조가 복잡한 소셜 네트워크[GTB2008010727], 집단참여형 뉴스 사이트[GTB2007030804][GTB2008030746]로 연구 범위가 확장되어야 할 필요성이 있다.
http://nlpers.blogspot.com/