May 29, 2008

시맨틱 기술 동향

KISTI 『글로벌동향브리핑(GTB)』 2008-05-27
최근 캘리포니아 주의 실리콘밸리 한가운데에서 “시맨틱 기술 회의”(http://www.semantic-conference.com/))라는 다소 생소한 명칭의 행사가 열렸다. 시맨틱 웹의 구성 요소로 잘 알려진 시맨틱 기술[GTB2004100149][GTB2006110219]이 웹이라는 한계를 벗어나 자체 기술로서의 존재감과 발전 전망을 확인하는 행사였다. 주최 측은 최신 기술을 다루는 회의답게 공식 웹 사이트에 시맨틱 기술이 구현된 개인 맞춤형 달력(http://www.semantic-conference.com/scheduler/)을 선보이며 눈길을 끌기도 했다. 또한, 사이트 접속에는 오픈아이디 인증[GTB200801051]을 사용하는 등 최신 추세를 모두 반영했다.

시맨틱 기술 회의를 통해 선보인 기술은 오래 연구되어 온 기존의 시맨틱 웹 기술을 제외하고 크게 네 가지로 분류될 수 있다. 첫 번째는 웹 2.0에서 가장 주목받는 분야인 소셜 네트워크 기술로, 여기에는 공동 저작 도구와 같은 협력 플랫폼이 포함된다.[GTB2008040783] 두 번째는 웹 프로그래밍에 새로운 개념을 도입한 매쉬업 기술과 데이터에 대한 매쉬업으로 볼 수 있는 데이터 통합 기법이다. 세 번째는 수익 모형이 확립되어 기업들의 관심이 높은 검색 분야에서의 적용을 다룬 시맨틱 검색 기술이다. 마지막으로 장기적 전망에서 웹 3.0을 다루는 몇몇 프로젝트도 선보였다. 이 회의에는 웹 컨소시엄의 이반 허먼(http://www.w3.org/People/Ivan/), RPI의 데보라 맥귀네스(http://www.ksl.stanford.edu/people/dlm/), 프로제니의 매튜 피셔(http://www.progeny.net/People/MattFisher/) 등 이 분야 전문가들이 대거 참여해, 만능 접착제 역할로서의 시맨틱 기술에 대한 관심을 반영했다.

소셜 네트워크가 현대인의 일상에 깊숙하게 침투하면서 온라인과 오프라인 사이의 경계를 허무는 현상이 나타나고 있다.[GTB2008030345] 사용 인구도 폭발적으로 증가하여 수익 모형에 따라서는 거대한 시장을 형성할 수도 있을 것으로 추정된다. 시맨틱 기술은 확장 일로에 있는 소셜 네트워크를 더욱 강화해줄 기술로 주목받고 있다. 여러 종류의 소셜 네트워크가 난립하게 된 만큼 이들을 하나로 엮어 상호호환성을 보장해줄 시맨틱 기술이 필요하기 때문이다. 예를 들어 세계에서 가장 인기 있는 소셜 네트워크라는 마이스페이스(http://myspace.com/)가 이 행사에서 소개한 마이스페이스 ‘데이터 가용성(Data Availability)’이라는 프로젝트는 마이스페이스에서 각 사용자를 표현하는 프로필 데이터를 인터넷에서 두루 사용한다는 계획이다.(“마이스페이스의 데이터 가용성 프로젝트”, http://www.techcrunch.com/2008/05/08/myspace-embraces-data-portability-partners-with-yahoo-ebay-and-twitter/) 데이터의 재사용으로 호환성을 높여 마치 하나의 섬처럼 동떨어져 있던 소셜 네트워크에 더 넓은 세상으로 통하는 다리를 뚫어준다는 설명이다.

매쉬업은 일종의 가상공간인 웹 응용을 묶어 가상공간의 영역을 더 크게 확장하는 것을 목표로 한다[GTB2008040798]. 이때 웹 응용을 마치 조립식 부품처럼 배치함으로써 비전문가도 이리저리 조합하여 새롭고 창조적인 응용을 쉽게 개발할 수 있도록 하는 것이 관건이다.[GTB2006040416] RDF(http://www.w3.org/RDF/)와 같은 시맨틱 기술은 매쉬업 확산에 큰 도움이 될 것으로 보여 이미 오래 전부터 주목을 받아 왔다. 지난해 열린 월드 와이드 웹 학술회의에서 발표된 웹 2.0과 매쉬업 관련 논문(http://www.www2007.org/papers/paper777.pdf)은 플러그인과 시맨틱 기술로 구현된 매쉬업 응용을 예로 들어 이러한 전망을 구체화했다. 올해 행사에서 이 부류에 속하는 것으로 소개된 응용으로는 크리에이티브 커먼즈의 CCRel 언어(wiki.creativecommons.org/images/d/d6/Ccrel-1.0.pdf), 미국 정부의 XML 기반 프레임워크인 NIEM(http://www.niem.gov/), MIT에서 시작된 데이터 중심 벤처 기업 제페이라(http://www.zepheira.com/)의 연구 결과 등이 있었다.

시맨틱 검색 기술은 검색 기술의 확장을 꿈꾼다. 웹 공간에서 관문처럼 사용되는 검색 기술은 놀라운 발전을 이루었지만, 아직 겉으로 드러난 표면을 훑는데 지나지 않아 진정한 지식 검색의 시대는 도래하지 않았다는 것이 시맨틱 검색 옹호론자들의 주장이다. 실제로 검색 기술의 양대 산맥인 구글과 야후 연구소도 시맨틱 검색을 연구 중이다. 이번 행사에서는 야후의 피터 미카(http://www.cs.vu.nl/~pmika/)가 직접 야후가 준비 중인 웹 2.0 검색 기술에 대해 설명했다. 미카에 따르면, 야후는 RDFa(http://www.w3.org/TR/xhtml-rdfa-primer/), GRDDL, hGRDDL(http://www.w3.org/2006/07/SWD/wiki/hGRDDL_Example) 등의 최신 기술을 이용하여 웹 검색의 지능화를 꾀하고 있다.[GTB2006101045] 이 같은 기술이 일종의 표현 수단이라면, 검색 엔진이 정보가 아닌 지식을 보유하려면 일반인 수준의 거대한 상식 체계를 갖추어야 한다는 점에서 다른 측면의 접근 방식도 필요하다. 이를 위한 싸이크(http://www.cyc.com/)와 같은 대형 지식베이스[GTB2001110810]의 구축과 활용에 대한 논의가 이어졌고, 텍스트와이즈(http://www.textwise.com/)에서 개발한 시맨틱 벡터 기법도 사례 연구로 소개되었다.

시맨틱 검색 기술의 세부 분야 중 한 가지 흥미로운 주제는 검색 엔진의 영원한 앙숙인 웹 스팸과 관련된 것이었다.[GTB2007040002] 대부분 공식적인 자리에서는 웹 스팸을 찾아내고 막는 방법이 논의되지만, 실제로 이윤이 남는 분야는 웹 스팸을 개발하는 쪽이다. 이에 따라 검색 엔진 최적화(Search engine Optimization)라는 이름 아래 합법적인 웹 스팸 개발 또는 사용자 유인 기술이 하나의 실용적인 기술 영역을 형성하고 있다. 시맨틱 기술 측면에서 보면 지금까지의 검색 엔진 최적화 작업은 기초적인 수준에 머물러 있다. 시맨틱 도구를 이용하여 해당 페이지의 성격을 명확히 하거나 강조하면 검색 엔진의 알고리즘을 역이용하여 검색 순위를 높일 수 있다는 것이다. 이는 구글과 야후 등 많은 검색 엔진이 초기의 단순한 링크 분석 방식에 내용 분석을 가미하여 복잡한 알고리즘을 사용하고 있기 때문이다. 검색 알고리즘이 복잡해지는 만큼 이 알고리즘을 넘어서야 하는 검색 엔진 최적화 기술도 더 지능적인 방법을 사용해야 하는데, 시맨틱 기술이 고리가 될 수 있다는 것이다. 행사에서는 인기 사이트인 바이닷컴과 씨넷, 그리고 위젯박스(http://www.widgetbox.com/)와 허브페이지(http://hubpages.com/)를 대상으로 시맨틱 검색 엔진 최적화 기술을 적용한 사례가 소개되었다.(“시맨틱 검색 엔진 최적화 사례 연구”, http://www.wilshire-cfp.com/sessionPop.cfm?confid=20&proposalid=1085)

웹 2.0의 개념도 모두의 합의 속에 완성된 것이 아니라는 점에서 웹 3.0 논의가 일러 보이기도 하지만, 이미 웹 3.0에 대한 청사진이 속속 제시되고 있을 만큼 이 분야에 대한 관심은 높다. 많은 전문가가 웹 3.0은 시맨틱 웹으로 구현될 것으로 보고 있다.[GTB2007030578][GTB2008020078] 웹 3.0 전문 기업인 워싱턴 DC의 프로젝트텐엑스(http://project10x.com/) 측은, 웹 3.0이 웹 2.0에 시맨틱 기술을 추가하여 좀 더 유연하고 지능적이며 안전한 기능을 제공하게 될 것이라고 내다보았다. 웹 2.0과의 가장 큰 차이점은 웹 2.0이 데이터와 정보 중심인데 반하여 웹 3.0은 지식과 네트워크 중심이 된다는 점이다. 행사에서 웹 3.0 모형의 예로 소개된 프리베이스(http://www.freebase.com/)가 이런 전환점을 잘 보여준다. 메타웹(http://www.metaweb.com/)이 개발한 프리베이스는 오픈 데이터 모델에 기반한 데이터 저장소로, 이를 이용하면 시맨틱 웹이 넘어야 할 장애물 중 하나이던 데이터 호환성 문제를 해결할 수 있다.

한편, 웹 3.0 사례 연구 중 하나로 시민 중심의 전자민주주의 실현을 위한 플랫폼이 될 수 있다는 연구 결과도 발표되어 눈길을 끌었다. 비 인폼드(Be Informed, http://www.ready.gov/america/beinformed/)에서 나온 패널들은 정부가 시민에게 제공하는 많은 서비스가 웹 3.0 개념을 통해 발전할 수 있다며 네덜란드 정부의 실제 사례를 소개했다. 수많은 웹사이트와 법률, 조례, 규칙 속에서 시민들이 자신의 특수한 상황에 맞는 정보를 찾기 어렵다는 점에 착안한 네덜란드 정부가 시맨틱 기술을 원용한 전자정부 서비스를 기획하여 시스템을 구축 중이라는 것이다. 정부의 디지털 공무 처리를 시맨틱 웹이라는 틀 안에 통합하여, 법률 지식이 별로 없는 평범한 사람이나 전문가들 모두 만족할 수 있는 서비스로 기능하도록 설계되었다.