首页 > 语义网, 语义产业 > schema.org可能面临的几个挑战

schema.org可能面临的几个挑战

本篇是我《schema.org浏览笔记》(2011/06/13)的续。

首先声明,我和schema.org的参与组织(Google,Yahoo,Microsoft,新近又加了Yandex)没有任何直接接触,我的信息可能是不充分或者过时的。特别是,我没有看到schema.org的市场统计数据。因此,我的观点主要是形而上的思考,而不是实证的结果,可能是不正确的。我的观点,和我这个博客上所有一切其他文章一样,不代表任何我过去、现在、将来雇主的观点。

先说我的基本观点:经过这6个月的发展,在初始的兴奋冷却后,我们可以看到,schema.org在语义网技术发展上,是一个里程碑性质的重要尝试。但是,这个项目本身,面临一些挑战,是否能达到预期的目标,可能还需要更大的努力。

第一个挑战,是用户有多大动力来添加元数据

这是一个语义网从day one就不断折磨所有业内人士的问题。添加元数据需要很大的投入,这个投入会有多大的回报?回报的周期有多快?以前几大搜索引擎不支持元数据,搞得大家没有动力来搞。现在有了schema.org,SEO(搜索引擎优化)业开始是很激动的。可是从现在的公开的结果看,schema的采用好像不是很踊跃——当然,我的资料来源很有限,观察未必准确。我问了一个终端用户,人家也确实是觉得schema.org是个好东西,投了钱和人力来搞。可是一两个月下来,网页的排名没有什么变化,直接去问Google,有这样那样的原因,不能在短期内给它的业务带来现金流的好处,那这个终端用户还有兴趣再投钱吗?Google的搜索引擎和schema.org的集成,似乎还不是很紧密,特别是没有立竿见影的那种效果。我相信三巨头都在努力达到这种效果,但看起来还有很长的路要走。

我的私人观点:我以为,传统的语义网的想法,信息发布者遵循某种实现约定好的ontology或者schema,来给他的网页提供元数据,从而为语义服务提供商,比如搜索引擎,来获得,这种做法的回报周期非常长,需要的基础设施(infrastructure)的改变非常大。虽然在界面上,技术上看起来很简单(比如schema.org的schemas,真是很容易理解的设计),但是从整个商业流程来看,投入产出比在短期内很难令人满意——特别是,提供元数据的用户,不一定能直接获得利益,而受制于服务提供商,这样他的动力和耐心很快就会被耗散掉。过去十年,我们看到太多这样的例子,这也是为什么语义网技术这么受怀疑的原因之一。schema.org能不能支持其他更立竿见影的商业流程?拭目以待。

注:Guha在前几天的ontolog电话会议上说:  “currently adoption is in the order of thousands of sites”。这个很好,可是几千个网站显然还不够好。

第二个挑战,是用户的需求和schema的官方标准的矛盾

用户的需求是千奇百怪的,他的产品的网页上,有很多自己定义的各种属性,不是schema.org的官方schema能够提供的。和RDF或者RDFa不同,schema.org使用的Microdata这种建模格式,不太支持用户的扩展。(注:schema.org提供一种schema扩展的方法,但是是很有限的)用户的需要,要先给Google说,比如通过W3C Web Schemas工作组的邮件,经过各种漫长的政治和技术的回合,才有可能成为官方的扩展。对一般的信息发布商,这样做的投入很大,回报周期很长,他是没有兴趣的。和我谈过的一个用户,就遇到一个产品时间属性的表达问题,没法表示,也没法和schema.org官方及时沟通,结果只好不用。

我的私人观点:在我以前的博客中,我已经多次说过我的一个偏见,就是语义网的应用,希望通过实现定义好一个vocabulary, ontology or schema,希望所有人都这样来写数据,恐怕只适用于一些小范围的领域。对整个Web这样的开放系统,几乎每个人都有和别人不一样的表达需求,谁有能力和动力在满足这千奇百怪的需求?如果每个改动都要走W3C之类的流程,那Google或者W3C有多少人力资源来应付这样的需求?语义网数据建模的优点,其实不在于一个静态的schema,而在于不断的演进能力(《与数据与时俱进》)。从三巨头的商业利益和减少他们系统开发的困难角度出发,我非常理解schema.org这样的设计是符合他们的最大利益的。但是如何处理好需求的多样性和服务提供商的统一性的矛盾,我们同样拭目以待。

第三个挑战,就是前端用户如何受益的问题

在Schema.org这种设定里,主要的信息发布者主要是一些机构(媒体,商店,政府等),通过搜索引擎,以查询结果的方式,提供给普通前端用户(例子参谷歌黑板报)。问题是,如果和以前使用Rich Snippets的时候一样,仅仅在搜索引擎的结果中呈现一些结构化数据的结果,在多大程度上使前端用户受益?有没有证据表明,用户的搜索的覆盖率(recall)或者准确率(precision)得到了提高?语义数据的最大优势之一,在于灵活的数据查询方式和数据集成能力。在几大巨头的基础设施上,在多大程度上,多快时间内,能提供这些非传统的功能,让用户眼睛一亮:“Wow,这个真神奇”?

我的私人观点:到目前为止,语义搜索还是一个各方努力的方向,距离真正的商业成功,还有一段距离。我想任何规模大一点的商业的成功,从整体上,不会仅仅因为SEO,而是提供给用户更低成本的,更高质量的产品或者服务。微软买了Powerset两年多来,我不是很清楚Bing到底集成了多少Powerset的技术,我自己作为终端用户,很难看得出来。如果不能提高用户体验,搜索引擎的现金流大头——广告——能不能更上一层楼,还需要再观察。我相信各大搜索引擎充分理解这个问题的重要性,但是需要时间来开发、改进它们的系统。这不是一年两年的事情。

我的另一个观点认为,语义网要成功,关键不在大网站使用不使用语义网的某种数据格式。数据格式只是一个皮相,核心问题是数据本身是不是干净的,富有语义的。商业价值更大的数据,要来自千千万万最普通的人,而且这个数据的量会比大网站能提供的数据多上几个数量级。Facebook走了万里长征的第一步(《为什么是Facebook来卖你的隐私?》),下面怎么走,还是同样拭目以待。

此外有些问题,如表达力(比如John Sowa说的)和格式的问题(RDF,N3,JSON,RDFa等),我以为其实并不是核心问题,不列在这里。

再引用我在《schema.org浏览笔记》里面的话作为结束:

Semantic Web不可能毕其功于一役,有初级阶段(linked data)和初级阶段的初级阶段(schema)。Schema.org就是语义网有Google特色的初级阶段的初级阶段。

本文参考的一些资源

Advertisements
  1. 还没有评论。
  1. 2012/04/16 @ 01:29

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: