首页 > 语义网, 工程创业 > Web 3.0:基础与基础之基础

Web 3.0:基础与基础之基础

我很赞成一个说法,就是语义网是一个基础技术。作为基础技术,往往工作在底层,在表面上你却看不到。这一点,Frank van Harmelen黄智生讲的很好,我无需狗尾续貂。

Web 3.0,有人说是数据网data web,也有人说是语义网semantic web。按上面的观点,web 3.0并不是semantic web – 就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术,而不是web3.0本身。

问题是,语义网的基础又是什么?如果你说,根据层次蛋糕,是URI,XML乃至RDF等,那我认为,这是答错了。

互联数据(linked data),是看到了语义网发展的障碍,认为是协议层次太复杂,所以抽出一小块来——就好象XML是SGML的一个简化——来推进语义网的普及。那么现在Linked data是在迅速的增长。但是我觉得,互联数据的数量,在整个语义网的大环境下,还是沧海一粟,不足以构成临界点critical mass。特别是,我们可以认为,互联数据目前的指数增长趋势,可以外推下去,象摩尔定律那样吗?

另外一点,是互联数据,或者说所有语义网的数据,质量如何?有一种观点,把数据转化为RDF,就把数据变成了语义网数据(互联数据云的一大部分,其实是这样)。我越来越觉得这有问题。我把醋倒进酱油瓶子里(形式的改变),醋并不会变成酱油。同样,我把数据从Excel或者RDB变成RDF,并不会降低数据处理的困难程度,那么原来数据的质量问题,如果你不引入新的知识,在新的数据里一样存在。比如美国政府data.gov的数据,里面质量问题成堆,花了RPI(丁力等人)很多时间来清理,也只清理了一小部分。

这让我觉得,数据质量才是问题的核心。垃圾进,垃圾出。

我今天又和工业界的人咨询。一个是Web2.0公司,另一个是Web1.0时代就存在的一个巨头。到底什么样的技术才是他们需要的?

主要是数据挖掘和统计。首先,用户放进来的数据,问题很多,比如敲错字,比如重复,比如格式问题,这些都要纠正。这里面,主要是统计和机器学习在起作用。另一块,就是从数据里我们能得到什么,比如预测,比如推荐,比如抽取,这些一样是数据挖掘的长项。至于元数据,那通常是极少量的(相对这些公司的数据的规模),或者也是数据挖掘的结果。

我得到这样两个印象

第一,Web上的数据,从语义网的角度,质量是很差的。为了提高质量,必须利用其它的AI技术。这些技术用于语义网,现在还在一个摸索阶段——比如本体映射。从这个阶段到工业应用,还有很长的路要走。

第二,知识的形成,最后形成本体,同样要依赖其他的AI技术,比如NLP或者机器学习。从实验室到工业化,同样需要很长的时间。

所以,我认为,语义网的基础是其他AI技术,最主要的是机器学习,自然语言理解等。没有这些技术帮助来提供高质量数据,互联数据本身不会有什么普遍的商业价值。

那么那些垂手可得的关系数据呢?比如schema数据(象Email的send, to, subject,或者Facebook的know, likes)。这些可以很容易的机械的转化成高质量的RDF。问题在于,这样的简单的数据,如同RSS一样,似乎并不需要语义网的处理方法,至少现在大多数Web应用上是这样。

我们看语义技术用的比较好的,比如医药、出版、生物,那都有许许多多的专家(或者作者),专门来生成高质量的数据。这个模式如何扩展到Amazon或者ebay这样规模的数据上,我看,还有很长的路要走。

但是,也有极大的可能,我说的是错的。比如检测生产线上的空肥皂盒,你可以用X光,也可以用电风扇吹。AI就是X光机,我隐隐觉得不靠谱。如果有一种神奇的电风扇,把低质量的triple都吹走,剩下的全是高质量的,那Web 3.0也就成了。

搜索引擎的早期,有一个搜索质量问题。Yahoo开始做人工的索引,质量是高,但是无法扩展(Scale)。后来有几个聪明人,说“可以用链接来提升搜索质量”。这句话值多少钱?看看Google的市值就知道。“可以用XYZ来提升数据质量”,这句话又值多少钱?我要是知道XYZ具体是什么[=电风扇?],立马把这个博客关掉,飞到硅谷找棵树使劲晃,晃下来两三个风投,然后腰缠十万贯,骑鹤下扬州。

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: