首页 > 语义网, 旧文 > 语义网: 检讨与展望(2008)

语义网: 检讨与展望(2008)

【原文发表在w3china.org讨论区,2008-06-07】

【2011-04-06:又三年过去了,我现在的看法比以前悲观一些。前几天我贴了一个关于从语义网到杀手应用的演示,按理说有很多应用了,为什么还悲观呢?我的感觉是,语义网研究了这么多年,有关推理的部分,其实很鸡肋,比如父类子类推理,有没有这十年的研究,没关系。主要被用到的,一个是用URL来命名,一个是RDF三元组数据表示。这些,说实话,用传统数据库都可以做到。前几天和一个搞数据库的聊语义网可能对他们的好处,算我嘴笨,被驳了个哑口无言。我对企业界现在怎么做的不了解,大概有很多应用藏着掖着,要加强学习。以后再细讲。】

【2011-12-10:最近到了企业界以后,有了一种茅塞顿开的感觉。我更加觉得,道理其实大家都懂,关键就在自己处在什么样的阵营、有什么样的人、达到什么级别的执行力。语义网的killer app,不需要特别复杂的技术。我相信,其实已经有人在做了。还是那句话,想法不值钱,执行力才值钱

Semantic Web Cube

Semantic Web Cube

最近几个月,我觉得这个领域经历了一些不小的变化。一个很重要的事情是,这个领域日渐分裂为两个领域:一个就是OWL2这个方向为代表的,强调更强的表达力,强调更多的人工智能,服务于领域本体专家和知识库建设;一个就是以所谓的RDFS 3.0为代表的,强调“足够”和“有效”的表达力,强调大规模(Web Scale)的知识产生和表现,目标是服务于广大的Web终端用户。这个分裂的代表事件是两个多月前Jim Hendler退出OWL工作组。

在这个论坛上有些年头的ID大概都知道,我一直鼓吹轻量级本体的应用。我从来不相信基于描述逻辑(DL)的本体可能在Web上为广大的终端用户所理解,更不相信DL的推理能够在今后一个短的时间段里可能处理Web Scale的问题。大家知道,Web 2.0的概念比语义网的概念推出要晚好几年,可是现在Web 2.0已经成为一个成熟的产业,语义网的应用又在哪里呢?

检讨过去10年的发展(RDF的概念1999年就有了),我觉得这个领域有这样一些弯路或者不足

* 不断试图增加人工智能(知识表现)的能力到语义网的技术中。比如说,研究Rule和本体的集成,比如不断向OWL添加新的构造符(另外还有一大堆待选构造符在OWL工作组的计划中),还有喋喋不休的关于本体模块化的讨论。这些研究当然是非常有意思的工作,我自己也做了一些这方面的事情,但是现在看来,正是由于在AI方面投入的资源太多,反而阻碍了语义网的应用研究。现实中,不是由于OWL的表达力不够而使它得不到应用,而是由于它的表达力实在太强。即使是计算机系的博士生,也要花上相当的时间才能*真正*理解someValuesFrom和allValuesFrom, 如何指望一般的Web用户来正确的使用这样的构造符呢?遗憾的是,在OWLED workshop上(OWL工作组通常通过这个会议来获得“用户”反馈),几乎没有真正的Web用户的声音,而不断各种领域本体专家呼吁这样那样的扩展。如果持续这样下去,也许OWL 2, OWL 3, OWL 4,…会成为优秀的专家系统语言,但我不相信它可以成为语义网的基础语言。

* 忽视面向终端用户的工具开发。语义网上大量的“工具”,比如本体编辑器,推理机,各种API,本体浏览器,等等等等,有没有面向终端用户的呢?至少2007年之前的工具,我想不到哪个被广泛使用的工具是的 — 我这里所说的终端用户,断无RDF或者OWL的知识,更不用说有任何编程或者逻辑背景。于是便有了如下的“鸡生蛋,蛋生鸡”的问题:由于没有合适的工具,就没有普通的用户来产生语义网的数据;由于没有普通用户提供的数据,也就没有需求去设计这样的工具。这个事情最近有了可喜的进步,比如语义wiki,比如Freebase,终于开始提供一点人性化的用户界面了。

* 忽视从Web日常应用入手进行研究。呵呵,这么说可能有点讽刺。我们想一下,一般的Web用户日常做什么工作?it(为政治正确,不分性别)上班第一件事可能是打开电子邮件,然后看看好友的blog,然后乘老板不注意的事情看看bbs和新闻;it要用google calendar管理自己的任务,在flickr上有几百张照片,在同学录上联系老友,去YouTube或者土豆网看视频,去百度搜mp3,诸如此类。请问在ISWC的论文集中,即使是应用Track,有多少文章是关于这样的日常应用呢?其实我们只要给Email, Blog, Calendar这些日常的应用加一丁点semantics(比如tag分类或typed关系),它们就能成为很棒的Killer App. 我很困惑,非常困惑,异常困惑,为什么Google之类的公司没有及时的来做这个事情,或者即使做了也做得半半拉拉,无疾而终(比如HP Lab的Semantic Blog)。

* 试图解决太多问题。最典型的,也是这个论坛上很多同学熟悉的,如本体集成问题和本体映射问题。个人浅见,这些问题绝对是值得研究的本体问题,但不是语义网实现的前提。本体集成和基于本体的数据集成在世界范围内前后至少有一百个有名目的项目在做,在可以预见的将来还是会有很多人来做;本体映射问题,也可以追溯到数据库schema映射的研究,前后少说有20年了吧。在语义网的环境中来研究这些问题,继承了数据库中相关问题的成果,也继承了它们的艰难 — 可是,语义网和数据库可以类比吗?我有一个大胆的想法:在语义网上,每个人所用的本体,无非是一些标准的本体(如foaf)和小而简单的(如分类树)个人定义的本体;本体集成和映射,主要的发生在熟人之间(因为有这个必要),这种工作主要的是手工完成的(比如建立Gmail tag的对应);然后通过社交网络(Social Network),每个人的本体和外部世界建立起关系。所以现有的大量这方面的研究,恐怕以后在语义网上的应用只是有限的。类似的,如本体挖掘问题,如本体进化问题等等,这些都是重要的问题 — 但是如果连本体都没有(戴上钢盔,躲砖头先),这些研究不就成为屠龙之技了吗?整个领域的人力物力是有限的,这里多一点,那里就少一点。是不是多一点研究力量在如何吸引终端用户,先让终端用户产生出本体来,让用户觉得有本体很爽,会不会更好些?

* 忽视吸取“传统”Web处理海量数据的一些方法。具体的说,就是对大规模并行处理,如Google PageRank, Server Farm, MapReduce这些借鉴不够。

* 和数据库领域没有搞好关系。总的来说,数据库领域对语义网领域不太感冒。毕竟,语义网上一个PTime算法就让人high,而数据库的人不会觉得LogSpace以上的东西有实用意义。最近也有很多搞调和的工作。其实,语义网的RDF这个层面的工作,完全可以可以看作数据库的一种低代价的扩展,建立于数据库之上。Oracle的RDF数据库实现,就很好的说明了这一点。如果OWL工作组和RDF相关的工作组能更多听取数据库界的意见,更多考虑可实现性和海量数据处理能力,对领域发展有益无害 — 至少可以少被数据库的人据NSF项目申请 🙂

* 移动语义网投入不足。不远的将来的最日常使用的Web终端会是手机和PDA,而非PC。语义网应用必须考虑到客户端的有限资源问题(屏幕,内容 etc)。

罗嗦了这么一堆,那么希望在哪里呢?我觉得每个问题的反面就是答案
* 应用轻量级本体,如分类树和RDF
* 开发面向终端用户的应用,如搜索引擎和电子邮件终端
* 利用Web 2.0技术降低用户门槛,促进用户参与(如语义wiki)
* 集中研究力量于迫切问题(如普及问题),循序渐进
* 应用并行计算
* 好好利用传统数据库
* 基于手机的程序开发

可喜的是,最近这些问题逐渐被越来越多的人认识到并重视。一个代表性的进步就是过去一年中语义wiki等Social Semantic Web技术有了长足的进步。DARPA (国防高等研究计划署,当年启动美国这边的语义网研究的就是它) 很可能对语义wiki技术做一个大力度的支持。许多激动人心的应用正在或将在这样的平台上以始料未及(wrt. 2001年)的方式被实现出来。我相信在今明两年,一些很棒的应用将浮现出来。

今后的语义网界,恐怕还会继续分裂为OWL 2“重量级”道路,和RDFS 3.0“轻量级”道路。我相信这两个方面在适应他们各自的用户群上,都会是合适的,只是前者的用户群只会是后者的一个极小的比例。殷鉴不远,在夏后之世,我们已经看到了专家系统,演绎数据库,面向对象的数据库这样一些最终成为小众自娱自乐的例子。显然,我们不希望语义网也成为这个名单的新一员。如何能最大可能的去适应最广大的用户,而不是相反,一个技术才会有持久的生命力。

不管白猫黑猫,抓住用户的就是好猫!

西瓜大丸子汤,2008-06-07

Advertisements
分类:语义网, 旧文
  1. 2011/04/06 @ 16:20

    http://hi.baidu.com/lewutian/blog/item/240462de75f7335f94ee37be.html 我早期参与的一个讨论。做个记号。

  2. 知识二号开发员
    2011/10/03 @ 14:43

    作者看来在此方面颇有造诣. 不揣冒昧问一个问题. 看来理论与实践的脱离是现今语义网的症结,其主要原因应算是在理论上表达力与计算复杂度较难权衡而耗费精力和资源. 本人的问题是:什么是表达力? 是指能否表达某种事物, 还是指表达事物时所用方法的难易程度?我想不应当是后者. 因为后者不应有计算复杂度的区分. 如果是前者, 目前是否有这样的研究? 即: 不彻底排斥不可判定的Constructor构建规则或它们的Contructor的组合. 而是提供一种机制表明不可判定.夸张地形容就是:不再对表达力做任何限制.让它能为人人所用. 只是在出现不可判定时告知不可判定.

    • 2011/12/11 @ 02:53

      语义网研究纠结于表达力根本就是一个伪问题。应该考虑的,是怎么获得表达力最低的数据,比RDF还要低级——即使是这种数据,就已经足够催生一次产业革命了。关键是数据的获取而不是数据的表示。

  1. 2011/04/12 @ 16:44
  2. 2011/04/24 @ 01:29
  3. 2012/04/16 @ 01:28

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: