首页 > 语义网, 旧文 > 语义网中的推理是不是银弹?(1)

语义网中的推理是不是银弹?(1)

【原文摘自我参与的w3china.org上的一个讨论,2007-06-09。见 Semantic Web中的推理,又一个银弹?——自己对SW的看法,大家批判!by zhaonix。引用的文字是zhaonix的。】

【P.S. 过去四年了,我觉得有很多问题要重新反思。】

我觉得:SW的名字有误导性。似乎用ontology一标注,web就有了“语义”、因而也就高度智能了。实际上,DL只是FOL的一个子集,仅仅能表示概念及概念的属性、概念之间的关系而已(见本体的经典定义:“共享概念模型的明确的形式化的规范说明”)。我觉得它和关系数据库的E-R模型没有本质区别,除去里面有继承、open world assumption等少数特性外。而现实中、web上、各个领域里还有大量的其它种类的知识!  让web可被机器理解与让电脑更智能一样是一个美好的理想,甚至是一个像乌托邦那样的纯粹的理想而已,借助DL 本体及其上的推理,SW是能实现这个理想的银弹吗?

首先,SW的目标绝不是让电脑更智能。实际上,SW是很谦虚的,只不过想比关系数据库多那么一点点。这一点是什么呢?就是很有限的(从一阶逻辑研究者的角度)概念推理能力。可是,经过了30年的KR研究,大家还没有找到一个比DL更简单的方法,又能提供足够的推理能力。也就是说,DL是大家经过一代人努力找到的一个表达力和复杂性折衷的(虽然不那么特别令人满意的)方案。DL还是比ER强很多的,要不然它的查询复杂性咋会这么糟呢 :)

SW中通过推理所能“发现”的“隐含”的知识其实很有限,即受限于DL本体中所包含的信息量。常见的形式有:根据class的定义发现两个class间存在继承关系,根据cardinality断定两个表示个体的URI表示的是同一个个体,根据property range断定某个个体是属于某个class等。不知道用一个DL本体能表示一个领域内多大比例的知识:80%?还是20%?如果是20%,这20%用关系数据库就能实现大部分了。

事实的情况是,SW上绝大多数应用,要求的是及其“低级”,及其简单的本体,比如分类树,比如分类树加上属性表述。这些”低级”的本体,用关系数据库还是表达不了,缺可以用DL的一些简单版本来描述,如EL, DL-Lite。这就是为什么SW不可能是基于ER,而需要基于DL的一个重要原因。实际上,我个人很看好基于这种简单本体的SW,OWL 1.1 也正在作这方面的规范。

再者,本体都是先由领域专家建立、再拿去标注网页、然后拿来推理,先不说这种集权式的模式与web的精神背道而驰,就说同样一个领域里,不同的专家往往对有些问题的观点也不一致,所以,不太可能预先建立一个能表示领域内知识的本体。即使考虑了“本体进化”方面的研究,我也怀疑这种自上而下的模式是否能在web上工作.

呵呵,当然不会是这样啦。SW上的本体将会是普通用户(比如咋家外婆)用设计的非常人性化的工具提供出来的。打个比方说,如今的Word文章已经是基于XML的了,但是用户需要知道XML吗?他可能连XML的名字也没听说过,但是一样可以用Word写简单的文章。SW上对网页进行标注,没有这么神秘了,给Blog加tag大家都干过吧?给tag加上分类关系,或者相关关系,不就是本体啦?

最后,即使如此有限的发现隐含知识的能力,也需要非常高的计算复杂性。DL家族中基本的ALC,就已经是PSPACE了!这可是一个不比NP简单的复杂度哪!那么,OWL-DL这样的SHOIN(D)级别的DL还怎么实用?

TBox推理复杂性高,可是Data Complexity可以在PTime或者LOGSPACE (DL-Lite)。 另外,我坚信推理机还可以大规模的优化。特别是模块化本体,分布式推理,渐进推理,近似推理,这些都有希望把现有的推理机性能提高一个甚至更高的数量级。

总之,我觉得,指望“推理”,SW是没什么希望的。早在50-60年代,AI界就对FOL的自动推理做了深入的研究了,虽能取得了一些成果即自动地证明了一些数学定理,但后来还是趋于平淡。我觉得其原因就是一方面复杂性高、另一方面所能推理出的东西实在有限。对此,俺的感受是:电脑的归电脑,人脑的还是要归人脑。不清楚SW界的牛人们如何撇清自己的东西和这一段历史间的差别?

SW从来没打算作“人脑”这类的事。SW最终无非是把比分类树稍微复杂一点的本体大规模应用到web上,以及把OWL-DL这样的怪兽小规模的用于特殊领域。我觉得这都挺现实的。

目前,国外的SW(Web3.0)工具、应用、网站倒是正在大量涌现,但仔细看过去,几乎都是在实现一个RDF triple库并提供SPARQL接口,鲜有靠“推理”、靠发现“隐含知识”来取胜的。这样的系统,在我看来,不就是一个纯粹的分布式关系数据库吗?RDF的Resource-Property不正是传统的Entity-Relation吗?比起传统的RDBMS,这种系统能集成不同来源的数据,——因为它使用了URI,因为使用文本格式来表示所有的数据类型。 这种流派的SW,我觉得能带来一定的实用价值。

即使是RDF也比ER强很多。RDF数据库会是SW的一个强有力支持(虽然我认为SW不一定要用RDF数据库)。我相信未来几年将见到比较成熟的应用。

但我们要毕业、要写论文,还是前一个即基于推理的流派更值得关注,因为它的理论高深、算法复杂,是SW会议上的主流,还有曼大、Karlsruhe、Dresden、Maryland、Trento、SRI等等众多的研究重镇可以跟踪;后一个流派虽然实用性好,但整个一个关系数据库而已,似乎没多少理论上的东西(除了优化性能),现在最缺的,怕是一个杀手锏般的应用而已。

Semantic Blog, Semantic Wiki, Semantic Email, Semanic Google Map, 都是很好的努力方向啊,原理也不复杂,就看有没有有心且有力者去实现一个*好用*的版本了。

RDF上理论的问题还多的很,比如分布式问题,比如访问控制问题,比如安全性问题。基本上传统数据库领域的问题都可以映射过来。

【待续】

Advertisements
分类:语义网, 旧文
  1. 还没有评论。
  1. 2011/04/24 @ 01:29
  2. 2012/04/16 @ 01:28

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: