Archive

Archive for the ‘语义产业’ Category

语义网相关文章:一年汇总

2012/04/16 1条评论

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

旧英文贴

反思

产业评论

新思维

新思维2

(暂时保护中)

2 工程实践

问答系统

会议元数据

其他应用

语义网语言

3 产业化

语义网的公司

创业

4 个人研究

描述逻辑

Context

域态逻辑

语义信息论

语义维基

Web Science

咬文嚼字

胡思乱想

5 杂谈

入门与普及

八卦

活动

其他

语义网的公司 True Knowledge

2012/02/06 1条评论

语义网的公司(9): Garlik

2012/01/07 3 条评论

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

  • 3store – 这个是AKT项目的产品。3就是triple吗。
  • 4store – 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
  • 5store – 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
  • Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
  • 为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
  • 把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
  • FOAF有应用吗?Garlik就是。
  • 用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。

总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。

语义网是给人用的

2011/12/20 3 条评论

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

后来有很多年,对语义网的宣传就是这样讲的:让机器来读网页的内容,并理解网页。

这么说,本来并不错。语义网技术的发展,也基本按TBL在1998年就定下的调子走。

问题是,就算经是好的,念经的和尚难免把经念歪了。这导致了后来的一系列问题。

从TBL的road map出发,大家的思路自然是,那我们先去设计一种语言,帮人来做网页的元数据标注(metadata annotation),不就好了。于是就有了RDF, SHOE, DAML, OIL, DAML+OIL, OWL,等等。无数的银子砸进去。

听到一点点响。

后来(2006年),大家觉得是不是经有问题?为什么大企业大多都不跟进呢?是不是太复杂了?后来就有了对语义网技术栈的简化。TBL又发了一条敕令:Linked Data。又是无数的银子砸进去。

这会听到的响多一些。linked data (http://linkeddata.org) 的数量,现在有300多个数据集,300多亿triple。在用在Watson等系统里了,效果不错。

不过,这又过了5年,对语义网质疑的声音,依然是远远超过支持它的声音。大企业的跟进,依然是笛卡尔对宗教的那种态度:试一试,试一试。说实在的,在这样的环境下,没有一点宗教的热忱或者愚蠢,那是不容易坚持下去的。

问题出在哪里?

某年我参加了一个研讨会。会上大家畅所欲言,说了推理啊,查询啊,界面啊,种种问题。然后有人问了一个问题:数据呢,数据在哪里?

主持人就问:大家说说看,你们在用什么数据?

一种不大不小的尴尬在会场蔓延。是的,在场的绝大多数人都没有从用户那里来的“真实”的数据,更不用说元数据。

从用户那里,很难拿到高质量数据,几乎不可能拿到大量的用户添加过元数据的数据。

用户都是人。人做一件事,是要考虑成本和收益的。人是有心理和感情的。人是有极大的认知局限的。大多数人本性是爱偷懒和虚荣的。我们现在的教育,没有教会大多数人怎么管理数据(因为直到不久以前,大多数人的问题是数据太少而不是太多)。如果从人那里来的就是垃圾数据,那你休想指望从中提取出太多有用的信息(除非你只关心一些宏观的统计指标)。

我开始觉得,语义网的问题,其实不在机器的语言设计的是不是简单,是不是可以推理、理解,也不是可扩展性。核心问题,其实在人,在人能不能被激励去做一些事情,然后机器才可以去做 一些相对简单的事。在设计一个语义应用前,我要问自己一系列问题:

  • 数据在哪里?谁提供数据?
  • 元数据会一并提供吗?
  • 用户会不会提供元数据?他们会因此得到什么好处?他们的心理是什么?到什么程度他们会烦?
  • 产生数据和元数据的代价是多大?用户需要付出多大的努力?
  • 用户需要多长时间才会从提供元数据得到好处?
  • 总用户里,有多少会主动提供元数据?在这些人里,又有多少会提供高质量的元数据?
  • 数据的依赖性如何?是不是要等很多用户都来提供数据了,系统才能有用?单个用户的数据有多少用?
  • 需要多少数据/元数据系统才会有一点用?明显有用?要几天,几个月,还是几个世纪才能达到?
  • 什么样的元数据是对用户/客户对有价值的?如果没有,有多大可能用工具获得?
  • 对现有系统,需要多大的改动?现有的工作模式是不是会被改变?这些人有动机做这种改变吗?会不会有抵触?怎么解决?
  • 在这个应用的全生命周期,哪些人会参与? 有多少人需要重新培训?培训的代价是多少?
  • 等等,还有很多这里不说了

语义网是给人用的。语义网上的数据,除了一些用来科研和生产的(比如天文观测和工业仪表),大头还是要由人的活动来产生。要抓住人性,才能抓住数据,然后才有后来的一切。

语义网这场革命,正如社交网络(social network),主要是一种社会的革命,模式的变迁(Paradigm Shift),而以技术支持为手段。

语义网,是要为人民服务。不要把自己关在屋里想,去设计社会该什么走,什么是“合理”的。反之,应该走出去,抓住人的欲望和能力,体察社会的趋势,从“存在”中寻找合理性,那些有助于机器来帮助”人理解人”的合理性。

至于这个东西还叫不叫语义网,已经不重要了。

知识与智能

2011/12/18 1条评论

有一段时间,我很纠结于语义网的应用有没有用到推理。连推理都没有,叫什么“语义”网呢?

今天看禅宗故事,赵州和尚说:“放下著。”猛然想,其实应该放下“推理”,语义网并不一定需要推理,至少现在还不需要。

推理是什么?是从一些已知的知识得到一些隐含的知识。这是智能的一种。

知识和智能有什么区别?古人和现代人(更精确些,他们中最聪明的那一小撮),知识上可能有区别,在智能上,其实差别就不见得有多大。“上知天文,下晓地理”,“前知五百年,后知五百年”,这大部分是知识,不是智能。“道旁苦李”、“想君小时,必当了了”,这是智能(某种推理),不见得需要太多知识。

语义网的早期阶段,很多人(包括我)认为它是人工智能在Web上的应用。这个想法长远看并没有错——长远看,所有的应用都会变成智能的。问题是,有多长远?我们搞工业化应用,等不了十年二十年,3年5年就要见成绩。OWL之类要求追求推理的能力,推理的完备性,推理的可扩展性,其实是太超前了。

Nova Spivack等说,智能网络(Intelligent Web),要到2030年才能见端倪。我看这个估计可能还太乐观了。更有人认为,OWL是一个错误,因为它的表达力不够,我们应该回归一阶逻辑。这个,这个,似乎应该推迟到2040年或者2050年来做。

我倒是希望科学发展会快一些,证明我的估计太保守。不过如果要做工业的应用,对投资和用户负责,还是保守一点的好。

那现在的语义网,不做智能,还做什么?

我觉得,就是知识。“上知天文,下晓地理”,“前知五百年,后知五百年”。即使没有推理,或者或有或无支持一点小小的推理,这个知识的网络已经很厉害了。

知识是一种联系,连接就是知识。说得俗一点,就是一张图,联系世界上的各种事情。智能是用来生成新的连接的方法。其实不支持智能,也一样是有用的。

更重要的是,机器的智能虽然还很弱,人的智能可是顶顶厉害的。而人的闲置智能,多得很,都用来打麻将了。人和机器比,弱点在知识的存储。

Web是什么?是用机器把人连接起来的一种方式。要提高系统的总体智能,就要抓住瓶颈。瓶颈在哪里?

  • 机器的智能低而人的智能高。就要把人的闲置智能合理利用起来。Social Machine, Social Intelligence,等等
  • 机器的知识多而单个人的知识有限。就要把机器的知识、其他人的知识,以尽可能大的认知带宽(cognitive bandwidth)和行为带宽(behavioral bandwidth,就是从人想查到一个知识到实际查到一个知识的时间),在人需要的时候,传给人。Linked Data, Extended Mind, Knowledge visualization, Mobile Terminal,都是支持技术。

语义网(Semantic Web)对上面这两点都是支持技术。它没有必要一定要有推理。尤其是,语义网初衷之一,是让机器能读网页,这个说法有一定合理性,但是也很误导,容易让人忘了说到底知识是从人那里来,到人那里去。做工业的应用,在现有的成熟技术上服务于人,不必纠结于用不用某种技术,比如智能和推理。我们这一代人,只做我们这一代人的事情。

schema.org可能面临的几个挑战

2011/12/12 1条评论

本篇是我《schema.org浏览笔记》(2011/06/13)的续。

首先声明,我和schema.org的参与组织(Google,Yahoo,Microsoft,新近又加了Yandex)没有任何直接接触,我的信息可能是不充分或者过时的。特别是,我没有看到schema.org的市场统计数据。因此,我的观点主要是形而上的思考,而不是实证的结果,可能是不正确的。我的观点,和我这个博客上所有一切其他文章一样,不代表任何我过去、现在、将来雇主的观点。

先说我的基本观点:经过这6个月的发展,在初始的兴奋冷却后,我们可以看到,schema.org在语义网技术发展上,是一个里程碑性质的重要尝试。但是,这个项目本身,面临一些挑战,是否能达到预期的目标,可能还需要更大的努力。

第一个挑战,是用户有多大动力来添加元数据

这是一个语义网从day one就不断折磨所有业内人士的问题。添加元数据需要很大的投入,这个投入会有多大的回报?回报的周期有多快?以前几大搜索引擎不支持元数据,搞得大家没有动力来搞。现在有了schema.org,SEO(搜索引擎优化)业开始是很激动的。可是从现在的公开的结果看,schema的采用好像不是很踊跃——当然,我的资料来源很有限,观察未必准确。我问了一个终端用户,人家也确实是觉得schema.org是个好东西,投了钱和人力来搞。可是一两个月下来,网页的排名没有什么变化,直接去问Google,有这样那样的原因,不能在短期内给它的业务带来现金流的好处,那这个终端用户还有兴趣再投钱吗?Google的搜索引擎和schema.org的集成,似乎还不是很紧密,特别是没有立竿见影的那种效果。我相信三巨头都在努力达到这种效果,但看起来还有很长的路要走。

我的私人观点:我以为,传统的语义网的想法,信息发布者遵循某种实现约定好的ontology或者schema,来给他的网页提供元数据,从而为语义服务提供商,比如搜索引擎,来获得,这种做法的回报周期非常长,需要的基础设施(infrastructure)的改变非常大。虽然在界面上,技术上看起来很简单(比如schema.org的schemas,真是很容易理解的设计),但是从整个商业流程来看,投入产出比在短期内很难令人满意——特别是,提供元数据的用户,不一定能直接获得利益,而受制于服务提供商,这样他的动力和耐心很快就会被耗散掉。过去十年,我们看到太多这样的例子,这也是为什么语义网技术这么受怀疑的原因之一。schema.org能不能支持其他更立竿见影的商业流程?拭目以待。

注:Guha在前几天的ontolog电话会议上说:  “currently adoption is in the order of thousands of sites”。这个很好,可是几千个网站显然还不够好。

第二个挑战,是用户的需求和schema的官方标准的矛盾

用户的需求是千奇百怪的,他的产品的网页上,有很多自己定义的各种属性,不是schema.org的官方schema能够提供的。和RDF或者RDFa不同,schema.org使用的Microdata这种建模格式,不太支持用户的扩展。(注:schema.org提供一种schema扩展的方法,但是是很有限的)用户的需要,要先给Google说,比如通过W3C Web Schemas工作组的邮件,经过各种漫长的政治和技术的回合,才有可能成为官方的扩展。对一般的信息发布商,这样做的投入很大,回报周期很长,他是没有兴趣的。和我谈过的一个用户,就遇到一个产品时间属性的表达问题,没法表示,也没法和schema.org官方及时沟通,结果只好不用。

我的私人观点:在我以前的博客中,我已经多次说过我的一个偏见,就是语义网的应用,希望通过实现定义好一个vocabulary, ontology or schema,希望所有人都这样来写数据,恐怕只适用于一些小范围的领域。对整个Web这样的开放系统,几乎每个人都有和别人不一样的表达需求,谁有能力和动力在满足这千奇百怪的需求?如果每个改动都要走W3C之类的流程,那Google或者W3C有多少人力资源来应付这样的需求?语义网数据建模的优点,其实不在于一个静态的schema,而在于不断的演进能力(《与数据与时俱进》)。从三巨头的商业利益和减少他们系统开发的困难角度出发,我非常理解schema.org这样的设计是符合他们的最大利益的。但是如何处理好需求的多样性和服务提供商的统一性的矛盾,我们同样拭目以待。

第三个挑战,就是前端用户如何受益的问题

在Schema.org这种设定里,主要的信息发布者主要是一些机构(媒体,商店,政府等),通过搜索引擎,以查询结果的方式,提供给普通前端用户(例子参谷歌黑板报)。问题是,如果和以前使用Rich Snippets的时候一样,仅仅在搜索引擎的结果中呈现一些结构化数据的结果,在多大程度上使前端用户受益?有没有证据表明,用户的搜索的覆盖率(recall)或者准确率(precision)得到了提高?语义数据的最大优势之一,在于灵活的数据查询方式和数据集成能力。在几大巨头的基础设施上,在多大程度上,多快时间内,能提供这些非传统的功能,让用户眼睛一亮:“Wow,这个真神奇”?

我的私人观点:到目前为止,语义搜索还是一个各方努力的方向,距离真正的商业成功,还有一段距离。我想任何规模大一点的商业的成功,从整体上,不会仅仅因为SEO,而是提供给用户更低成本的,更高质量的产品或者服务。微软买了Powerset两年多来,我不是很清楚Bing到底集成了多少Powerset的技术,我自己作为终端用户,很难看得出来。如果不能提高用户体验,搜索引擎的现金流大头——广告——能不能更上一层楼,还需要再观察。我相信各大搜索引擎充分理解这个问题的重要性,但是需要时间来开发、改进它们的系统。这不是一年两年的事情。

我的另一个观点认为,语义网要成功,关键不在大网站使用不使用语义网的某种数据格式。数据格式只是一个皮相,核心问题是数据本身是不是干净的,富有语义的。商业价值更大的数据,要来自千千万万最普通的人,而且这个数据的量会比大网站能提供的数据多上几个数量级。Facebook走了万里长征的第一步(《为什么是Facebook来卖你的隐私?》),下面怎么走,还是同样拭目以待。

此外有些问题,如表达力(比如John Sowa说的)和格式的问题(RDF,N3,JSON,RDFa等),我以为其实并不是核心问题,不列在这里。

再引用我在《schema.org浏览笔记》里面的话作为结束:

Semantic Web不可能毕其功于一役,有初级阶段(linked data)和初级阶段的初级阶段(schema)。Schema.org就是语义网有Google特色的初级阶段的初级阶段。

本文参考的一些资源

语义网的公司(8):Chevron

2011/12/07 5 条评论

Chevron(雪佛龙)是一家石油公司,不是互联网的公司。之所以在这个系列里写这个公司,是因为Chevron是一个很有代表性的传统行业的公司试图做语义网应用的例子。写了它,其他很多公司都不必写了。

我素材主要来自下面这些

先说一个基本评价:到目前为止,语义网在雪佛龙的应用,只获得了非常有限的成功。这种成功,主要是技术的而不是商业上的。公平地说,这不是雪佛龙的错,而是语义网界早期提供的样板模式,真的不大靠谱。

闲话:我们经常在新闻或者宣传上看到,某某行业或者某某公司使用了某某新颖技术云云。看到这种文章,要先留个心眼,第一先想这个技术是不是真的是它的核心技术,还只不过是一种营销的宣传手段;第二是想这个技术是不是真的实现了商业价值,或者提高了用户体验。对语义网的宣传文章,当然不能一棍子打死,但是我现在去SemTech或者ISWC,已经不怎么容易被公司的宣传打动了。

雪佛龙之所以进入这个领域,其实是抱着一种试试看的心理。我知道的几个传统行业搞语义网的,差不多都是这个模式:有一个头在某种场合被合适的人忽悠了,觉得这个技术值得跟踪一下,就指定某个技术负责人来试试水,手下或一两个,或三五个兵,开发几个本体或者演示应用。效果不好,就停掉;好,就加人;还看不清楚(这是最一般的情况),就先维持着。

Roger CulterFrank Chum就是雪佛龙里做这一块的代表(还有其他几个人),从2004年就开始做了。工作其实不少,主要是这么几个

一个是用OWL在做油田的本体,应该就是BASIN。本体的开发走了一个经典的本体工程的生命周期:知识专家和领域专家谈,建立知识模型,再形式化为一个OWL的本体。

Culter说,这个本体本身还算技术上的成功,但是很多年以来,一直搞不清怎么能用它带来商业的价值。

我的点评:传统的思维,是先建领域本体,把领域知识表示好了,再填数据进来,搞应用。这种方式,和传统数据库建模的方法有内在相通之处,往往比较容易被接受和入手。不过,现在看,这种方式除了在少数领域,不大容易成功。更多的情况,你的本体是死的,数据是活的,你总是跟不上数据的变化,或者不能包括数据的复杂性。知识专家和领域专家都是很贵的,一般的公司不一定用得起(连雪佛龙自己都说不容易找到好的contractor)。更要命的是,很多问题,特别是Web上的,根本就不存在领域专家,甚至连到底是哪个领域,都不可预测,不可穷举——每个人都是自己的“领域”。传统的从专家系统一脉相承下来的知识工程方法,不革命一下,想换个马甲叫做“语义网”方法,我看,下场大概会和专家系统差不多。

另一个应用,是搞数据集成。这也是特别经典的语义网教科书应用。具体做法,还是建个OWL本体,把原先分散的知识(比如各种手册里的),形式化出来,让相关方,比如造设备的、维修设备的、和使用设备的,都能用同一种语言来沟通(这是理想)。遗憾的是,这个数据集成项目,也是技术上的成功而不是商业上的成功。

我的点评:2003年到2005年,我也做了一段时间的基于语义网技术的数据集成,主要是在生物领域做。同样我们也是想有一个本体,然后不管原来的数据集是什么样,映射到我的本体上来,这个数据集成的问题不就解决了?这种做法,发发文章可以,到底有多少实用价值,回过头来看,不清楚。说实话,搞语义数据集成的人和项目不要太多,我当时数了数,可能有上百个项目吧,打印出来贴在黑板上足足一黑板高。看了非常多的文章以后,我的感觉是,其实怎么建本体不是问题,怎么映射本体才是问题——而本体映射,到现在,还是研究问题(research in progress),离工业化还是有距离的。

我现在觉得,基于“语义”的数据集成,恐怕一样不能走这种先搞本体的道路。靠人来理解多个域的知识(比如几个不同的车间,每个车间都有上百页的手册),这个不仅代价大(按AURA来估计,一页500美元吧),而且很难完备的把多个域的知识映射好。核心问题还是在数据而不在本体。具体怎么做,还要多学习。

为什么雪佛龙的这几个项目不太成功?Culter解释说,部分的因为对石油工业的工程师而言,OWL实在是太难理解,太难使用了。比如OWL的restriction class,开放世界语义,还有全局性的语义关联,都是难点。

我相信这是一种普遍的现象:不管是OWL,OWL 2还是RIF,它们的认知复杂性都太高,程序员和领域专家搞不懂。我现在对语义网界内部试图进一步增强语言表达力的工作已经不太关注了——尽管我以前也干过这种事。

那是不是语义网就没用呢?当然不是。Culter说,其实语义网的用处,不在于它能干数据库干不了的事,而在于它可以更方便的做。他举例说,某个应用,用语义网的技术15行代码就很清楚了,用数据库要1000行代码。也就是说,语义建模其实是标准化了传统上数据库程序员要花很多精力琢磨的一些技巧。现在有了样板方法,不再需要学习这些技巧,降低了开发代价。[这个论证,我也用过。]

可是为什么这种技术的优势不能带来业务上的好处?我想,最关键的原因还是用传统的数据库的思维来套语义网的应用:schema, 然后数据,然后应用。这样做,恐怕很难突破传统数据库方法的势力范围。而降低的一些开发代价,往往被学习语义网技术本身的代价抵销了。我倒觉得,应该把次序倒过来(见《语义网就是数据》),先考察应用,决定应用的数据,然后大体上有一个模型(本体);也不一定要钉死,业务、数据变了,模型要跟着变。语义网的好处,不在于一个静态的模型多么好,而在于模型的演进能力好,与时俱进的代价低。

Culter倒说了参加W3C工作的一个实际好处:认识人。通过开会啊,讨论啊,建立的人脉,特别有用。另外一个好处,就是学会了W3C的议事程序,怎么就能在这利益各异的人中间建立一个共识。

这真真是大实话。我在OWL 2工作组里短短一年多的经历,觉得最大的收获也确实就是这两点。

最后Culter又说了一句更大的实话:W3C应该应该多想想终端用户的需求。

这句话,我部分赞成。如果要补充,我觉得语义网的工作组里,雪佛龙这样的公司其实已经很多了,我更想看到的,是Apple, Microsoft, Google, Facebook, LinkedIn这样的公司。不过人家不见得愿意来——有在W3C吵架的时间,人家已经买了n家小公司,建立事实上的行业标准了。到那时候,再回W3C补个手续就是。所以我现在看几个工作组的成员名单,总觉得缺点什么,但是又有什么办法呢?

总结:(我个人认为)语义网技术本身是有价值的。但是,传统的重视本体,以为语义网应用就是设计好本体的方法,往往不是行得通的方法。雪佛龙提供给我们宝贵的正反两方面经验。

分类:语义产业