首页 > 语义产业 > 语义网的公司(8):Chevron

语义网的公司(8):Chevron

Chevron(雪佛龙)是一家石油公司,不是互联网的公司。之所以在这个系列里写这个公司,是因为Chevron是一个很有代表性的传统行业的公司试图做语义网应用的例子。写了它,其他很多公司都不必写了。

我素材主要来自下面这些

先说一个基本评价:到目前为止,语义网在雪佛龙的应用,只获得了非常有限的成功。这种成功,主要是技术的而不是商业上的。公平地说,这不是雪佛龙的错,而是语义网界早期提供的样板模式,真的不大靠谱。

闲话:我们经常在新闻或者宣传上看到,某某行业或者某某公司使用了某某新颖技术云云。看到这种文章,要先留个心眼,第一先想这个技术是不是真的是它的核心技术,还只不过是一种营销的宣传手段;第二是想这个技术是不是真的实现了商业价值,或者提高了用户体验。对语义网的宣传文章,当然不能一棍子打死,但是我现在去SemTech或者ISWC,已经不怎么容易被公司的宣传打动了。

雪佛龙之所以进入这个领域,其实是抱着一种试试看的心理。我知道的几个传统行业搞语义网的,差不多都是这个模式:有一个头在某种场合被合适的人忽悠了,觉得这个技术值得跟踪一下,就指定某个技术负责人来试试水,手下或一两个,或三五个兵,开发几个本体或者演示应用。效果不好,就停掉;好,就加人;还看不清楚(这是最一般的情况),就先维持着。

Roger CulterFrank Chum就是雪佛龙里做这一块的代表(还有其他几个人),从2004年就开始做了。工作其实不少,主要是这么几个

一个是用OWL在做油田的本体,应该就是BASIN。本体的开发走了一个经典的本体工程的生命周期:知识专家和领域专家谈,建立知识模型,再形式化为一个OWL的本体。

Culter说,这个本体本身还算技术上的成功,但是很多年以来,一直搞不清怎么能用它带来商业的价值。

我的点评:传统的思维,是先建领域本体,把领域知识表示好了,再填数据进来,搞应用。这种方式,和传统数据库建模的方法有内在相通之处,往往比较容易被接受和入手。不过,现在看,这种方式除了在少数领域,不大容易成功。更多的情况,你的本体是死的,数据是活的,你总是跟不上数据的变化,或者不能包括数据的复杂性。知识专家和领域专家都是很贵的,一般的公司不一定用得起(连雪佛龙自己都说不容易找到好的contractor)。更要命的是,很多问题,特别是Web上的,根本就不存在领域专家,甚至连到底是哪个领域,都不可预测,不可穷举——每个人都是自己的“领域”。传统的从专家系统一脉相承下来的知识工程方法,不革命一下,想换个马甲叫做“语义网”方法,我看,下场大概会和专家系统差不多。

另一个应用,是搞数据集成。这也是特别经典的语义网教科书应用。具体做法,还是建个OWL本体,把原先分散的知识(比如各种手册里的),形式化出来,让相关方,比如造设备的、维修设备的、和使用设备的,都能用同一种语言来沟通(这是理想)。遗憾的是,这个数据集成项目,也是技术上的成功而不是商业上的成功。

我的点评:2003年到2005年,我也做了一段时间的基于语义网技术的数据集成,主要是在生物领域做。同样我们也是想有一个本体,然后不管原来的数据集是什么样,映射到我的本体上来,这个数据集成的问题不就解决了?这种做法,发发文章可以,到底有多少实用价值,回过头来看,不清楚。说实话,搞语义数据集成的人和项目不要太多,我当时数了数,可能有上百个项目吧,打印出来贴在黑板上足足一黑板高。看了非常多的文章以后,我的感觉是,其实怎么建本体不是问题,怎么映射本体才是问题——而本体映射,到现在,还是研究问题(research in progress),离工业化还是有距离的。

我现在觉得,基于“语义”的数据集成,恐怕一样不能走这种先搞本体的道路。靠人来理解多个域的知识(比如几个不同的车间,每个车间都有上百页的手册),这个不仅代价大(按AURA来估计,一页500美元吧),而且很难完备的把多个域的知识映射好。核心问题还是在数据而不在本体。具体怎么做,还要多学习。

为什么雪佛龙的这几个项目不太成功?Culter解释说,部分的因为对石油工业的工程师而言,OWL实在是太难理解,太难使用了。比如OWL的restriction class,开放世界语义,还有全局性的语义关联,都是难点。

我相信这是一种普遍的现象:不管是OWL,OWL 2还是RIF,它们的认知复杂性都太高,程序员和领域专家搞不懂。我现在对语义网界内部试图进一步增强语言表达力的工作已经不太关注了——尽管我以前也干过这种事。

那是不是语义网就没用呢?当然不是。Culter说,其实语义网的用处,不在于它能干数据库干不了的事,而在于它可以更方便的做。他举例说,某个应用,用语义网的技术15行代码就很清楚了,用数据库要1000行代码。也就是说,语义建模其实是标准化了传统上数据库程序员要花很多精力琢磨的一些技巧。现在有了样板方法,不再需要学习这些技巧,降低了开发代价。[这个论证,我也用过。]

可是为什么这种技术的优势不能带来业务上的好处?我想,最关键的原因还是用传统的数据库的思维来套语义网的应用:schema, 然后数据,然后应用。这样做,恐怕很难突破传统数据库方法的势力范围。而降低的一些开发代价,往往被学习语义网技术本身的代价抵销了。我倒觉得,应该把次序倒过来(见《语义网就是数据》),先考察应用,决定应用的数据,然后大体上有一个模型(本体);也不一定要钉死,业务、数据变了,模型要跟着变。语义网的好处,不在于一个静态的模型多么好,而在于模型的演进能力好,与时俱进的代价低。

Culter倒说了参加W3C工作的一个实际好处:认识人。通过开会啊,讨论啊,建立的人脉,特别有用。另外一个好处,就是学会了W3C的议事程序,怎么就能在这利益各异的人中间建立一个共识。

这真真是大实话。我在OWL 2工作组里短短一年多的经历,觉得最大的收获也确实就是这两点。

最后Culter又说了一句更大的实话:W3C应该应该多想想终端用户的需求。

这句话,我部分赞成。如果要补充,我觉得语义网的工作组里,雪佛龙这样的公司其实已经很多了,我更想看到的,是Apple, Microsoft, Google, Facebook, LinkedIn这样的公司。不过人家不见得愿意来——有在W3C吵架的时间,人家已经买了n家小公司,建立事实上的行业标准了。到那时候,再回W3C补个手续就是。所以我现在看几个工作组的成员名单,总觉得缺点什么,但是又有什么办法呢?

总结:(我个人认为)语义网技术本身是有价值的。但是,传统的重视本体,以为语义网应用就是设计好本体的方法,往往不是行得通的方法。雪佛龙提供给我们宝贵的正反两方面经验。

Advertisements
分类:语义产业
  1. 妞妈
    2011/12/07 @ 12:20

    “语义网技术本身肯定是有价值的(不然我也不会继续在这个领域)。”这句话这样改改更顺耳:“(我个人认为)语义网技术本身是有价值的”

  2. 2011/12/08 @ 02:41

    很喜欢读你的关于语义网的博客,继续~~~

  1. 2011/12/09 @ 02:25
  2. 2012/04/16 @ 01:32

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: