首页 > 语义网, 工程创业 > 一个Web 2.0公司和语义网

一个Web 2.0公司和语义网

今天继续咨询语义网在工业界的应用。

今天的咨询对象是一个颇有规模的Web 2.0公司,用户数已经超过千万了。和我谈的某君,自己在语义网领域曾浸润多年,现在所做的,却和语义网没有什么关系了。

我问,这公司需要什么样的AI技术。

某君说,主要还是数据挖掘data mining和机器学习machine learning。自然语言理解natural language processing(NLP)也有用处。公司里有data scientist,也做统计的。数据很多很杂(由用户自己产生),所以需要很多净化cleaning的工作,比如entity resolution(名字匹配)。自动tagging也会有用。

我问,你们好像也用一些微格式microformat,为什么对语义网没有兴趣呢?

某君说,microformat对数据让别人来用,有些用;公司自己,其实并不太在意这一点。内部的数据,没有任何语义网的存储。推理是不太需要的,就算有,也就一两步推理,直接写到代码里就好,不值得用语义网这样复杂的架构。

我问,你自己为什么离开语义网界

某君说,语义网有个核心问题,是数据怎么来。没有数据来源,后面的一系列研究都无用武之地。那么这么多年过去了,问题还是当年的问题。所以现在语义网的博士毕业,工作很不好找。

下面是我自己的一点感想。

现在很多公司都会支持把自己的数据用RDFa或者microformat来markup(参
语义网:走向下一代杀手级应用)。即使不直接做,把数据用某种格式发布出来,XML也好,JSON也好,TXT也好,那总有人很快做出XXX2RDF的工具来——Facebook OG,有人一个下午就把OG2RDF做好了。这个不难。但是很少有公司拿RDF来做存储。所以,所谓的支持语义网或者互联数据,主要是说,RDF可以用来做一种交换格式。问题是,难道这可以说是语义网的胜利吗?以前,XML是说用来做交换格式的。如果抛开推理(因为大多数Web公司对这个还不甚感兴趣),RDF格式本身,有多少新的因素呢?

当然,一个简单的交换格式也有可能催生应用。比如RSS,对Blog的发展就是很有价值的。不要忘了,RSS最早是称为“推”(push technology)的一个技术,我印象里,大概96年-97年,是一个很时髦的名词。但是“推”没有找到自己的发力点,很快就和许多时髦名词一样消失了,直到5、6年之后,Blog兴起了,RSS才作为婢女找到了一份工作。

现在语义网界,各种时髦名词多得很。Linked data本身,也已经5年历史了。到底哪些永远只是个名词,哪些会成为别的技术的婢女,哪些会成为正室,大概还是要多参考参考历史。我也会继续咨询业界的各种不同意见。

Advertisements
  1. 还没有评论。
  1. 2012/04/16 @ 01:29

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: