首页 > 语义网, 工程创业 > 语义网是一层数据的皮

语义网是一层数据的皮

今天和一个学术界的同仁(某君)谈语义网的前景问题。他们做的有几个很好的数据集成系统,很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先,语义网第一个要解决的问题是“数据怎么来”。你没有数据,后来做推理、查询不是空谈吗?有标注工具——可是那些工具这么复杂,一般人谁会去用呢?某君把数据用RDF输出,那不过是一层皮。我同意,就象BestBuy, Amazon把自己的一些数据包一包,你可以用RDF看,这不是什么核心的东西。真正有价值的数据,你是看不到它的RDF的,而且也不需要RDF。

所以,信息获取是关键。某君的系统,主要还是机器学习。数据的净化,数据的挖掘(比如推荐,同名异义分析),都是统计的算法。挖掘得到许多关系,你可以用来做有意义的事情,比如查询,比如推荐。最后得到的数据,是很简单,你用不用SPARQL,其实没有本质的区别。

—————–

我今天正好看了OWL ED 2011的主页,里面有一个keynote是介绍OWL的大规模应用的经验。据说,他们已经给上千人培训过了,各行各业都有,很成功。但是我想,如果培训是针对如何使用OWL,如何建立OWL的知识库,那对OWL应该来说是很悲剧的事,因为绝大数Web用户(>十亿)是不可能用OWL的。所以,OWL(或者RDF)就好象Java或者C++一样,是用来支持面向用户的系统的(这好像是废话)。但是和Java不同,代码写在那里就不用动,OWL要处理的是数据和知识,是要不停变化的,你想事先建一个好的KB,那太难了。

Google说,数据有难以置信的有效性(The Unreasonable Effectiveness of Data),就是说,你与其试图去建一个复杂的模型,还不如收集足够多的数据,跑一些简单的算法,效果往往更好。比如单词纠错和单词联想,你做一个本体来搞,就不如用统计和用户行为分析。分析好了的结果,你当然可以用RDF发布在做一层皮。要不要这层皮,目前,暂时还不重要。以后有了生态系统,或许重要。不过到那天,大概我家的妞也会打酱油了。

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: