首页 > 语义网 > 为国际会议建元数据(3)

为国际会议建元数据(3)

(3) 从资源到数据

先胡扯。我最近一直在反思,反思语义网本身([1,2,3]),反思我自己的工作。这当然并不是语义网技术本身出了问题,而是我自己的知识水平、眼界到了一个瓶颈,把握不到领域发展的真正脉搏所在,把握不到从科研到工业化的关键所在。有很多疑问,一直持续了很多年(比如为什么Gmail之类不推出分类树查询?)。看的教程越多,听的演说越多,越发得糊涂。我在这一行7年半,这大概算七年之痒。

那我有机会做ISWC2010的元数据,算是从实践上来加深自己的体会:为什么要或者不要元数据?元数据怎么来?元数据的作用如何?如果不用语义网技术,能不能做得更快或者更好?要不要推理?怎么对最终用户展示数据?我以前逻辑做的多,Triple Store/SPARQL之类摸得不多,不太理解很多工程问题。这些问题,其实在工业界,都有极多实践,可惜很多公司都不讲;公开发表出来的,细节也不会讲,特别是他们自己的失误,更不会讲。我自己走一遍这个流程,也只是接触到上述问题的一点点皮毛,在真正的工业界过来人那里,可笑得很。

首先的问题,为什么要把资源变成数据,准确地讲,RDF数据。

什么是资源?对一个会议来说,就是人,文章,事件,地点。比如会议的组织委员会,程序委员会(Programme Committee, PC),投稿人,参与人。对人,有姓名,单位,联系方式。对组织,有性质,有地点,有子组织。对文章,有作者,有题目,有分类,有摘要,还有各种出版细节。对事件,有时间,有地点,有主题,有子事件。

在组织会议的过程中,每个人都会涉及到产生这些的一些数据,往往都用不同的格式。比如程序委员会主席要搞一个PC成员的列表,也要搞一个投稿文章的表格。大会主席要有一个组织委员会的成员别表。东道主主席要搞详细议程,出手册。所以我们看到很多文件:txt的,pdf的,doc的,xls的,邮件来邮件去。

因为ISWC自己就是想解决元数据问题,所以要先搞搞自己的元数据,这叫Eat One’s Own Dog Food。理论上讲,做好了,大家都用一个数据平台做事,会方便不少。比如Easychair系统,把投稿、审稿这个环节给包装起来了;Google Calendar,把日程安排给包装起来。但是还有很多的和会议有关的工作,没有成熟的产品来管,挂一漏万的列一列

  • 征稿过程(call for papers)
  • 人的元数据。Easychair有些,但是很不全
  • 事件的详细分类,平行事件
  • 文章的元数据。Easychair的数据往往不是最终的,所以不能用,而且内容太少。
  • 会议的本地信息,比如会场,吃饭,住宿
  • 人际关系(social relations)及其发展。开会,研究生谈研究,博士后谈找工作,老板们谈钱,相互认识,吃吃喝喝都是主要目的。谁认识谁,谁和谁什么关系,都是极有用的信息。
  • 实时信息(real-time information),比如Twitter, Facebook。更极端的,谁去过哪,谁和谁说过话,都是有人收集过的
  • 会议有关的新闻,有用的资源,等等。

如果有一个系统,把这些都统一起来,那Metadata Chair的工作就简单了,填填表就好。现在还没有,只好自己收集,自己编程。

为什么用RDF而不用关系数据库(RDB)或者XML?这个以后可能深入分析,这里先拍脑袋

  • 因为我们是搞语义网的(这叫政治正确)
  • 因为我们的数据要涉及一些简单的推理,不能用RDB和XML。这个其实牵强,驳不倒真正的RDB/XML大牛。
  • 对于我自己,真正的理由是,我觉得用RDF一切对我透明,各种工具都有,又有很多历史数据可以重用,便于集成。当然,数据库的人会说,这些数据库都能做。我不熟数据库,没法评价。

对到底哪个方法好的问题,我觉得只有用实践来检验,就是搞一个事情,让搞语义网的一班人来做,同时让搞数据库的的一班人做,看哪个做得好。这个事,我要是有几十万美元,愿意做这个实验。理论上争来争去,鸡生蛋蛋生鸡的,不如是骡是马拉出来遛遛。也许已经有这种实验,我孤陋,不知道。

Advertisements
分类:语义网

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: