首页 > 语义网 > 张雷谈沃森,及我的感想

张雷谈沃森,及我的感想

原文见:InfoQ: 张雷博士谈IBM沃森背后的AI技术 (作者 徐涵

不了解Watson的,先看这个视频

要点【内是我的读后感】

  • 沃森在拿到问题后,会进行一系列的计算,包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合等等。
  • 它综合运用了自然语言处理、知识表示与推理、机器学习等技术
  • 搜寻很多知识源,从多角度运用非常多的小算法,对各种可能的答案进行综合判断和学习。以统计推理为主。【很值得借鉴的思路,乱拳打死老师傅,问题难,架不住方法多。人解决问题本来就没有一个统一的算法,所以有这样多的职业。】
  • 沃森以现有的非结构化数据为主,适当辅以一些结构化数据。尝试了使用Linked Data,特别是DBpedia、IMDb等【结构化数据成为主流,还有很长的路要走。最好的可能结果,应该是大多数Web数据都是非结构化的,加以结构化的摘要和索引。】
  • 沃森系统的一个关键步骤是评价备选答案的可靠性。这个可靠性是由上百个算法从各种不同的角度评价得出的
  • 具备了初步的自我学习和完善的能力。
  • 有些从文本中挖掘得到的知识是使用三元组形式表示的;当一个字符串代表的对象有歧义时,使用URI来代表不同的对象;利用RDF三元组中的谓词作为语义提示等等。【这些都是语法的形式,并不能说是语义网的技术。】
  • 简单的基于本体的逻辑推理,例如上下位关系、不相交关系(disjointness)等;几乎没有使用其它本体映射和转换。【能快速实现简单的推理,功莫大矣。单是这一块,单独推出一个推理机都可以卖钱,卖很多很多钱,前提是快,全Web数据1秒内可以响应。】
  • 并行化计算能力把响应时间从2个多小时压缩到3秒内。【这个现在已经不是独门绝技了,所以列最后一个】

Watson团队到RPI和MIT都来讲过,偏偏他们来的时候我都不在。Chris Welty给我们讲座,说好了Telecon,电话又掉链子。上周我们的头“韩”老师(有兴趣自己人肉)来吃午饭,和我们讲了半小时(他也是听Chris说的)。Watson现在很重要,项目评审的时候,如果有Q/A方向的,大家都会问:有了Watson,你还研究啥?杯具啊!

Wolfram|Alpha两年前推出的时候,轰动一时。但是它那个人工数据加工的方式,对海量数据,不断变化的数据,实时数据,注定是不能胜任的。(不知道现在W|A架构有没有变化,我最近一年多没怎么跟踪他们了)

Twine和WolframAlpha的“失败”(如果可以这么说的话),相当程度上是因为要搞纯粹的结构化数据存储。两个问题

1)数据如何产生。机器学习得到的结构化数据质量还很差。Twine搞自然语言处理,W|A搞人工,都不是目前行得通的法子。

2)数据如何使用。结构化数据要Triple Store, 要推理机。现在Billion Triple查询已经家常便饭了,不过要是加上推理,那就不是这么回事了。就算你事先算推理闭包,我的数据不是静态的,咋算?这个基础还不扎实,所以Twine被收购了。

总结我的读后感

  • 要找工作的同学,除了语义网,多学习下列之一:机器学习,自然语言处理,并行计算。
  • Linked Data我疑心过5年还是一个小众的东西(如果我说错了,欢迎5年后来打脸,我会很高兴)。创业要小心。
  • 不要一说到语义、推理就是逻辑,贝叶斯也是推理,统计也是语义。

我2004年在ISWC第一次遇到张雷。那时他快要博士毕业,做的是一个语义存储查询系统,也是和IBM合作的。06年,10年又见过两次。上次见面,他已经是IBM上海方面的主力研究人员了。时间过得太快了,真是“一万年太久,只争朝夕”。

西瓜大丸子汤, 2011-03-23

Advertisements
分类:语义网
  1. Shangguan
    2011/03/24 @ 14:08

    简单的推理(各种形式的推理),海量数据上的快速响应,多种AI技术的配合使用,这三点是watson给我最深的印象,虽然具体的细节有很多的grey area。

  1. 2011/04/19 @ 16:47
  2. 2011/04/24 @ 01:29
  3. 2011/04/28 @ 14:55
  4. 2011/04/30 @ 16:27
  5. 2012/04/16 @ 01:31

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: