这里有关于语义网的噪声、看法、吐槽,和其他随便什么东西

统计机器学习的一点感想

2012/11/16 2 条评论

最近看了两篇文章,有些感想。

Chomsky和Norvig都是人工智能界的泰斗级学者,他们各执一辞,论述自己对统计机器学习的看法。两篇文章看完,都让人深受启发。

争论的大意是,Chomsky认为统计方法虽然在工程上有效,但是太“肤浅”,没有展示问题的本质。Norvig说,可是这玩意就是有效、有效、有效,这里是例子、例子、例子。

其实两个人说得都没错。这里我做个类比:

一天24小时,一年365天多一点,这个是统计学习。古人从海量的数据里得到了这些规律,用来指导生活,简单有效。伟大的天文学家如第谷,编制了大量的星表来表述这些统计发现,在一定范围内是准确的。

为什么一天24小时,一年365天多一点?深入理解,要太阳系模型和万有引力定律。这个靠统计学习是学不出来的。开普勒从第谷积累的海量数据里总结出三定律,不但能解释地球的自转和公转,还能解释其他行星的运行规律。牛顿进一步解释开普勒三定律,其实用万有引力定律都可以解释。

如果这场争论是放在16世纪天文学,Norvig大体上侧重于“一天24小时,一年365天多一点”的重要性,而Chomsky侧重于发现万有引力定律的重要性。

其实都没错。

统计方法有统计方法的价值和适用范围。在这个范围内是有效的。但它不是万灵药。机器学习、数据挖掘、自然语言处理,这十年来统计方法流行。但把这种流行上升为信仰就不可取了。“大数据”hype里有人认为,什么算法都不重要,只要数据足够多,就能发现需要的规律——我觉得这就近乎宗教迷信了。

比如现在我们有DBPedia知识库。如果没有Wikipedia,单纯用机器来统计学习Web上所有的文档,我怀疑能不能产生出DBPedia这样质量的知识库(尽管DBPedia自己的质量也依然不令人满意)。

关键不在数据的多少,而在高质量数据有多少。相比其他Web文档,Wikipedia就是高质量数据。而目前,高质量数据的产生,还是要依赖人。统计学习,是起一个重要但辅助的作用。

又比如问答系统,如Siri和Watson,都依赖于大量人工写作的模板、数据源和知识库。在此基础上,统计机器学习等诸多方法集成,方能完成自然语言理解、知识查找这样复杂的任务。为什么把Siri扩展到中文或其他语言难?因为那些模板、数据源和知识库都没有英文世界全。各种统计机器学习的方法,对中文和英文都是存在的,但他们不能离开高质量数据(知识)而工作。

期间若干步骤本身,也是统计方法、知识方法和算法方法的集成,如知识库的提取本身,如解析器(Parser)的设计,如问题的分类,如文档的细粒度分析,如备选答案的排序。

统计方法里可以套知识方法,知识方法里可以套统计方法。锤子用来砸钉子,扳手用来拧螺丝,非要说哪个好哪个不好,就是迷信。

我们工程师最要不得的就是迷信。锤子和扳手都是好东西,想把活干好,最好都备上。

Advertisements
分类:流水帐

语义网是NonRDF: not only RDF

2012/09/14 1条评论

为什么会有人认为仅仅做个d2rq,rdf就能解决关系数据库不能解决的问题呢? 这种对rdf的迷信,恰恰是语义网迄今普及不利的原因。技术之间的竞争,往往不仅是能力的竞争,而是整个工具系统之间的竞争。语义网的rdf阵营,在工具系统上的劣势,不是几年能弥补上的

过高的期望自然导致失望。语义网的核心是结构化数据,高质量结构化数据,可以产生新数据的高质量数据(即推理)。在从其它格式到rdf的转换中,如果没有数据质量的提升,就期望解决诸如数据集成,语义理解之类的问题,那很典型的,一年以后项目就被砍掉或死撑。

工具系统的竞争,是一个复杂的系统工程,绝不是一个标准化组织能组织和规划的。而工具的产生和演进,又是和用户与工程师的需求,理解能力和使用习惯密切相关的。基于w3c规范的工具系统,往往有太浓厚的学术性,不太贴合普通web工程师的需求。其实广义上讲,语义网已经是现实了: 大家不都用json吗?

分类:语义网

用Python发博客

2012/07/19 留下评论

本文是用Python发的

(下面是后来手工改的)

用的是这个包 https://github.com/charlax/wordpresslib

需要手工安装

git clone https://github.com/charlax/wordpresslib.git
cd wordpresslib
python setup.py install

Python代码是

import wordpresslib

url = "http://yourblogurl.com/xmlrpc.php"
wp = wordpresslib.WordPressClient(url, 'user', 'pass')
wp.selectBlog(0)

post = wordpresslib.WordPressPost()
post.title = '用Python发博客'
post.description = '本文是用Python发的'
post.tags = ["wordpress", "lib", "python"]
idPost = wp.newPost(post, True)
print "posted as", idPost
分类:流水帐 标签:, ,

语义网与HCI

2012/06/02 1条评论

胡乱写几句。不列推理过程,不列参考文献

貌似资本市场已经开始炒知识Web这个方向了。诸位语义网同仁的马甲大概快可以扒下来了

在今后1-2年内,语义网技术推向大众市场(企业市场和专有领域是另一会事),机会在哪里?我以为其一是智能界面,一些全新的服务形式。或许是,或许不是对现有服务,如搜索和社交网络,的扩展。更有可能不是。

Siri是一种,但不是唯一的一种。Tom Gruber说Intelligence at Interface (I@I),语音个人代理只是一种表现形式。

知识管理是所有人都需要的任务,是一个比现有的搜索更大的市场。现有的技术其实可以满足大多数人的需要,但是需要界面做一些paradigm shift。做一个每个人(很忙的,很闲的;男的,女的;要找饮食的,要找男女的)都需要的Evernote。

没有鼠标就没有Web。

没有表单就没有Social Web。

没有触摸屏就没有Mobile Web。

没有X就没有Semantic Web。这个X不是Siri,或者不仅是Siri。

考之于Web,Wiki,Facebbook的发明,X的产生大概也不需要火箭科技,可能就是对现有技术的工程组合,一两个人年的工作。

下一个GOOG或者FB,大概已经或者即将,在X方向上产生。

如果现在还在犹豫的,2013年再做的,就已经太晚了。

分类:语义网

语义网相关文章:一年汇总

2012/04/16 1条评论

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

旧英文贴

反思

产业评论

新思维

新思维2

(暂时保护中)

2 工程实践

问答系统

会议元数据

其他应用

语义网语言

3 产业化

语义网的公司

创业

4 个人研究

描述逻辑

Context

域态逻辑

语义信息论

语义维基

Web Science

咬文嚼字

胡思乱想

5 杂谈

入门与普及

八卦

活动

其他

大宝宝,大宝宝

2012/03/31 1条评论

【妞妈作品】

最近爸爸为了鼓励妞妞自己干活,就说“妞妞是大宝宝了,应该自己吃饭(刷牙等)”。没想到妞妞学得真快,大部分事情都要自己做,比如洗脸,刷牙等。大多数情况下是件美事,但是也有让爸爸妈妈很无奈的时候。比如早上出门,挑好的衣服,她硬是不穿,理由是“妞妞是大宝宝了,自己找衣服”。她花好久,终于决定穿什么衣服,爸妈一看,衣服上下颜色样子不搭配,很滑稽。接下来,爸爸妈妈争分夺秒想赶快给她套上出门,结果,在她哭哭啼啼要求“妞妞是大宝宝了,要自己穿”的时候,爸爸妈妈怕上班迟到,给她强行套上,她一定要扯下来,自己重新花N倍的时间套上。

还有就是睡觉前讲故事,最近她特别爱听丑小鸭的故事。妈妈改名叫“小天鹅找妈妈”。听的多了,妈妈就边讲边提问,让她填空,她都填的很好。从昨晚,她要求“妞妞是大宝宝了,要自己讲”。说完就像模像样的要爸爸妈妈都听她讲“小天鹅找妈妈…小鸭鸭是是是..黄色的,小天鹅是…白色的…小鸭鸭(跳到鸭妈妈背上)骑马马…”断断续续,每讲一个字在困极了的爸爸妈妈听起来好像花一个世纪。妈妈急了,就接着讲,想加快进度,讲完大家都可以打呼噜了。结果,妞妞尖声叫道“妞妞是大宝宝了,要自己讲”。然后,她又从头开始重复““小天鹅找妈妈…4只小鸭鸭…小鸭鸭是是是..黄色的…蹦出一只小天鹅…”她讲错了,漏了,妈妈想教她,或者补充,招来的结果是,她又开始从头重复“小天鹅找妈妈…”后来妈妈只好放弃,她自己也不知道花了多久,终于讲完了,反正妈妈是被催着了。其实加起来她的故事连30个字都没有,因为她自己都忘词了。

讲完后,她从小床上凑过来,嘴巴在离妈妈眼睛只有纳米距离的地方,大声叫道“讲大灰狼的故事”。妈妈被惊醒,连连诺到“好好好”。接着,她边比划,边唱,“小兔子乖乖,把门开开”,好在这个歌她很熟练,很快就讲完了。接下来,她搜肠刮肚,把平时所学的歌都唱一边才罢休,其中不乏舞蹈表演。整个过程从8:40PM到10:20PM的样子。直到她自己精疲力尽呼呼睡去,妈妈才敢放心睡去,爸爸早打呼噜了。

晚上爸爸接妞妞回家,外面淅淅沥沥下着小雨,到家门口上楼梯的时候,妞妞要边玩手机上的游戏,边上楼,她上楼的时候一只手还得扶住栏杆,爸爸希望妞妞走快点,就抱她上来了,她不愿意:“妞妞是大宝宝了,要自己走”哭着鼻子一步要下楼,妈妈担心她摔倒,跟着她下楼。一不小心,哐当一声,下了一半台阶的时候,手机摔在地上,电池都出来了,自然也没画面了。妈妈说“我们不下楼了,赶快回去找爸爸修吧。”她很乖巧的蹭蹭蹭的上楼了,妈妈心想,能够让她这么快回到家,把手机摔了也值。没想到,这厮把手机扔到门口沙发上,大嚷一声“爸爸修”,转身出门又下楼了。妈妈问,”妞妞怎么又要下去了?”她一本正经的回答“妞妞是大宝宝了,要自己上”“得,她还惦记着她没自己上过的几级台阶呢!”妈妈也值得耐心和她一起在雨中下楼上楼的折腾一番。她的犟劲和她老爸有一拼。

分类:妞妞

安全网与冒险

2012/03/30 留下评论

最近想,有些聪明的年轻人,为什么不去冒一点点风险?不一定要象Bill Gates, Steve Jobs那样本科辍学,象Larry Page那样,发现有一个好的想法,又有实现的可能,赶快去实现,即使意味着推迟甚至不要学位了?

然后我问自己,我自己当年能不能做到?大概也是做不到的。今天能不能做到?要有多少准备才能承担相应的风险?

一个人敢冒多大的风险,通常取决于他有多大的安全网。

从小受到的教育,基本都是追求安全和避险。这些概念往往是根深蒂固在头脑里了,清理起来非常困难。

这个概念本身,在产生的时代,是有道理的。20多年前,中国人都刚刚吃饱肚子,生存和安全还是第一需要。那时候,你叫人去冒险,买股票、辍学创业、或者不要铁饭碗,大多数人都会觉得你是神经病。

结果大多数人,用很长的时间在建立自己的安全网:技能,学位,身份,关系,等等。

这些都是很耗时间的事,甚至不是一代人能完成的。许多在美国很简单的事,在中国就要一代甚至两代人才能完成:比如拿一个大城市的居住权。

对安全的追求,使很多人开始着迷于安全,以至于对安全的追求本身就变成了毕生的任务。

我想对现在这个时代,应该变一变了。人生前半段建立自己的安全网(加上自己父母建立的更基本的安全网)——这个不是目的,用好这个安全网去冒险才是目的。

人拥有的资本,除了健康和家庭,主要就是时间和金钱了(其实本质上也是一回事)——这两个东西的长期收益,都是和风险正相关的。而为了减小系统风险,应该越早开始投资越好。这就是为什么大多数创业的人是25岁而不是35岁。

人生建立安全网的阶段应该缩短,而冒险的阶段应该加长。在可以冒险的时候不去冒险,是十足的浪费。

 

分类:随感