这里有关于语义网的噪声、看法、吐槽,和其他随便什么东西

本博客转移到blog.baojie.org

2013/02/10 留下评论

请移步 http://blog.baojie.org/

以前在这个里发布的所有内容已转移到新博客空间

分类:流水帐

小可人儿妞妞

2012/12/13 留下评论

妞妞快三岁了。近期一些言论如下

1) 妞:爸爸你还没下班吗?你快回来吧,我想你抱我

2) 妞:爸爸给你吃

爸:为什么啊

妞:因为我喜欢你啊。我们是好朋友

3)妞(看电视):我不要老鼠(摆手),我要黑猫警长。黑猫警长是我的好朋友

4)妞:丫丫妹妹不要哭,姐姐帮你找牙齿

5)妞:我要吃棒棒糖!

妈:好,但只能吃一下。吃多了牙齿会长黑虫

妞(舔了几分钟):好了,我吃好了,你给我没收了吧

爸:妞妞这么乖啊

妞:我说了只吃一点点的

6)妞(看到抽屉里的蜡烛):等我过生日了,妈妈要给我买蛋糕,然后你们唱歌,然后我就吹蜡烛

爸:妈妈也要过生日了,要不要给妈妈买蛋糕?

妞:要啊。(唱)祝你生日妞妈,祝你生日妞妈…

爸:唱错啦,是祝你生日快乐

妞:没有错啊,妞妞和妈妈都要过生日(所以是“祝你生日妞、妈”)

7)爸爸站在椅子上挂墙钟。妞:爸爸要小心,不要掉下来了

8)爸爸下班回家都要和妞妞抱一抱,妞妞一般就粘在爸爸身上不肯下来。妈妈和妞妞说,应该让爸爸先吃饭。前天爸爸回家,妞妞:爸爸,你先吃饭吧,吃完了再抱我

9) 妞:你很乖,妞妞老师给你一个sticker

分类:妞妞

关于Graph Database的微博汇总

2012/12/03 留下评论

2012年4月到12月间一些关于Graph Database微博的汇总

http://www.weibo.com/xiguadawanzitang/profile?is_tag=1&tag_name=GraphDB

OWL推理一个思路是通过hypertableau,做模型构造。另一个思路是作为图论问题,通过图的
构造,最大化可并行性任务(如“或”)。在推理任务的另一端,简单如 semantic wiki的推理,我们
也发现推理的所有任务都可以归结到图的路径计算。http://t.cn/zjVMZsw 用图数据库做语义网的
数据平台是很自然的

我个人最喜欢OrientDB,知识建模灵活,内置推理,查询语法易懂。唯一的问题是那个公司太
小,还没有证明自己的稳定性,用的人很少。Titan如果发展好了,很有希望,阵容很强大,但
是现在还早了点。Neo4j用的人最多,不过能力最弱//@卢小东-知识梳理: 如果要兼顾语义知识
库管理的难度,不知道哪个更适合?

另外,图数据库往往和其他数据库结合,做多级存储,获得性能和表达力的折衷。其实数据库
的大部分并不需要图查询。搞大点的内存,用内存模式跑图数据库,持久化非图结构数据到其
他,比如mongodb或elastic aearh//@SiDT:使用Neo4j,规模大了,性能会有问题。ID不能指定,
有其他更好推荐吗

回复@SiDT:看你的规模有多大。几十万用户的话,做适当的数据分割,neo4j应该可以拿下。
orientdb的并行版本应该也可以。Titan并行支持最好,在cassandra和hbase上都能跑;不过太
新,文档不全,各种编程接口也很初级 //@SiDT:使用Neo4j,规模大了,性能会有问题。ID不能
指定,有其他更好推荐吗

关联图数据库和elastic search。甚至可能用gremlin或类似orientdb sql的语言直接检索索引
//@SiDT:存取和关系计算是强项,但检索是难点,有好的方案么

图数据库比语义数据库好的四个原因 1 构造更简单,对字符串更友好,避免过早优化 2 对大规
模并行支持好,有现成的解决方案 3 工具系统集成好,json数据交换 4 本身支持sparql甚至推
理,所以相对语义数据库并没失去什么

回复@个体小知: pregel和hama之类,表达力有限,一般适合传统图论操作,和titan, orientdb,
neo4j这种图形数据库比,上面还要再包装一层属性图查询语言才能好用。但是这种包装现在还
没有。Titan在大规模分布式上已经做得很好了 //@个体小知:所以适合不大不小,夹在中间的公
司使用

在各种图数据库里,Titan是个新生,不过貌似潜力惊人 http://t.cn/zlboiMo 。作者Marko
Rodriguez就是图数据库标准Blueprint的奠基人

其实在这个三个里面, OrientDB算是最容易用的,。pregel现在支持硬盘模式吗?对小公
司,prege,hama这些都有点重了。 //@个体小知: 貌似是夹在中间,论成熟文档易上手不如
neo4j,论性能强大灵活不如pregel

OrientDB文档通读了一遍。几个感想1) 比Neo4j灵活,强大,但是文档不够全,bug不知道会不
会多 2) 貌似比neo4j更能支持cluster,节点自动组网,每节点可以每秒15万条插入,100万用户
以下应该都够用 3) 适合不懂语义、图DB,只懂SQL的程序员来学习 4) 内置推理,连推理机都
不用了。 5)SPARQL可以去死了

RDF数据库由于三元组的无组织性(organization, context),索引结构不免复杂和冗余。同样规模
的数据,triple store和图数据库比,磁盘空间消耗常大10倍,相应的I/O和网络消耗都大,性能
上不能满足需求也就可以理解了

数据冗余和实时一致性在Web应用中通常都不是问题。在数据源分布、用户行为被验证之前就
明确(符合第三范式的)数据schema本质上是一种过早优化。RDF引入schema,特别是OWL,
是推理的过早优化。图数据库则把存储结构和推理变成逐步验证的过程,优化用户需要部分,
很适合lean startup的原则

RB+-tree在图形数据库中做索引,做局域索引,据说上可以和图本身的大小无关。很神奇

Web 1.0的模型是普通图。Web 3.0的模型可能是属性图(Property Graph)。肯定不是RDF Graph

其实RDF1.1努力的方向就是把RDF变得更像一个图数据库(graph database)语言。那为何不直接
用图数据库呢?工程的稳定性还更好些。Freebase底层就是图数据库

到底是OrientDB好呢,还是neo4j好?纠结,纠结

不允许字符串做主语subject是RDF让人很不爽的一个地方。有这限制是为了模型论语义——这
是整个W3C体系的一个问题: 工程的方便性让位于模型论语义的精确性。在RDF OWL RIF
SPARQL里我们反复看到这个主题。这大概是非W3C的graph database后来居上的原因吧

RDF用URL做节点和关系的名字困惑了很多人。很多场合下,没必要精确到URL这个级别,字符
串就很好了。Property graph在这点上比RDF GRAPH方便很多

什么是图形数据库? 本质上是分布式索引。

最近在看Graph Database, 不禁想,搞这个的,其实也就是一小群hacker,和美国欧洲各大学校
+公司+W3C不能比,结果两三年的功夫,把多少亿美元投入、成千上万的研究人员、上十个工
作组在“语义网”上的工作生生得给比下去了。什么叫实事求是的力量啊,这就是

例证:http://t.cn/zOKYqXR 在Google Insights里,neo4j一家就单挑triple store和SPARQL了。

Blueprint技术堆栈比语义网的W3C蛋糕模型看起来要靠谱得多。 http://t.cn/zOKYPma 现在用
Blueprint方案数据库的用户(比如neo4j)要远远多于RDF triple store。这还只是多种非W3C路
线的语义网解决方案的一种。

更正:Neo4j的商业版本也要2.4万美元一年(或者AGPL,最严格的开源协议)。我一开始以为
是免费的。

从web到semantic web,从数学上讲不过是从single relation graph到multi-relation graph。可这么
一个”简单”的进步,在工程上大概要花30年才能完全实现。这个世界的进步,并没有想象的那
么快

纯nerdness:Gremlin是一个图灵机完备的查询语言。从表达力上讲,啥都可以说。定义个
SPARQL到Gremlin的转化理论上是可以做到的。所以所有的graph database都是SPARQL-ready

RDF Virtual Machine by Marko A. Rodriguez http://t.cn/zOK7kFT 有点意思。这位老哥是图形数据
库的主要人物之一,Germlin的发明人。

语义网的数据库也该考虑支持支持Gremlin

Neo4j让我特别满意的一点是支持SPARQL。这样RDF数据库的灵活性和图数据库的强大性都有
了。AllegroGraph也可以同时做到这两点,就是商业版本贵点。

开始:忍受不了RDB僵硬的表结构=>使用键,值数据库;发现完全没有结构也不好=>使用文档数
据库;发现文档结构其实也很讨厌,特别是没join => 使用图数据库;发现其实上述其实都是
图,但很快就有越来越多复杂的路径查询=>把这些查询写死在代码里;能不能不写死呢 =>恭
喜,您现在是语义网的程序员了

最近在看AffinityDB和Neo4j。这些都可以算W3C路线之外的语义网的实现方法。特别是
AffinityDB,真是该有的全有了,该没有的全没有

分类:语义网

Microdata, RDFa, 语义超摩尔定律

2012/11/28 留下评论

HTML Working Group和RDFa主席反对Microdata的文章: Objection to Microdata Candidate Recommendation

Microdata是schema.org的数据格式。几个有趣的论点:1)Microdata和RDFa基本重叠,而RDFa已经是标准 2)除了Google,几乎没有人用Microdata(<1%)。我的观点:其实,不是已经有JSON了?

Peter Mika和Tim Potter今年关于Web上元数据统计: Metadata Statistics for a Large Web Corpus

30%的网页有语义元数据。几个主要的元数据网站是Facebook, tabelog,venere, yahoo, tripadvisor(含中文网站daodao), answers, myspace。基本就是两个领域:交友和旅游。从数据总量看,Facebook和tripadvisor是两个最大的语义网上的公司

到2012年1月,搜索引擎可见的语义网的规模有多大?Peter Mika报告说:至少170亿三元组,其中10%由Facebook产生。17b数据,估计放在内存里也就几个T,在大数据里算是很小的数字

不过根据我的不完全统计,语义数据在最近5年的发展,大体上每年涨一个数量级,远超内存的增长——我称之为语义超摩尔定律。具体统计数字现在不在手上,以后补上。 估计三到五年后,语义数据的分析和使用将面临很大的大数据挑战。这都是高质量数据,不是打酱油数据,意义很大。

分类:语义网

语义网的高级语言

2012/11/27 留下评论

在谈论语义网的时候,要和RDF路线区分开来。

和一些人谈到语义网,他们说:“语义网死了”。如果从RDF的角度来说,是的——虽然W3C路线的支持者还不承认。

但是这种观点,就如同计算机在只有机器语言,没有高级语言的时候就断言:“计算机死了”。

我大胆提出两个假设

  • RDF是一门低级语言,只适合机器使用——如同机器语言或者汇编语言
  • 语义网需要一门高级语言,面向工程师(人),用来做大规模知识库的写作、重用

为什么说RDF是低级机器语言?

  • 用URL来寻址并不错。但是把精确寻址的任务交给人,要求人来设计URL,就如同在C编程中要求人对每个变量赋予内存地址。
  • RDF是一个“平坦”(flat)的语言,缺少内部的组织单元。有很多建议,引入诸如package, named graph这样的组织单元,但目前还没有达成共识或广泛采用。
  • RDF的语法,即使是Turtle,也没有可读性,理解和重用起来非常困难。
  • RDF缺少“宏”或者构造高层次组织的能力。其实SPARQL弥补了一点,就是graph pattern;一些语言如SPIN,把graph pattern作为可重用的单元,甚至可以生成新的数据。如果把这个能力作为RDF原生的能力就好了。

2010年RDF Working Group开预备会议,我也与会了。现在回来看,我那时的想法是错误的:为RDF引入更精确的语义,基于上下文(context)的组织和寻址,并不合适——虽然Pat Hayes后来很喜欢这个想法并在工作组内推一个类似的想法

RDF的问题不是逻辑太少了,而是逻辑太多了。

知识工程的问题往往是太多考虑机器的需要,而不太考虑人的需要。而知识工程的瓶颈,又恰恰在人而不在机器。

RDF 1.1现在的几个努力方向:JSON语法,Named Graph, Turtle Syntax,这些都是好的。但是还不够。我甚至怀疑,在RDF框架内能不能达到易用性的目的。

因为从一开始,RDF就被设计成machine understandable语言。这本是好的,至少在1999年。但是一个缺少高级语言的情况,就好像编程语言的早期。结果就是知识工程的人月神话。

现在的情况也很象Web发明的时候:在Internet上,TCP/IP是面向机器的低级语言,而HTML和URL是面向人的高级语言。我觉得,现在有一个强烈的需要来设计一个Semantic Web的高级语言。

这样的高级语言要有什么特征呢?我觉得大体有这样几点

  • 支持多粒度的知识/数据组织和重用
  • 用字符串而不是URL来寻址。不追求addressing uniqueness, 而是probable and eventual addressing uniqueness
  • 支持知识的分布式传输(按一定粒度)
  • 使用目前主流程序员熟悉的语法形式。
  • 尽可能少重新发明轮子——比如rdf:plainLiteral(我是作者之一)这样的字符串类型就没什么必要
  • 支持结构化和非结构化数据的混合表达(RDF有Literal,不过,那个太局限了)
  • 这个语言的文档不要提什么“语义”(有几个程序员关心SQL的语义?),不要规定什么schema
  • 把推理转化为图的操作或者编程语言内置的运算。在这之外的推理都先不考虑。
  • 从一开始就设计成在cluster上能运行的语言
  • 拜托,用程序员看的懂的语言和例子写文档。

其实这样的语言雏形的一些部分,在不同的技术平台上都已经自发出现了。语义维基,图数据库,新一代检索引擎,都包含了上述部分概念。有心人要做的,就是一个有机的组合。我想,在我写这一段的时候,大概已经有人开始做了。

P.S. 我甚至觉得,都没有必要引入一个新的高级语言语法,就在现有的某种贴近RDF的编程语言里,做少量的增加就能实现目的。最理想的就是Python。为什么这么说?JSON本身就是Python的数据结构。而几乎所有的数据API都吃JSON。Python的类与属性定义与关系就是RDF的翻版。

其实更合适的是Lisp。但是Lisp对抽象思维要求太高,社区又太小。做面向Web的开发,为了工程经济性(人力上的),还是Python比较合适。

分类:语义网, 流水帐

一个个人知识管理系统

2012/11/26 1条评论

今天看这篇文章:《个人提升方法三部曲:行动,记录、总结

过去这半年来,其实我一直在按这篇文章说的步骤来管理自己的知识。开发这个系统用了我大概一个月的业余时间,随时记录,每天生成总结。现在已经完全离不开它了。

基本技术路线:用semantic wiki做数据录入,用Python API(mwclient)做报表、分析。一点点自动化,每个知识点还是要人产生摘要,然后就可以用各种预先定义好的graph pattern推送到各个页面去。有一点点entity extraction,算是知识提取自动化。语义查询、检索、faceted browsing,可视化,支持知识的进化和重组。这些是知识管理的基本功能。半年多下来,大体每天能积累7-8个新的知识点,现在有上千个了。

知识就是一个点,一个点就是一句或者几句话。几个点可以组织在一个页面上,也可以通过查询流动到其他页面上。日历任务提醒现在已经做进去了,每天一个提醒邮件(当然也可以更频繁)。是一个Web应用,在浏览器里用。基本使用不需要编程。如果想定制,可以通过Python或者SMW

@Alisoncastle问:你的对于没知识体系的人来说适用吗。

适用。本来我的计划就是让知识能演化。每个点开始就是一句话,一个链接,一条微博。慢慢随着需要增长。增长的过程中结构出现。到一个知识点过大的时候就分裂成几个,通常是按其内部结构自然分割。然后到某个时候几个知识点需要汇总,就链在一起。并不需要一开始就有体系,体系是在发展中自然形成的。

链在一起主要还是靠人工。也可以预先写一个查询,满足某个条件的,比如提到某类词的(不是tagging),都汇总在一起。语义wiki这点还是很给力的。

@Alisoncastle又说: 我懒不喜欢人工,靠人工知识点多了后就一定会出问题 我就是多了后不知道该怎么并,于是就干脆不并。这是个很难的问题,如果能找到一些合理的自动规则,如同算法一般那就帅啦

我也没有好办法。要解决这个可能得开个公司专业搞。我觉得应可能的比例是60%统计+20%本体与NLP+20%启发式HCI。

目前组织大都还是手工,而且要求使用者自己有良好的记录习惯。我不管是看文章,开会还是写代码,潜意识里假设记下的每段话将来都可能长成新的知识点。但是妞妈就觉得这很别扭,还是用email管理方便

和Evernote比,界面当然不能比。主要的优势是每个知识点都有元数据(有一个很简单的表单),可以查询,可以用来做统计,生成图表,按日、按周做报表,提醒到期任务。可以让知识在页面之间流动,细粒度引用比较方便

当然现在还是太简陋了,界面惨不忍睹,只有绝对geek才能忍受。向妞妈推荐,被斥之以鼻。向周围一堆人推荐过了,几个项目里的合作伙伴,到现在没第二个人用。

开源问题:等我整理一下,建一个demo网站。可能要过一阵子

分类:编程, 语义网

通信的语法,语义和语用层次:一封推荐信

2012/11/22 留下评论

以前在研究“语义信息论”(Semantic Information Theory)的时候,涉及到通信的三个层次:技术的,语义的和效果的。这个层次划分是(Weaver 1949)说的。香农的传统信息论只涉及技术这个层面。

从语言学的角度,这三个层次可以大致对应于语言的语法Syntax、语义Semantics和语用Pragmatics三个层次

今天在看《语言本能》(The Language Instinct)这本书,里面举了个很有意思的例子,可以做这三个层次的范例

一封推荐信:

亲爱的平克教授:

我非常高兴能向你推荐厄文×史密斯先生。史密斯先生是一个模范学生。他衣着整齐,而且非常守时。我认识史密斯先生已经三年了,我觉得他在各方面都是最合作的人。他的太太很迷人。

真诚的约翰×琼斯教授

语法层面:用某种NLP工具,比如Stanford parser,可以分析句子结构。比如这样的语法树

(ROOT
  (IP
    (IP
      (NP
        (NP (NR 史密斯))
        (NP (NN 先生)))
      (VP (VC 是)
        (NP
          (QP (CD 一)
            (CLP (M 个)))
          (NP (NN 模范) (NN 学生)))))
    (PU 。)
    (IP
      (NP (PN 他))
      (VP
        (VP
          (ADVP (AD 衣着))
          (VP (VA 整齐)))
        (PU ,)
        (CC 而且)
        (VP
          (ADVP (AD 非常))
          (VP (VA 守时)))))
    (PU 。)))

语义层面:基于背景知识,我们知道史密斯先生是个男人,他已婚,他至少已经三岁了(呵呵)。所谓的语义信息论,就是不仅局限于句子本身出现的符号(如“先生”),而是把它们与未出现的符号(如”男人”)也关联起来,通过出现的符号来推导出未出现的符号的一些信息。

语用层面:琼斯教授在使坏,在说史密斯的坏话,虽然一个负面的词都没有用。因为推荐信理论上是要讲被推荐人的专业素养,琼斯教授只说了一堆不相干的话。在这个特定的通信实例里,其实有一个“封闭世界假设”:如果推荐人没有说到专业素养,那说明这个专业素养是不值得提的。这种语用的信息,是基于信源和信宿共用的背景知识(如文化)和一些约定的规范(如推荐信的内容)。一些特定的场合,语用应该也是可以数学描述或近似的。留待以后有空来捣捣浆糊。

统计机器学习的一点感想

2012/11/16 2 条评论

最近看了两篇文章,有些感想。

Chomsky和Norvig都是人工智能界的泰斗级学者,他们各执一辞,论述自己对统计机器学习的看法。两篇文章看完,都让人深受启发。

争论的大意是,Chomsky认为统计方法虽然在工程上有效,但是太“肤浅”,没有展示问题的本质。Norvig说,可是这玩意就是有效、有效、有效,这里是例子、例子、例子。

其实两个人说得都没错。这里我做个类比:

一天24小时,一年365天多一点,这个是统计学习。古人从海量的数据里得到了这些规律,用来指导生活,简单有效。伟大的天文学家如第谷,编制了大量的星表来表述这些统计发现,在一定范围内是准确的。

为什么一天24小时,一年365天多一点?深入理解,要太阳系模型和万有引力定律。这个靠统计学习是学不出来的。开普勒从第谷积累的海量数据里总结出三定律,不但能解释地球的自转和公转,还能解释其他行星的运行规律。牛顿进一步解释开普勒三定律,其实用万有引力定律都可以解释。

如果这场争论是放在16世纪天文学,Norvig大体上侧重于“一天24小时,一年365天多一点”的重要性,而Chomsky侧重于发现万有引力定律的重要性。

其实都没错。

统计方法有统计方法的价值和适用范围。在这个范围内是有效的。但它不是万灵药。机器学习、数据挖掘、自然语言处理,这十年来统计方法流行。但把这种流行上升为信仰就不可取了。“大数据”hype里有人认为,什么算法都不重要,只要数据足够多,就能发现需要的规律——我觉得这就近乎宗教迷信了。

比如现在我们有DBPedia知识库。如果没有Wikipedia,单纯用机器来统计学习Web上所有的文档,我怀疑能不能产生出DBPedia这样质量的知识库(尽管DBPedia自己的质量也依然不令人满意)。

关键不在数据的多少,而在高质量数据有多少。相比其他Web文档,Wikipedia就是高质量数据。而目前,高质量数据的产生,还是要依赖人。统计学习,是起一个重要但辅助的作用。

又比如问答系统,如Siri和Watson,都依赖于大量人工写作的模板、数据源和知识库。在此基础上,统计机器学习等诸多方法集成,方能完成自然语言理解、知识查找这样复杂的任务。为什么把Siri扩展到中文或其他语言难?因为那些模板、数据源和知识库都没有英文世界全。各种统计机器学习的方法,对中文和英文都是存在的,但他们不能离开高质量数据(知识)而工作。

期间若干步骤本身,也是统计方法、知识方法和算法方法的集成,如知识库的提取本身,如解析器(Parser)的设计,如问题的分类,如文档的细粒度分析,如备选答案的排序。

统计方法里可以套知识方法,知识方法里可以套统计方法。锤子用来砸钉子,扳手用来拧螺丝,非要说哪个好哪个不好,就是迷信。

我们工程师最要不得的就是迷信。锤子和扳手都是好东西,想把活干好,最好都备上。

分类:流水帐

语义网是NonRDF: not only RDF

2012/09/14 1条评论

为什么会有人认为仅仅做个d2rq,rdf就能解决关系数据库不能解决的问题呢? 这种对rdf的迷信,恰恰是语义网迄今普及不利的原因。技术之间的竞争,往往不仅是能力的竞争,而是整个工具系统之间的竞争。语义网的rdf阵营,在工具系统上的劣势,不是几年能弥补上的

过高的期望自然导致失望。语义网的核心是结构化数据,高质量结构化数据,可以产生新数据的高质量数据(即推理)。在从其它格式到rdf的转换中,如果没有数据质量的提升,就期望解决诸如数据集成,语义理解之类的问题,那很典型的,一年以后项目就被砍掉或死撑。

工具系统的竞争,是一个复杂的系统工程,绝不是一个标准化组织能组织和规划的。而工具的产生和演进,又是和用户与工程师的需求,理解能力和使用习惯密切相关的。基于w3c规范的工具系统,往往有太浓厚的学术性,不太贴合普通web工程师的需求。其实广义上讲,语义网已经是现实了: 大家不都用json吗?

分类:语义网

用Python发博客

2012/07/19 留下评论

本文是用Python发的

(下面是后来手工改的)

用的是这个包 https://github.com/charlax/wordpresslib

需要手工安装

git clone https://github.com/charlax/wordpresslib.git
cd wordpresslib
python setup.py install

Python代码是

import wordpresslib

url = "http://yourblogurl.com/xmlrpc.php"
wp = wordpresslib.WordPressClient(url, 'user', 'pass')
wp.selectBlog(0)

post = wordpresslib.WordPressPost()
post.title = '用Python发博客'
post.description = '本文是用Python发的'
post.tags = ["wordpress", "lib", "python"]
idPost = wp.newPost(post, True)
print "posted as", idPost
分类:流水帐 标签:, ,

语义网与HCI

2012/06/02 1条评论

胡乱写几句。不列推理过程,不列参考文献

貌似资本市场已经开始炒知识Web这个方向了。诸位语义网同仁的马甲大概快可以扒下来了

在今后1-2年内,语义网技术推向大众市场(企业市场和专有领域是另一会事),机会在哪里?我以为其一是智能界面,一些全新的服务形式。或许是,或许不是对现有服务,如搜索和社交网络,的扩展。更有可能不是。

Siri是一种,但不是唯一的一种。Tom Gruber说Intelligence at Interface (I@I),语音个人代理只是一种表现形式。

知识管理是所有人都需要的任务,是一个比现有的搜索更大的市场。现有的技术其实可以满足大多数人的需要,但是需要界面做一些paradigm shift。做一个每个人(很忙的,很闲的;男的,女的;要找饮食的,要找男女的)都需要的Evernote。

没有鼠标就没有Web。

没有表单就没有Social Web。

没有触摸屏就没有Mobile Web。

没有X就没有Semantic Web。这个X不是Siri,或者不仅是Siri。

考之于Web,Wiki,Facebbook的发明,X的产生大概也不需要火箭科技,可能就是对现有技术的工程组合,一两个人年的工作。

下一个GOOG或者FB,大概已经或者即将,在X方向上产生。

如果现在还在犹豫的,2013年再做的,就已经太晚了。

分类:语义网

语义网相关文章:一年汇总

2012/04/16 1条评论

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

旧英文贴

反思

产业评论

新思维

新思维2

(暂时保护中)

2 工程实践

问答系统

会议元数据

其他应用

语义网语言

3 产业化

语义网的公司

创业

4 个人研究

描述逻辑

Context

域态逻辑

语义信息论

语义维基

Web Science

咬文嚼字

胡思乱想

5 杂谈

入门与普及

八卦

活动

其他

大宝宝,大宝宝

2012/03/31 1条评论

【妞妈作品】

最近爸爸为了鼓励妞妞自己干活,就说“妞妞是大宝宝了,应该自己吃饭(刷牙等)”。没想到妞妞学得真快,大部分事情都要自己做,比如洗脸,刷牙等。大多数情况下是件美事,但是也有让爸爸妈妈很无奈的时候。比如早上出门,挑好的衣服,她硬是不穿,理由是“妞妞是大宝宝了,自己找衣服”。她花好久,终于决定穿什么衣服,爸妈一看,衣服上下颜色样子不搭配,很滑稽。接下来,爸爸妈妈争分夺秒想赶快给她套上出门,结果,在她哭哭啼啼要求“妞妞是大宝宝了,要自己穿”的时候,爸爸妈妈怕上班迟到,给她强行套上,她一定要扯下来,自己重新花N倍的时间套上。

还有就是睡觉前讲故事,最近她特别爱听丑小鸭的故事。妈妈改名叫“小天鹅找妈妈”。听的多了,妈妈就边讲边提问,让她填空,她都填的很好。从昨晚,她要求“妞妞是大宝宝了,要自己讲”。说完就像模像样的要爸爸妈妈都听她讲“小天鹅找妈妈…小鸭鸭是是是..黄色的,小天鹅是…白色的…小鸭鸭(跳到鸭妈妈背上)骑马马…”断断续续,每讲一个字在困极了的爸爸妈妈听起来好像花一个世纪。妈妈急了,就接着讲,想加快进度,讲完大家都可以打呼噜了。结果,妞妞尖声叫道“妞妞是大宝宝了,要自己讲”。然后,她又从头开始重复““小天鹅找妈妈…4只小鸭鸭…小鸭鸭是是是..黄色的…蹦出一只小天鹅…”她讲错了,漏了,妈妈想教她,或者补充,招来的结果是,她又开始从头重复“小天鹅找妈妈…”后来妈妈只好放弃,她自己也不知道花了多久,终于讲完了,反正妈妈是被催着了。其实加起来她的故事连30个字都没有,因为她自己都忘词了。

讲完后,她从小床上凑过来,嘴巴在离妈妈眼睛只有纳米距离的地方,大声叫道“讲大灰狼的故事”。妈妈被惊醒,连连诺到“好好好”。接着,她边比划,边唱,“小兔子乖乖,把门开开”,好在这个歌她很熟练,很快就讲完了。接下来,她搜肠刮肚,把平时所学的歌都唱一边才罢休,其中不乏舞蹈表演。整个过程从8:40PM到10:20PM的样子。直到她自己精疲力尽呼呼睡去,妈妈才敢放心睡去,爸爸早打呼噜了。

晚上爸爸接妞妞回家,外面淅淅沥沥下着小雨,到家门口上楼梯的时候,妞妞要边玩手机上的游戏,边上楼,她上楼的时候一只手还得扶住栏杆,爸爸希望妞妞走快点,就抱她上来了,她不愿意:“妞妞是大宝宝了,要自己走”哭着鼻子一步要下楼,妈妈担心她摔倒,跟着她下楼。一不小心,哐当一声,下了一半台阶的时候,手机摔在地上,电池都出来了,自然也没画面了。妈妈说“我们不下楼了,赶快回去找爸爸修吧。”她很乖巧的蹭蹭蹭的上楼了,妈妈心想,能够让她这么快回到家,把手机摔了也值。没想到,这厮把手机扔到门口沙发上,大嚷一声“爸爸修”,转身出门又下楼了。妈妈问,”妞妞怎么又要下去了?”她一本正经的回答“妞妞是大宝宝了,要自己上”“得,她还惦记着她没自己上过的几级台阶呢!”妈妈也值得耐心和她一起在雨中下楼上楼的折腾一番。她的犟劲和她老爸有一拼。

分类:妞妞

安全网与冒险

2012/03/30 留下评论

最近想,有些聪明的年轻人,为什么不去冒一点点风险?不一定要象Bill Gates, Steve Jobs那样本科辍学,象Larry Page那样,发现有一个好的想法,又有实现的可能,赶快去实现,即使意味着推迟甚至不要学位了?

然后我问自己,我自己当年能不能做到?大概也是做不到的。今天能不能做到?要有多少准备才能承担相应的风险?

一个人敢冒多大的风险,通常取决于他有多大的安全网。

从小受到的教育,基本都是追求安全和避险。这些概念往往是根深蒂固在头脑里了,清理起来非常困难。

这个概念本身,在产生的时代,是有道理的。20多年前,中国人都刚刚吃饱肚子,生存和安全还是第一需要。那时候,你叫人去冒险,买股票、辍学创业、或者不要铁饭碗,大多数人都会觉得你是神经病。

结果大多数人,用很长的时间在建立自己的安全网:技能,学位,身份,关系,等等。

这些都是很耗时间的事,甚至不是一代人能完成的。许多在美国很简单的事,在中国就要一代甚至两代人才能完成:比如拿一个大城市的居住权。

对安全的追求,使很多人开始着迷于安全,以至于对安全的追求本身就变成了毕生的任务。

我想对现在这个时代,应该变一变了。人生前半段建立自己的安全网(加上自己父母建立的更基本的安全网)——这个不是目的,用好这个安全网去冒险才是目的。

人拥有的资本,除了健康和家庭,主要就是时间和金钱了(其实本质上也是一回事)——这两个东西的长期收益,都是和风险正相关的。而为了减小系统风险,应该越早开始投资越好。这就是为什么大多数创业的人是25岁而不是35岁。

人生建立安全网的阶段应该缩短,而冒险的阶段应该加长。在可以冒险的时候不去冒险,是十足的浪费。

 

分类:随感

博客读者的地理分布

2012/03/09 1条评论

刚发现Wordpress现在可以看博客读者的地理分布了。下面是最近一个月(也许不到一个月)我的博客“语义噪声”的地区分布(地图在后)

最近一个月我基本没有在社交媒体上给我的博客做引用。主要的流量都是搜索引擎和个人主页上来的。

结论:主要的读者在美国。来自中国大陆的读者比例很低,可能是因为翻墙不方便。

United States FlagUnited States 52%
China FlagChina 10%
Taiwan, Province of China FlagTaiwan 9%
Switzerland FlagSwitzerland 7%
Germany FlagGermany 6%
United Kingdom FlagUnited Kingdom 5%
Netherlands FlagNetherlands 3%
Hong Kong FlagHong Kong 2%
Japan FlagJapan 2%

(1%及以下的就略了)

分类:声明, 信息图

我Twitter信息图 via vizify

2012/03/09 留下评论

另外一个信息图可视化 http://vizify.com/tweetsheet/baojie

感觉没有Visual.ly那个好。

分类:Web, 信息图

我的可视化简历

2012/03/08 留下评论

另一个信息图:visulize.me可以把我的LinkedIn的部分信息转化成一个信息图

在线版本:http://vizualize.me/baojie

另外,re.vu(http://re.vu/baojie)也可以做,不过感觉没有visulize.me做得好

分类:Web, 信息图

我Twitter信息图

2012/03/08 留下评论

Visual.ly可以图形化个人的推特表现。下面是我的推特(@baojie)的信息图(Inforgraphic)

分类:Web, 信息图

学习的陷阱

2012/02/29 留下评论

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

停止学习,开始做,在做中学习。似乎是一个好想法。——但是这个想法一样是危险的。其实,连这个系统是否有人会用,我都不知道。做一个没人用的东西有什么意义?

我决定停止学习一段时间,想清楚这个几个问题

  • 我需要什么样的团队?通过什么样的途径能够找到第一流的人才在这个团队里?制约因素是什么?我自己不可能学会建一个可用的系统的所有知识,也不要知道。
  • 我的假设是什么?怎么验证这些假设?(Lean Startup原则)
  • 我的利益相关方是谁?谁可能提供我需要的资源?
  • 怎么才能和用户走得近一些,再近一些?

P.S. 回去又看了一遍任正非的《一江春水向东流》。感觉又深了一层。这里面有些东西,大概是大多数美国人(包括硅谷的这些企业家和管理专家)无法理解的。

 

 

分类:工程创业

思想大爆炸之精益创业(Lean Startup)

2012/02/27 2 条评论

注:最近博客写得少,其实都是转回新浪微博@西瓜大丸子汤了。微博阵地有自己的游戏规则,用好了,还是蛮有用的。

最近两个月一直在读书,从Weaving the Web开始,到Facebook Effect, Steve Jobs, In the Plex。这个周末读了两本(怎么做到这么快?Audible.com帮了大忙): Lean StartupPretotype It。这一系列书读下来,对我的洗脑非常有效,经历了又一次思想大爆炸。

注:前几次思想大爆炸发生在1996年(关于复杂系统),2000年(关于科研的方法论和“体制问题”),2009年(关于财务)。什么叫爆炸?就是一种很亢奋的积极的不停产生新想法的状态,并且想:我为什么没有早一点知道这样的世界观和方法论?

很多感想都写在微博上了。我懒得整理。就总结一句话吧:

不管是创业、科研、生活,还是随便什么,快速原型、假设检验最重要,以减少时间的浪费。

到底这么说是什么意思,根据lean startup原则,我也就不解释了(否则要花我几个小时)。上面这句话就是我的MVP (minimal viable product)。

回顾自己的半生,太多时间浪费在无意义的事上。人生不可能预见所有的事,Steve Jobs也说,你只能做过之后才能connecting the dots(串起自己的轨迹)。不过,的的确确有多事情,本来稍加快速原型、假设检验,就可以避免花几个月、甚至几年的时间才知道不值得去做。

人的一生,自己就是自己的一个产品(还有其他产品了)。怎么最快最好地发展这个产品,需要方法论。可惜很多人(包括我自己),很多时候,限在局部最小里,不知道怎么快速地和这个时代一同进步。好在现在改改,可能还不算太晚。

分类:方法论