Archive

Archive for the ‘科技民工’ Category

一个个人知识管理系统

2012/11/26 1条评论

今天看这篇文章:《个人提升方法三部曲:行动,记录、总结

过去这半年来,其实我一直在按这篇文章说的步骤来管理自己的知识。开发这个系统用了我大概一个月的业余时间,随时记录,每天生成总结。现在已经完全离不开它了。

基本技术路线:用semantic wiki做数据录入,用Python API(mwclient)做报表、分析。一点点自动化,每个知识点还是要人产生摘要,然后就可以用各种预先定义好的graph pattern推送到各个页面去。有一点点entity extraction,算是知识提取自动化。语义查询、检索、faceted browsing,可视化,支持知识的进化和重组。这些是知识管理的基本功能。半年多下来,大体每天能积累7-8个新的知识点,现在有上千个了。

知识就是一个点,一个点就是一句或者几句话。几个点可以组织在一个页面上,也可以通过查询流动到其他页面上。日历任务提醒现在已经做进去了,每天一个提醒邮件(当然也可以更频繁)。是一个Web应用,在浏览器里用。基本使用不需要编程。如果想定制,可以通过Python或者SMW

@Alisoncastle问:你的对于没知识体系的人来说适用吗。

适用。本来我的计划就是让知识能演化。每个点开始就是一句话,一个链接,一条微博。慢慢随着需要增长。增长的过程中结构出现。到一个知识点过大的时候就分裂成几个,通常是按其内部结构自然分割。然后到某个时候几个知识点需要汇总,就链在一起。并不需要一开始就有体系,体系是在发展中自然形成的。

链在一起主要还是靠人工。也可以预先写一个查询,满足某个条件的,比如提到某类词的(不是tagging),都汇总在一起。语义wiki这点还是很给力的。

@Alisoncastle又说: 我懒不喜欢人工,靠人工知识点多了后就一定会出问题 我就是多了后不知道该怎么并,于是就干脆不并。这是个很难的问题,如果能找到一些合理的自动规则,如同算法一般那就帅啦

我也没有好办法。要解决这个可能得开个公司专业搞。我觉得应可能的比例是60%统计+20%本体与NLP+20%启发式HCI。

目前组织大都还是手工,而且要求使用者自己有良好的记录习惯。我不管是看文章,开会还是写代码,潜意识里假设记下的每段话将来都可能长成新的知识点。但是妞妈就觉得这很别扭,还是用email管理方便

和Evernote比,界面当然不能比。主要的优势是每个知识点都有元数据(有一个很简单的表单),可以查询,可以用来做统计,生成图表,按日、按周做报表,提醒到期任务。可以让知识在页面之间流动,细粒度引用比较方便

当然现在还是太简陋了,界面惨不忍睹,只有绝对geek才能忍受。向妞妈推荐,被斥之以鼻。向周围一堆人推荐过了,几个项目里的合作伙伴,到现在没第二个人用。

开源问题:等我整理一下,建一个demo网站。可能要过一阵子

分类:编程, 语义网

学习的陷阱

2012/02/29 留下评论

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

停止学习,开始做,在做中学习。似乎是一个好想法。——但是这个想法一样是危险的。其实,连这个系统是否有人会用,我都不知道。做一个没人用的东西有什么意义?

我决定停止学习一段时间,想清楚这个几个问题

  • 我需要什么样的团队?通过什么样的途径能够找到第一流的人才在这个团队里?制约因素是什么?我自己不可能学会建一个可用的系统的所有知识,也不要知道。
  • 我的假设是什么?怎么验证这些假设?(Lean Startup原则)
  • 我的利益相关方是谁?谁可能提供我需要的资源?
  • 怎么才能和用户走得近一些,再近一些?

P.S. 回去又看了一遍任正非的《一江春水向东流》。感觉又深了一层。这里面有些东西,大概是大多数美国人(包括硅谷的这些企业家和管理专家)无法理解的。

 

 

分类:工程创业

语义网的公司(9): Garlik

2012/01/07 3 条评论

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

  • 3store – 这个是AKT项目的产品。3就是triple吗。
  • 4store – 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
  • 5store – 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
  • Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
  • 为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
  • 把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
  • FOAF有应用吗?Garlik就是。
  • 用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。

总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。

语义博客[2008]

2012/01/02 2 条评论

【原文写于2008-05-05 到 2008-05-10】

I will try to use this wiki as a blogging tool.

{{BlogInfo
|page=Blog:Baojie
|title=A Blog test
|visitor=Jie Bao
|date=2008/05/05 01:16:38 AM EDT
|tag=Jie’s Words
}}

I get the basic idea on how to implement semantic blogging on the top of semantic wiki.

If an application — may not necessarily be an enterprise application — can be implemented by a relational database, then it can be implemented on a semantic wiki.

{{BlogInfo
|page=Blog:Baojie
|title=Semantic Blogging
|visitor=User:Baojie
|date=2008/05/09 02:51:24 PM EDT
|tag=Semantic Blog,Jie’s Words
}}

很久没有灌水。很久不写Blog,也在于没有一个Blog系统是我喜欢的。这个基于semantic wiki的blog,因为是自己搭的,自己喜欢,就再写一点。现在可以做到每个用户X能且只能编辑自己的Blog (在Blog:X之下的页面)。

我觉得这会发展成一个挺好的东西。[[Zemanta]]之类,不适合我。[[Twine]]我也不喜欢,没有真正的语义,主要是自然语言理解的东西。语义博客,当然要有一点本体,简单的也好。我不认为现在有任何一个Blog可以真正称为semantic blog的,虽然这个词出来有几年了。

{{BlogInfo
|page=Blog:Baojie
|title=接着灌水:语义博客
|visitor=User:Baojie
|date=2008/05/10 03:52:21 AM EDT
|tag=Semantic Wiki, Semantic Blog,Jie’s Words
}}

刚刚更新了一下回复机制。实验一下。应该每个用户的回复也成为自己Blog的一部分

{{BlogInfo
|page=Blog:Baojie
|title=刚刚更新了一下回复机制
|visitor=User:Baojie
|date=2008/05/10 05:01:29 AM EDT
|tag=Jie’s Words
}}

分类:编程, 语义网, 旧文

新产业革命[2008]

2011/12/27 留下评论

【原文写于2008-12-18,http://tw.rpi.edu/wiki/Blog:Baojie/Item-129】

抛开纷繁芜杂的表象,人类历史的进步主要是对物质和能源利用的能力的进步。其中的核心,又是对能源的利用:有了新的能源,就能利用以前所不能利用的物质。

2008年种种问题,从历史长程看,很可能来催生一次新的产业革命。从19世纪末开始的石油,内燃机经济时代,很可能会被一种新的能源结构所取代。这种革命,将带来无数我们不能预期的社会变革乃至动荡。

在今后的几十年中,我们可能会看到核能和太阳能的比例逐渐提高。大量的沙漠地带会被利用起来。由于昼夜影响,全球性的电力贸易或许会大发展。现有的电网会加以大的改造,电动汽车将取代内燃机汽车成为主流。高速公路系统将更新,一种全新的超高速客运公路将被修建,通过汽车之间的联网调控和自动驾驶能力,这种公路可能达到200公里每小时甚至更高。

{{BlogInfo
|page=Blog:Baojie
|title=新产业革命
|visitor=User:Baojie
|date=2008/12/18 05:36:11 PM UTC
|tag=Jie’s Words
}}

分类:幻想, 时事

智学八卦之Horrocks[2006]

2011/12/26 1条评论

【Net.Weblog.20060324.txt】

【原文写于2006-03-24。那时候我还不认识Horrocks。2008到2009年,我在OWL工作组,Horrocks是工作组主席,有了更多接触。】

Ian Horrocks (http://www.cs.man.ac.uk/~horrocks/)在描述逻辑界可谓泰山北斗,常人不可望之项背。看他的履历,确也并非一条直线。1981年,Ian在曼彻斯特大学计算机本科毕业,去一家微处理器实验室,后来去一个数据流并行结构工作组工作。1983年他去了一家公司,负责字处理程序和桌面出版软件的开发。 (引自其博士论文)。直到1994年,Ian才回到曼大读硕士,95年毕业。又过了2年,作出了Fact推理机,拿到了博士学位。此时Ian已经40岁上下,无论如何不能算少年得志了。况且,他3年只有2个workshop论文(根据其个人主页),若按美国标准申请教职,怕连面试机会都不会有。

然而Ian的博士论文却是一个震撼性的结果。以前,逻辑学家觉得一个逻辑语言,如果有超过多项式的复杂性,就是一个不应该被考虑的,不实际的语言。而Ian 实践证明,有若干优化算法,可以极大的降低一些有丰富表达力的语言的复杂性(甚至达到三个数量级),这就使后来一系列语言如S, SH, SHIQ, SHOQ, SHION(也就是OWL-DL)成为可能。这是一个很了不起的突破。当时还没有语义网,连XML也没有,可是Ian的工作为10年之后今天的应用打下了坚实的基础。

从此以后,Ian的创造力犹如滔滔江水,连绵不绝。除了在推理优化之外,他在DL表达力的丰富, RDF, OIL 和OWL语言的指定,ABox推理,datatype扩展,语义网规则语言等方面都有不凡的贡献。和许多研究者不同,Ian的大量工作是自己(而不是学生)的原创。大多数年份,他能有10篇甚至更多的第一作者论文,而且绝对是高质量的论文。对于大多数研究人员,这就是奇迹了。

我04年见过Ian Horrocks一面,有幸他坐到我的桌子对面也拿出笔记本改slides,聊了几句. 他给我的印象是个很内敛的人。[2011-12-26补充:后来接触多了,进一步发现,他说话非常的“英国”,一种慢条斯理,带着绅士风度,而其内在立场十分坚定的风格。]

【下面是我的发挥,和Ian的履历其实没有多大关系。这些是2006年的认识,现在看又不成熟。有时间以后再改了。】

Ian 四十岁前并无为世人知的成就,而五十岁时则可以一代宗师的地位傲视群雄。我辈后生,除景仰外,又能得到什么启示呢?

我个人觉得,当代科学,早已不是天才的时代。Ian是不是天才?我不敢说。不过我辈昭昭俗人,恐怕没有几个是天才。博士毕业,大多也30左右了,比之牛顿,爱因斯坦,狄拉克,海森堡之类青年得志者,已经足够老了。不过既然现在科学研究是大科学,个人在其中无非是一个螺丝钉,或者一个在科学进化的育种场中提供随机变异用的种子,真正的个人聪明,比重是越来越小了。科学家成名的年龄越来越晚,实在是一个时代的趋势。这不是一个浮躁者的舞台。(当然,当不了科学家还可以当学术官僚,一样功成名就。)

许多时候,感觉读博士一种程序性的折磨。无穷无尽的寻找,失败,再寻找,再失败。在对一个领域没有了解的时候,寻找的方法不是意义不大,就是别人已经做过了,或者有意义别人也没做过但是自己或者老板的水平又不足以解决。所以许多人都希望开始就找到一个好的题目,不要”浪费时间”。不过快毕业的回过头来一看,恰恰不是最后写在博士论文里的那些东西,而往往是被否定掉的那些想法和方向,使自己对整个领域有了广泛的了解。选择做什么难,选择不作什么就更难了。这恐怕也是博士教育和硕士教育的一个区别吧。

2011-12-26补:我现在回去看自己的博士论文,又有了不同的看法。我现在回去写博士论文,绝不会那样选题,也绝不会是那样做法。

之所以说到这个是从Ian的履历想到,其实人何尝能一开始就找到自己的人生定位呢?如果Ian接着做字处理软件,是不是也会一样出色哪?一个具体的研究课题是一种选择,一个学位是一种选择,在什么国家生活和居住,在什么行业从事工作,和什么样的人终身生活,等等,一个选择就意味着更多的不选择。怎样才能知其可,知其不可呢?如何看待生活中的无穷无尽的寻找,失败,再寻找,再失败呢?

其实一个好的学者,往往有一个好的心态。不急躁,不冒进,调查而后结论;名利视之当然,失败视之当然。我想博士的程序性折磨,对形成这种健康的心态是有益的。教育当然不仅是塑造一个学者,也是塑造一个人,一个健康的,全面的,成熟的人。

再回到选择的问题。博士选题,什么样的最好?我以为计算机科学有大体有两种:树叶型的树枝型的。树叶型的研究,基于既有的理论,或者加以修订,或者加以应用,春天长出,秋天落下,来年便不再有人记得。有的博士论文,就是三四个树叶的集合,何以能指望产生持久影响呢?树枝型的研究,并不着眼于立即生叶开花,而是找到领域的一个切入点,寻求一个不光是对特定对象有效的研究方法,扎扎实实的做几年比较和积累,或许几个春秋之后,才能长出叶芽。而一旦奠定这样的基础,每年都会有新的叶子产生,过几年之后,小枝变大枝,又衍生出新的小枝。Ian的选题,无疑就是一个恰当的树枝,而现在的树叶,也无非是厚积薄发,从当年的小枝演化而来的具体成果。

知道什么不去做是最难的。如果着眼于眼前的publication,做了几个树叶,也及时发了几篇论文,是否就是最优的选择呢?有没有一个规划让自己的工作在更广泛的范围内产生影响呢?Ian如果当年的切入点就是医学知识库的建模和具体实现(其博士论文的资金来源),是否还会产生今天这样大的影响力呢?

子曰,从心所欲不逾矩,大概就是指这种”不选择“的艺术吧。

执行力与组织研讨会

2011/12/20 留下评论

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要
分类:工程创业 标签: