Archive

Archive for the ‘工程创业’ Category

学习的陷阱

2012/02/29 留下评论

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

停止学习,开始做,在做中学习。似乎是一个好想法。——但是这个想法一样是危险的。其实,连这个系统是否有人会用,我都不知道。做一个没人用的东西有什么意义?

我决定停止学习一段时间,想清楚这个几个问题

  • 我需要什么样的团队?通过什么样的途径能够找到第一流的人才在这个团队里?制约因素是什么?我自己不可能学会建一个可用的系统的所有知识,也不要知道。
  • 我的假设是什么?怎么验证这些假设?(Lean Startup原则)
  • 我的利益相关方是谁?谁可能提供我需要的资源?
  • 怎么才能和用户走得近一些,再近一些?

P.S. 回去又看了一遍任正非的《一江春水向东流》。感觉又深了一层。这里面有些东西,大概是大多数美国人(包括硅谷的这些企业家和管理专家)无法理解的。

 

 

分类:工程创业

语义网的公司(9): Garlik

2012/01/07 3 条评论

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

  • 3store – 这个是AKT项目的产品。3就是triple吗。
  • 4store – 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
  • 5store – 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
  • Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
  • 为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
  • 把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
  • FOAF有应用吗?Garlik就是。
  • 用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。

总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。

执行力与组织研讨会

2011/12/20 留下评论

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要
分类:工程创业 标签:

语义网是给人用的

2011/12/20 3 条评论

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

后来有很多年,对语义网的宣传就是这样讲的:让机器来读网页的内容,并理解网页。

这么说,本来并不错。语义网技术的发展,也基本按TBL在1998年就定下的调子走。

问题是,就算经是好的,念经的和尚难免把经念歪了。这导致了后来的一系列问题。

从TBL的road map出发,大家的思路自然是,那我们先去设计一种语言,帮人来做网页的元数据标注(metadata annotation),不就好了。于是就有了RDF, SHOE, DAML, OIL, DAML+OIL, OWL,等等。无数的银子砸进去。

听到一点点响。

后来(2006年),大家觉得是不是经有问题?为什么大企业大多都不跟进呢?是不是太复杂了?后来就有了对语义网技术栈的简化。TBL又发了一条敕令:Linked Data。又是无数的银子砸进去。

这会听到的响多一些。linked data (http://linkeddata.org) 的数量,现在有300多个数据集,300多亿triple。在用在Watson等系统里了,效果不错。

不过,这又过了5年,对语义网质疑的声音,依然是远远超过支持它的声音。大企业的跟进,依然是笛卡尔对宗教的那种态度:试一试,试一试。说实在的,在这样的环境下,没有一点宗教的热忱或者愚蠢,那是不容易坚持下去的。

问题出在哪里?

某年我参加了一个研讨会。会上大家畅所欲言,说了推理啊,查询啊,界面啊,种种问题。然后有人问了一个问题:数据呢,数据在哪里?

主持人就问:大家说说看,你们在用什么数据?

一种不大不小的尴尬在会场蔓延。是的,在场的绝大多数人都没有从用户那里来的“真实”的数据,更不用说元数据。

从用户那里,很难拿到高质量数据,几乎不可能拿到大量的用户添加过元数据的数据。

用户都是人。人做一件事,是要考虑成本和收益的。人是有心理和感情的。人是有极大的认知局限的。大多数人本性是爱偷懒和虚荣的。我们现在的教育,没有教会大多数人怎么管理数据(因为直到不久以前,大多数人的问题是数据太少而不是太多)。如果从人那里来的就是垃圾数据,那你休想指望从中提取出太多有用的信息(除非你只关心一些宏观的统计指标)。

我开始觉得,语义网的问题,其实不在机器的语言设计的是不是简单,是不是可以推理、理解,也不是可扩展性。核心问题,其实在人,在人能不能被激励去做一些事情,然后机器才可以去做 一些相对简单的事。在设计一个语义应用前,我要问自己一系列问题:

  • 数据在哪里?谁提供数据?
  • 元数据会一并提供吗?
  • 用户会不会提供元数据?他们会因此得到什么好处?他们的心理是什么?到什么程度他们会烦?
  • 产生数据和元数据的代价是多大?用户需要付出多大的努力?
  • 用户需要多长时间才会从提供元数据得到好处?
  • 总用户里,有多少会主动提供元数据?在这些人里,又有多少会提供高质量的元数据?
  • 数据的依赖性如何?是不是要等很多用户都来提供数据了,系统才能有用?单个用户的数据有多少用?
  • 需要多少数据/元数据系统才会有一点用?明显有用?要几天,几个月,还是几个世纪才能达到?
  • 什么样的元数据是对用户/客户对有价值的?如果没有,有多大可能用工具获得?
  • 对现有系统,需要多大的改动?现有的工作模式是不是会被改变?这些人有动机做这种改变吗?会不会有抵触?怎么解决?
  • 在这个应用的全生命周期,哪些人会参与? 有多少人需要重新培训?培训的代价是多少?
  • 等等,还有很多这里不说了

语义网是给人用的。语义网上的数据,除了一些用来科研和生产的(比如天文观测和工业仪表),大头还是要由人的活动来产生。要抓住人性,才能抓住数据,然后才有后来的一切。

语义网这场革命,正如社交网络(social network),主要是一种社会的革命,模式的变迁(Paradigm Shift),而以技术支持为手段。

语义网,是要为人民服务。不要把自己关在屋里想,去设计社会该什么走,什么是“合理”的。反之,应该走出去,抓住人的欲望和能力,体察社会的趋势,从“存在”中寻找合理性,那些有助于机器来帮助”人理解人”的合理性。

至于这个东西还叫不叫语义网,已经不重要了。

执行力与卖饺子

2011/11/27 留下评论

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

把陷裹在面里蒸,这个是点子。网上见到的,大多数人想到的,就是这个层次。这个不值钱,连专利都申请不了。

饺子的形状,和面,擀皮,做馅,开蒸一系列工艺,这个是技术(可以申请专利)。开始,是要会做的,至少懂一点。

从少量的做给自己吃,到大量的做给别人吃,这个是工业化,有更多的技术问题。

从能做出来,到能开个店卖出去,这个是产业化问题

从能卖出去,到能挣钱,这个是市场问题

到这里,万里长征走完了第一步。每一步的know-how,综合起来就是执行力,也只是一部分。更重要的,空想也想不出来,还是要从实践中来,到实践中去。

参考

分类:工程创业

Towards Webtop [2008]

2011/11/24 2 条评论

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50
http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

[P.S. 2011-11-24 It’s dubbed “Cloud” this time. 也就是坑爹的“云”忽悠。其实云才不是关键。关键是知识管理,把知识从用户行为和生成数据中提取出来(注意,不是挖掘,而是提取,相对容易)。]

One reason is from my personal experience. From about two years ago, I stopped installing many software that have been with me for many years: Encarta is replaced by Wikipedia.com, Outlook is replaced by Gmail, MS Street is replaced by Google Maps, MS Word is replaced by writing in wiki, Powerpoint is replaced by online latex writing with the Beamer package, among a long list of other things. Browser is the application I stayed for more than 80% of time when I’m on my computers. There is indeed a strong need for me to organize all such online applications and data — simply bookmarking is barely a solution. I need something that can organize them, enable me quick access to them, and last but not least, pretty and neat. A webtop does exactly those things.

How semantic technologies help in providing a webtop? Actually, long before the term “ontology” getting popular, users are already creating ontologies on daily basis: email classification, creating file folder trees, grouping contacts or naming a photo as “Wedding picture at Troy”, all those efforts are creating relations between things or annotating a “meaning” to an entity. With semantic technologies, those relations and annotations can be made explicit so that data can be more easily managed and queried. For example, I may query that “find all 2005 photos of my friends”, or “show all meetings (even if they are not called meeting, such as “briefing”) in the past month”. A webtop based on semantic technologies will make such an ability universal to any application on its top.

[P.S. 2011-11-24 嗯,就是语义搜索个人“知识”库。这个不远的将来就可能出现在市场上]

There have been controversies about semantic web ever since that term is coined. I think this is partly because the semantic web community as a whole, failed to provide enough end-user friendly tools that can do something helpful in daily life. I wish to see more tools to help daily web activities: semantic email, semantic blog, semantic calender, semantic abstract of news (a little more than RSS), tagging files (picture, mp3,…) with taxonomy, etc. Even more important, to survive, such an application should never ask users to learn RDF or anything needs more than 3 minutes to understand. Bring such applications together, it’s a webtop. I believe something like this is one of the killer apps the community has long been waiting for.

[P.S. 2011-11-24 现在回来看这个三年前的blog,觉得后悔,为什么浪费了三年不实现这些想法。也不是不想实现,实在是“执行力”不到——比如支配自己时间的权力和能力,比如稳定后方基础的工作,比如将想法转化为现实可行的技术配置,比如PPT的忽悠能力,比如人脉…这些都是今后一年我要重点学习的东西]

{{BlogInfo
|page=Blog:Baojie
|title=Towards Webtop
|visitor=User:Baojie
|date=2008/07/25 00:00 EDT
|source=http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/
|tag=Jie’s_SW_Blog, Webtop
}}

参考:

Jie Bao, Li Ding, Deborah L. McGuinness, James A. Hendler. Towards Social Webtops Using Semantic Wiki, In International Semantic Web Conference (ISWC), Poster Track, 2008 (Download) (Slides) .

Enhanced by Zemanta

好想法和执行力

2011/11/16 3 条评论

今天有人问我,你为什么要写博客?你在博客里有时候写你自己的一些专业想法,不怕别人抄吗?

我解释道,我写的东西,都是些不值钱的泛泛之谈。重要的不是想法,而是如何实现想法,以及如何把想法和盈利模式结合起来。如果真的有什么可以商业化的想法,公司的知识产权政策也不允许我写出来——我就是自己不去执行,卖给公司也有一万美元可以赚呢(专利奖金)。硅谷这里,一天有不止一万个新奇的想法冒出来,真正有几个人能把这些想法实现?

放下电话后,看到这篇文章:《没有执行力,最牛逼的idea也只值20美元》。原文:ideas are just a multiplier of execution,作者 Derek Sivers。作者说:

最牛逼的idea,没有执行力,只值20美元。
最牛逼的idea乘以非常牛逼的执行力值2亿美元。

深表赞同。

前几天,我列了一个2012年年度计划。现在回去看,觉得还是偏了。重点应该在执行力的增强上。

分类:工程创业