Archive

Archive for the ‘Web’ Category

我Twitter信息图 via vizify

2012/03/09 留下评论

另外一个信息图可视化 http://vizify.com/tweetsheet/baojie

感觉没有Visual.ly那个好。

分类:Web, 信息图

我的可视化简历

2012/03/08 留下评论

另一个信息图:visulize.me可以把我的LinkedIn的部分信息转化成一个信息图

在线版本:http://vizualize.me/baojie

另外,re.vu(http://re.vu/baojie)也可以做,不过感觉没有visulize.me做得好

分类:Web, 信息图

我Twitter信息图

2012/03/08 留下评论

Visual.ly可以图形化个人的推特表现。下面是我的推特(@baojie)的信息图(Inforgraphic)

分类:Web, 信息图

随想:Web的诞生与TBL(4)

2012/01/15 1条评论

续《随想:Web的诞生与TBL(3)

(4)加上人后的可扩展性

在接着回顾Web诞生之初的一些选择之前,我想简单说几句可扩展性。

在过去十多年里,我接触过人工智能的几个不相干的领域:神经网络,机器学习,形式逻辑。许多模型,从理论上计算能力是没有问题的。比如神经网络,可以等价为图灵机,理论上可以解决图灵机可以解决的一切问题。逻辑,比如一阶逻辑或者描述逻辑,表达力非常得强,不乏专用领域成功应用的实例。

问题在于,当数据极大增加后,系统还是否工作?这个可扩展性,当然是常识,每个设计算法的人都会想到。对神经网络,机器学习,或者形式逻辑,都有无数的工作来研究如何提高它们的计算的可扩展性。

可是,到目前为止,成功都是有限的。机器学习的进步最大,特别是基于统计方法的这一块,广泛用到工业中。神经网络现在还在低潮中趴着。逻辑——除了数据库(其实SQL是一种逻辑)——始终无法大规模的应用;语义网(Semantic Web,同由TBL倡导)是逻辑界试图走向全球规模应用迄今的最后一战,前仆后继十余年,至今成绩极为有限。

在经历、目睹很多失败后,我渐渐觉得,所谓的可扩展性,不应该仅仅指计算的可扩展性,而应该是包括人在内的整个系统的可扩展性。数据的产生,知识的建模,到最后信息的消费,都要有人的参与。人的懒惰、人的心理、人的经济头脑,都会深刻影响一个系统能不能走出实验室。

当然,这种认识,回来看,常识得不能再常识了。可是一代一代的学者、工程师,总是很容易对一个技术倾倒、兴奋,但是劳心劳神做出来的美妙系统,没有人愿意用,或者用户一多就不灵了。这种经验,好像失恋的经验,似乎每个人都非亲身经历一下,才知道是怎么回事。

在TBL发明Web之前,别人也有类似的想法和实践。上节提到的oN-Line System (NLS,1968),就是一个杰出的代表。NLS是一个里程碑性质的伟大工程:超文本,鼠标,光栅显示器,窗口系统,演示程序,视频会议…都在NLS里第一次被应用。但是它最后没用走出实验室。它要求用户在做任何一点有用的事情之前,学习很多东西,服从一些严格的规定,记忆一堆奇怪的代号。“正常”人类不会心甘情愿地做这样的事。

Web的竞争者Gopher,要求所有的文档有一个严格的菜单结构,然后用户可以一级一级的走下去。对于熟悉文件系统的人,这是一个很自然的组织模式。可是,自己看自己的分类和看别人的分类是两回事,理解别人的分类从而找到自己需要的资源也不总是一件容易的事。更何况,分类本身就是一个头疼的工作。不信的话问问你的朋友,看多少人去分类自己的download文件夹。

TBL在设计Web的时候,在CERN这个极度多元化、极度分散的机构里,格外注意了“不给人找麻烦”这个样一个信条。我觉得这可能是技术因素之外,Web成功的最重要的一个因素。

TBL自己说(Weaving the Web, p19-p20):

“Having seen prior systems show down, I knew the key would be to emphasize that it would let each person retain his own organizational style and software on his computer.” (目睹了以前一些系统被干掉的事,我认识到问题的关键将是强调允许每个人对自己机器上的组织方式和软件各行其是)

“We can create a common base for communication while allowing each system to maintain its individuality” (我们可以建立一个通信的共同基础,同时又允许每个系统保持个性)

不要试图强加给用户一种你认为最好的信息组织方式——别人完全可能有不同的想法。(BTW,这也是为什么我认为几大搜索巨头的Schema.org未必能成功的原因)

允许人自由地以他自己高兴的方式发布信息,允许他们自己相互链接。没人需要先请示任何人来加一个链接。这就够了,奇迹会在这互联的过程中产生。

什么是知识?知识就是互联

Web的可扩展性,依赖于它相对自由的组织方式、低门槛(按1991年的标准)的信息发布方式、和分布式的结构。这是技术和人的认知能力、人的社会性的恰当妥协,保证了它可以最终扩展为每一个人都可以用的技术。

这种自由的精神,被TBL一直贯彻了下去。比如对语义网,他也说:Raw Data Now!(TED2009年视;频:http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html):以你自己最舒服的方式发布你的数据,互联会慢慢产生,从而导致各种美妙的事情。

那怎么保证自由的发布和自由的互联呢?Web依赖三个重要的发明:URI(统一资源标识符),HTML(超文本描述语言)和HTTP(超文本传输协议)

待续

P.S. 我觉得语义网要成功,最重要的就是加上人以后的可扩展性:普通人(比如我外婆,如果她还活着)如何来组织知识?如何加强知识系统的分散性(而不是做任何改动之前要问另一个人来批准这个改动)?普通人如何传递知识?普通人如何互联知识?不要想当然。语义网不会是逻辑。普通人学会最基本的逻辑思考大概要再过一千年

分类:语义网, Web

URL, URN, URI, IRI

2012/01/14 1条评论

“网址”到底是什么?一般的理解是URL(Uniform resource locator

在RDF/OWL1/OWL2中却使用了不同的概念

还有一个相关概念 URN(Uniform Resource Name)。他们有什么区别?

简述如下:

URL是这样的形式:

scheme://domain:port/path?query_string#fragment_id

如本页的编辑页面是  https://blog.baojie.org:80/wp-admin/post-new.php?post_type=post#

URI是URL的扩展,形式是:

<scheme name> : <hierarchical part> [ ? <query> ] [ # <fragment> ]

例:
foo://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose
Wikipedia上列有官方和非官方的URI scheme,如about, ed2k, doi, skype,都是。

URI不一定指向一个网址

URN是一种URI,形式如 urn:isbn:0451450523(书号),urn:mpeg:mpeg7:schema:2001(MPEG-7标准)。URN使我们可以描述一个资源而不必关系它的具体存档地址。

IRI是URI的扩展:URI只能用ASCII,而IRI可以用Universal Character Set (USC), Unicode——比如中文。

所以RDF和OWL里的资源,都不只是用“网址”来命名的。理论上,每个人都可以自己定义一个scheme来唯一确定自己的资源,不一定要放在网上,比如对我的冰箱,我可以命名为

urn:baojie-bengbu-iowa:冰箱:2012

更多关于URL/URI/IRI的请看W3C官方网页:Naming and Addressing: URIs, URLs, …

另参Tim Berners-Lee的Design IssuesDocument Naming (1991)

分类:笔记, 语义网, Web

Twitter能预测股市吗?[2010]

2012/01/14 1条评论

这是早先对印第安纳大学的Twitter预测股市的研究的感想。原文写于2010-10-19

总结为

  • Twitter可能预测过去,但很可疑能不能预测未来
  • 预测本身就是对未来的干扰,不可证伪
  • 过去的相关性不能代表未来的因果性

我要是那个作者,就不发文章,先自己通过Twitter预测赚100万,然后把自己的交易记录贴在文后,比什么图啊,表啊,公式啊,都有说服力。

我的原文:

To be honest, I’m skeptical about the work in a couple of ways.

First, as some others already pointed out, correlation does not necessarily
mean causality.

Second, I’m not sure if it is more accurate (in predicting) than existing quantitative measurement of market calmness (or the lack of it) such VIX [1], or put/call ratio for an individual stock. While I don’t have any statistics, I personally find put/call ratio of GOOG is usually more informative (and direct) than reading tweets about $GOOG. Of course, their work is about the market as a whole, which I have no clue. Why their result is for 2-6 days later,
but not the next day?

Maybe the real catch of the study is, if it really works in the past and present, then people will follow the information and then the market will become fully efficient (in theory) as a result, hence the discovery will stop work after its publication. In the other words, it’s a theory that can not be falsified, and by Popper’s standard, not “scientific”. I may be to too picky…we have to wait and see if it can continue the magic.

Google trend claims that it can predict the present, not the future. I would like to say that’s a safer claim.

I do believe tweets will be even more useful in financial analysis, in
many other ways.

[1] http://en.wikipedia.org/wiki/VIX

附:一些关于印第安纳大学工作的报道:

Twitter Can Be Used to Predict Stock Market, Say Researchers
http://rww.to/aJ6pF8
By Sarah Perez / October 18, 2010 6:47 AM

Researchers from Indiana University have devised a method for
predicting changes in the Dow Jones Industrial Average through the analysis of Twitter updates. Using two mood-recording algorithms, the Google-Profile of Mood States (GPOMS) and OpinionFinder, the researchers analyzed 9.7 million tweets posted between March and December 2008. They found that correlations between the calmness index, one of the six “moods” measured by GPOMS, could be used to predict whether or not the Dow Jones Industrial Average went up or down between two and six days later.

Twitter Mood Predicts The Stock Market
http://www.kurzweilai.net/twitter-mood-predicts-the-stock-market
October 18, 2010

An analysis  by Johan Bollen at Indiana University and associates of almost 10 million tweets from 2008 shows how they can be used to predict stock market movements up to 6 days in advance.

原论文:Twitter mood predicts the stock market. Johan BollenHuina MaoXiao-Jun Zeng.  arXiv:1010.3003  http://arxiv.org/abs/1010.3003

分类:金融, Web

语义网是时候了

2012/01/14 1条评论

这是我在写《随想:Web的诞生与TBL(3)为什么在1991年》时产生的想法。

Web在1991年产生,首先是因为平台已经成熟了,比如Internet, SGML, TCP/IP,在上面再搞一点点创新,不是什么火箭科技。其次,是需求已经成熟了,信息不再只是几个人给几个人看(如Email),或者一群人给自己一群人看(如Usenet),而是全互联的,你无法预测谁会来看你的信息。

Gopher就是一个尝试,它失败了,我觉得主要因为两个原因:高估人的能动性和分类能力(多层菜单);试图收费。

Web避免了这两个问题,成功了。

语义网,需求是不是已经成熟了?

我看是的。语义网是对Social Web的进一步扩展。现在的Social Web,把每一个人看作一个点,把人和人关系映射到网上来。这个还远远不够。现实的人,不是一个点,关于这个人的信息的方方面面,有精细的结构。不理解这些结构,就没法理解用户(比如《Groupon是泡沫》),提供更好的服务。

语义网要建模的,大概不会是象开始想的那样,对文档加语义标签。而是更多的,把人连接起来,把人的各种日常“知识”一个一个的映射到网上来,再互联起来。(参《语义网是给人用的》,《Web3.0:互联用户产生的结构化资源》)

语义网,平台是不是已经成熟了?

W3C路线,RDF/OWL/SPARQL/Ontology,到现在争议很大。但是如果因为这个路线就否定语义网,就如同否定Gopher进而否定“Web”(嗯,不是特指WWW)。

如果放宽思路,有没有好的平台帮助我们把人的精细数据、信息、知识结构映射到网上来?这个平台其实已经存在了,就是移动互联网。(参《要命的Tetherless World 》,《Web 3.0与中国》,《Web 3.0 互联用户的知识》)

移动互联网不是传统互联网的简单扩展。从来没有一个时候可以象现在一样,对用户只要求这样低的门槛,实现随时随地的数据发布与采集。这种数据的互联与管理,必然的要求新的方法。而所有的支持技术几乎都已经具备,不需要火箭科技(比如数据挖掘、逻辑推理)就可以把它们整合起来。

我相信,在我写这段话的时候,世界上什么地方有其他人不但有了类似的想法,而且已经开始动手了。水到渠成,瓜熟蒂落,就是说这种情况吧。

P.S. 写完后看到这篇文章:Amit Sheth. 2011. Semantics Scales Up: Beyond Search in Web 3.0IEEE Internet Computing15, 6 (November 2011), 3-6. [PDF] 说的不错,虽然我并不完全认同explicit semantics可以按文中所述途径产生。

P.S. 2 2012-04-17 关于平台,最近有很多新的数据库,AffinityDB, 各种Graph Database (Neo4j, OrientDB),都可以做W3C路线的替代。

分类:语义网, Web