Archive

Archive for the ‘思路’ Category

没人会坐下来建元数据[2008]

2012/01/03 1条评论

[originally posted on 2008-10-28, http://tw.rpi.edu/weblog/2008/10/28/why-bother/]

Why Bother…

From Talis: “Jim Hendler at the INSEMTIVE 2008 Workshop”

that people will (and do) create metadata when there are obvious and immediate benefits in them doing so. No-one really consciously sits down to share or create metadata: they sit down to do a specific task and metadata drops out as a side-effect.”

I can not agree any more. I have tried to tag all my blogs once upon a time, after a few weeks, I found myself bored because there is no clear, immediate benefits for doing so. I would only tag things that I have to, like to tell my friends a list of posts of the same topic.

The only tagging system that is consistently successful upon me is the gmail labeling: I organize mails related to the same task (like writing a paper) on daily basis, because it is very useful, and immediately useful. Even though, I only label a tiny fragment of all my emails.

I have seen too many people having their (PC) desktops full of files and being too lazy to organize them – myself is one of them. Every year I have to spare a day or two to reorganize my harddisk, and dig out the hidden treasures of my “Downloads” folder. I believe for semantic web to be successful, creating an ontology should be at least as easy as and as useful as organizing files on a harddisk.

In fact, people are creating metadata or even ontology everyday: every email sorting, every contact on the cell phone, every folder creating, every calender item, every wiki post, … We just need to make them explicit, and most of all, without bothering the user to click even one more button.

Jie Bao

P.S. 2012-01-03 今天回来看,再次同意得不能再同意了!要实现一个实用的系统,要为用户做减法,而不是要求他提供元数据。

分类:语义网, 思路, 旧文

密码保护:数据财产托管和交换

2011/12/31 要查看留言请输入您的密码。

这是一篇受密码保护的文章,您需要提供访问密码:

分类:Web, 思路

人生记录

2011/12/26 留下评论

我买菜或者开车,或者随便其他什么时候,经常冒出一些想法,比如对某个历史事件的看法,或者一个什么技术思路,或者过去一件有趣的事。这种事吧,你说叫我立即记下来,也小题大做。回家或者到公司,马上又有别的更重要的事要做,没有条件来记,通常也就忘了。

忘掉一个有趣的想法,是一个非常让人烦的事。所以有时候,我索性什么都不看,什么都不听,什么都不想,省得弄出一个想法来,又把她始乱终弃。

我试过用Evernote或者语音博客。这些都不理想。语音检索起来还很麻烦——除非把语音识别给做进来。发布mp3,和不发布效果差不多。我以前也有很多录音,可是几乎没有去听过。为什么?和文字或者图片不同,语音是线性的,非常难以迅速定位。而且,听语音的环境高于看文字或者图片。作为例证,我的语音博文的访问数远远低于文字博文。

推而广之,我需要的不仅仅是记录我的想法的工具,而且是一种能全面记录我的人生的东西。如果我不会忘记我每天最关键的那些人和事,日积月累,可能会产生一种惊人的效果。这里,“不忘记”是指我有一个新的辅助记忆,帮助我的生物记忆,“收到不忘”,“过目不忘”,“过耳不忘”,“想到不忘”。一旦我需要查找这种记忆,工具就会以一个极小的时间延迟,把我10年前偶遇过的一个同行的名字,或者20年前读过的一篇文章,帮我找到。

其实Apple的Siri的专利里,是提到Long-term memory这一块的。谁也不敢说Siri的下一步是什么!

我期待,又恐惧这人生可以被持续记录的技术的成熟。可以肯定,即使Apple推出这个服务,我一定、绝对、百分之百不会用它。

分类:Web, 思路

知识与智能

2011/12/18 1条评论

有一段时间,我很纠结于语义网的应用有没有用到推理。连推理都没有,叫什么“语义”网呢?

今天看禅宗故事,赵州和尚说:“放下著。”猛然想,其实应该放下“推理”,语义网并不一定需要推理,至少现在还不需要。

推理是什么?是从一些已知的知识得到一些隐含的知识。这是智能的一种。

知识和智能有什么区别?古人和现代人(更精确些,他们中最聪明的那一小撮),知识上可能有区别,在智能上,其实差别就不见得有多大。“上知天文,下晓地理”,“前知五百年,后知五百年”,这大部分是知识,不是智能。“道旁苦李”、“想君小时,必当了了”,这是智能(某种推理),不见得需要太多知识。

语义网的早期阶段,很多人(包括我)认为它是人工智能在Web上的应用。这个想法长远看并没有错——长远看,所有的应用都会变成智能的。问题是,有多长远?我们搞工业化应用,等不了十年二十年,3年5年就要见成绩。OWL之类要求追求推理的能力,推理的完备性,推理的可扩展性,其实是太超前了。

Nova Spivack等说,智能网络(Intelligent Web),要到2030年才能见端倪。我看这个估计可能还太乐观了。更有人认为,OWL是一个错误,因为它的表达力不够,我们应该回归一阶逻辑。这个,这个,似乎应该推迟到2040年或者2050年来做。

我倒是希望科学发展会快一些,证明我的估计太保守。不过如果要做工业的应用,对投资和用户负责,还是保守一点的好。

那现在的语义网,不做智能,还做什么?

我觉得,就是知识。“上知天文,下晓地理”,“前知五百年,后知五百年”。即使没有推理,或者或有或无支持一点小小的推理,这个知识的网络已经很厉害了。

知识是一种联系,连接就是知识。说得俗一点,就是一张图,联系世界上的各种事情。智能是用来生成新的连接的方法。其实不支持智能,也一样是有用的。

更重要的是,机器的智能虽然还很弱,人的智能可是顶顶厉害的。而人的闲置智能,多得很,都用来打麻将了。人和机器比,弱点在知识的存储。

Web是什么?是用机器把人连接起来的一种方式。要提高系统的总体智能,就要抓住瓶颈。瓶颈在哪里?

  • 机器的智能低而人的智能高。就要把人的闲置智能合理利用起来。Social Machine, Social Intelligence,等等
  • 机器的知识多而单个人的知识有限。就要把机器的知识、其他人的知识,以尽可能大的认知带宽(cognitive bandwidth)和行为带宽(behavioral bandwidth,就是从人想查到一个知识到实际查到一个知识的时间),在人需要的时候,传给人。Linked Data, Extended Mind, Knowledge visualization, Mobile Terminal,都是支持技术。

语义网(Semantic Web)对上面这两点都是支持技术。它没有必要一定要有推理。尤其是,语义网初衷之一,是让机器能读网页,这个说法有一定合理性,但是也很误导,容易让人忘了说到底知识是从人那里来,到人那里去。做工业的应用,在现有的成熟技术上服务于人,不必纠结于用不用某种技术,比如智能和推理。我们这一代人,只做我们这一代人的事情。

为什么要区分Context和一般知识

2011/05/28 1条评论

为什么要把context(域)和非context知识分开。比如temporal context, 我们可以写成ist(C(x), t),也可以写成C(x,t)。为什么不使用后一种方式?

用context建模有如下好处

1)用context建模可扩展性好。比如原来我们的知识库里有C1(x)… C100(x),现在要加一个时间维度,那要对所有的谓词都修改arity为2。如果以后又有新的context维度,又要修改。比如我们在Wikipedia上做编辑,编辑的revision log并不会加入页面本身作为正文——这些log就是各个版本的context。

2)contex可以被组合形成新的context. C(x, t1, t2) 不如 ist(C(x), t), t= t1^t2。也可以是其他的逻辑连接符,C(x, t1, t2)这种方式就表现不了了。

3)参前文《RDF and Context (域)》所说:域可以被重用(也就是把冗余部分压缩掉)。域可以被推理。域之间可以有关系。

分类:逻辑, 思路

量子信息论和语义信息论

2011/05/28 1条评论

这两者之间其实有很近的关系

一个量子比特(qubit)是多个纯态(pure state)的叠加。例如|s>= 0.707 |0> + 0.707 |1> 就是说 |s>以概率0.707*0.707=0.5为|0>,以概率0.5为|0> 。也就是,如果进行100次测量,那近似 50次得到|0>。

在语义信息论中,一个消息,也即是一个逻辑的表达式,代表多个模型。每个模型有自己出现的概率。例如,假如模型的集合是一个一个的人,其中20%是小孩,20%是老人。那消息“小孩或老人”的逻辑概率是40%,其中一半的可能是小孩,另一半是老人。

也就是,单个模型对应量子信息论中的基态。可写为

|小孩或老人> = 0.707 |小孩> + 0.707 |老人>

注意,在经典信息论中,如果{0,1}的分布概率是{0.5,0.5}这个信源没有冗余,(香农)熵是1比特。在量子信息论中,如果{|0>,|1>}的分布概率是{0.5,0.5},它的(冯诺伊曼)熵要比1比特小,因为在所有的可能输出中(现在有无穷多种), 0.707 |0> + 0.707 |1>出现的概率最大。

由于语义信息论中,一个消息可能对应多个不同的模型,这本身包含了语义歧义性(semantic ambiguity)。所以,语义信源的平均语义熵,必然的小于信源的模型熵(model entropy,也即是把模型本身当作消息时,计算的经典香农熵)。也就是,平均语义熵对应于冯诺伊曼熵。这个熵小于模型熵,但是可能大于或者小于信源的语法熵。这提供了语义压缩的可能。

注意,Bennett & Shor 1998说(我的翻译):

若经典数据由于数字位的不等频率或数字位间的相关,是冗余的,可以利用某些技术如Huffman编码压缩。量子数据具有以上两种冗余,但还有第三种方式:若数据流中的状态是非正交的(例如 一水平和45度 对角光子的随机流),作为物理态不能完全区分。这样的数据流不能用经典方法压缩,因为发送站在试图读数据时可能会产生干扰。然而 在对输入的n个状态的数据块进行幺正变换后,量子编码可以(无须对状态有任何了解)将其所包含的信息压缩到较少的量子比特,在接收端通过相反的变换可以几乎完全重建原始信号。

利用量子纠缠进行量子压缩,对应于利用语义模糊进行语义压缩。

Reference

参: Seminar on Quantum Compression. Ofer Shayevitz

中文资料参: 量子信息讲座(中国科学院量子信息重点实验室)

我以前翻译的量子信息论文章(1999):
http://www.cs.iastate.edu/~baojie/acad/past/past.htm#quantum
原文是 Charles H. Bennett, Peter W. Shor: Quantum Information Theory. IEEE Transactions on Information Theory 44(6): 2724-2742 (1998)

分类:思路, 信息论

笔记:描述逻辑的云计算(1)背景

2011/05/14 1条评论

Description Logic in the Cloud 这是很扯蛋的说法

或者说描述逻辑的并行计算(Parallel Computing with Description Logic),主要是指查询和推理两种任务。

对于RDFS或者OWL-RL的某个子集,利用MapReduce或者其他基于集群的(cluster-based)的计算,工作不少。不过一般都是基于规则(rule-based)的推理,不保证推理的完备性(completeness)。很多只支持非常有限的推理,比如BBN的SHARD工作。

模块化本体(modular ontology)语言,如Distributed Description Logics, E-Connections and Package-based Description Logics,基于非经典局域语义(Local Model Semantics),可做分布式推理。但是局域语义的复杂性,使它们不适合现在的工程应用。

所以这个系列,主要是在普通全局语义下,探讨完备的推理算法。其中包括对Tableau Algorithm (树图算法)的并行化的一些讨论。

下面附对Rule-based并行推理的一个简短比较(摘自我自己的一个报告)。这些工作,主要是parallel triple-store,而不是parallel reasoner。

———————————

Distributed RDF Reasoning

Most existing work on distributed RDF reasoning relies on parallelization of rule-based reasoning or partition of data on a cluster.

WebPIE (Web-scale Parallel Inference Engine) by Urbani et al [7, 6] performs rule-based forward reasoning based on the MapReduce programming model. It is implemented using the Hadoop framework.  They have shown inference on a triple set of 100 billion triples and in 1.35 hours on 64 nodes against 10 billion triples. This system does not support querying.

SAOR (by Hogan et al.) [1] computes the closure of an RDF graph using two passes over the data on a single machine. A fragment of the OWL Horst semantics is implemented to allow more efficient materialization and to prevent “ontology hijacking”.

In MaRVIN [10, 4], Kotoulas, Oren and others have presented a technique based on data-partitioning in a peer-to-peer network. A load-balanced auto-partitioning approach was used without upfront partitioning costs.

In Williams, Weaver et al [5], straightforward parallel RDFS reasoning on a cluster is presented. This approach replicates all schema triples to all processing nodes and distributes instance triples randomly. Each node calculates the closure of its partition using a conventional reasoner and the results are merged. To ensure that there are no dependencies between partitions, triples extending the RDFS schema are ignored. This approach does not support complete RDFS reasoning.

Newman et al. [2] decompose and merge RDF molecules using MapReduce and Hadoop. They perform SPARQL queries on the data but performance is reported over a dataset of limited size (70,000 triples).

Husain et al. [8] report results for SPARQL querying using MapReduce for datasets up to 1.1 billion triples.

References

  1. A. Hogan, A. Harth, and A. Polleres. Scalable authoritative OWL reasoning for the web. International Journal on Semantic Web and Information Systems, 5(2), 2009.
  2. A. Newman, Y. Li, and J. Hunter. Scalable semantics the silver lining of cloud computing. In Proceedings of the 4th IEEE International Conference on eScience. 2008.
  3. Adjiman, P., Chatalic, P., Goasdou, F., Rousset, M.-C., and Simon, L. (2006). Distributed Reasoning in a Peer-to-Peer Setting: Application to the Semantic Web . Journal of Artificial Intelligence Research, 25:269,314.
  4. E. Oren, S. Kotoulas, G. Anadiotis, R. Siebes, et al. Marvin: Distributed reasoning over large-scale semantic web data. J. Web Sem., 7(4):305-316, 2009.
  5. G. Williams, J. Weaver, M. Atre, J. A. Hendler. Scalable Reduction of Large Datasets to Interesting Subsets, In Web Semantics: Science, Services and Agents on the World Wide Web, , 2010
  6. J. Urbani, S. Kotoulas, E. Oren, F. van Harmelen, Scalable Distributed Reasoning Using MapReduce, in: Proceedings of the 8th International Semantic Web Conference, 2009.
  7. J. Urbani, S. Kotoulas, J. Maassen, F. van Harmelen, H. Bal, OWL reasoning with WebPIE: calculating the closure of 100 billion triples, in: Proceedings of the 7th Extended Semantic Web Conference, 2010.
  8. M. F. Husain, P. Doshi, L. Khan, and B. Thuraisingham. Storage and retrieval of large rdf graph using hadoop and mapreduce. In M. G. Jaatun, G. Zhao, and C. Rong, (eds.) Cloud Computing, vol. 5931, chap. 72, pp. 680-686. Springer Berlin Heidelberg, Berlin, Heidelberg, 2009.
  9. R. Soma and V. Prasanna. Parallel inferencing for OWL knowledge bases. In International Conference on Parallel Processing, pp. 75{82. 2008.
  10. S. Kotoulas, E. Oren, and F. van Harmelen. Mind the data skew: Distributed inferencing by speeddating in elastic regions. In Proceedings of the WWW. 2010.