Archive

Archive for the ‘财经’ Category

家庭理财教育

2011/04/28 留下评论

我刚才在厕所看杂志,教人怎么合法避税。关于税,我父母没有教过我任何知识,因为他们自己从来不交税。前两天,我妈还很高兴地和我说,她很满意自己的收入,因为不用交一分钱(所得)税——和中国95%的人一样(最近起征点提高了)。

不光是税,关于理财的其他问题,我的家庭教育并不包括这些——因为和大多数中国普通家庭一样,一直无财可理。所以到了美国以后,我还是一头雾水。直到某一年,突然恍然大悟,原来这里面有这么多名堂。一算,已经白白多给了美国政府上万刀。更不用说股票,债券,基金,这些名堂了。

每一代都有每一代的新问题。我外婆(作为我外公的家属)每个月有几十块的退休金,她都掖在箱子底,有时候拿出来给我们做压岁钱。到她去世,居然有几千块,不过还不够办丧事。我父母这一辈,有个长辈一直不肯用银行卡,觉得不安全,只觉得存折放心——到底还是进步了,不掖在箱子底了。我劝她如果钱长期不用,不要存银行,投资高质量的债券至少可以多几个百分点的回报——这个事情太过有风险,我的游说一直没有成功。

我另外一个长辈,胆子大得多。有了一笔巨款(按他们那里的收入水平计算)就去倒腾房子——因为只有房子据说是不会亏的。在这个事情上,我胆子却要小,总觉得毕生的钱再加上负债,投资在单独一个有泡沫嫌疑的项目上,比较冒险。我和长辈介绍其他投资方式,比如黄金,基金,或者房地产信托,长辈善意的笑笑说,这些我搞不来。

说实话,以后我自己老了,又不知会有什么新鲜的理财方式,我估计也一样搞不清楚,不敢去做。犹太人理财理的好,我看和家庭教育很有关系。说是知识,我看还不如说是思维方式,自己看成一个公司,把自己的钱看成公司的资本,然后去运作。具体的知识,都是末节。

妞刚出生,我就给她开了一个小的信托账户和一个教育账户,现在钱不多。到了18岁,她就有权支配自己的信托账户了。有很多理财的教育,我会努力去告诉她。当然,我现在能看到的,只能是我鼠目所及。我上小学的时候,我妈给我做一个儿童保险,说是到我退休的时候,一个月可以给我180块钱(当时一般人月工资还只有50、60块)。这么过了十几年,到我出国后某年回国,逼着我妈去退保,把几千块给取出来了。等妞长大了怎么理财才有意义,现在我是肯定想不出来的。

Advertisements
分类:随感, 财经

上证50处于历史最低水平

2011/04/24 留下评论

今天看了一下,目前上证50的整体市盈率为12~13倍左右。如果有闲钱,投资中国股市要比美国股市安全的多。

分类:财经, 流水帐

XBRL,金融数据和语义网

2011/04/19 2 条评论

浏览了几个中文的新闻,均来自XBRL中国官网

语义网技术提升XBRL功能 (2010-07-14)。相关的英文文章是 Consuming XBRL Financial Information: Semantic Web Prototype App Aims To Make It Easier, Faster, Automatic — And Socially Connected (2010-07-14)

文中的Dr. Graham G. Rong,是我们(RPI)在MIT的合作伙伴。Rong博士和我在2010年1月在MIT的一个Linked Data课程上相识。他有金融领域的背景和人脉;我们聊到我对金融数据的兴趣,Rong博士就向我介绍了XBRL。这就开始了后来的一系列工作(见前一篇文章《基于语义网的证券分析》)。由于这个工作和RPI现在做的政府数据方向颇有关系,我们得到了TWC Director Hendler教授的支持。我们一个博士生,Xian Li也有金融领域的工作背景,也参与到这个方向上来。

上引文章里对语义网和XBRL这两种技术的结合,做了很好的原则性阐述。我这里再非正式地讲一点我个人的看法。这些看法都不成熟,所以都没有在发表的文章里讲过。

首先,XBRL是XML,是数据的结构的规范而不是数据的语义的规范。如何理解?比如,我们写文章,规范文章要有标题,要有摘要,引用的格式如何,这些是结构。至于这个文章说的是什么,是建一个观点还是灌水,这是语义。但是这样说,要很小心,因为XML界一样有语义的研究,在论文里措辞要很谨慎,虽然此语义非彼语义。

用语义网做数据的建模,或者其简化的版本,互联数据(Linked Data),自然可以应用到金融数据的建模上。比如说,我要研究波士顿地区半导体方向的公司的财务情况,那要看这些公司的10-K(年报)或者10-Q (季报),还要看这些公司的简况,比如公司所在地和业务范围。这里面有很多知识问题。比如,我看到一家公司位于Nashua, NH,这算不算波士顿地区呢?或者,一家公司的产品包括了射频功率放大器,那它是不是一家半导体公司呢?或者,A公司的2010财年第4季度盈利明显高于B公司的2010财年第4季度,但两个公司各自前一个季度的盈利差不多,是不是B出问题了呢?

这里面有许多语义可以利用。比如,从Wikipedia,我可以知道Nashua, NH算在波士顿大区,离波士顿大概40英里;从某产品分类,我知道射频功放是一种半导体器件,尽管那家公司没有提“半导体”这词;我还发现,A,B两个公司的财年定义是不一样的,一个包括了圣诞后的季节性萧条期,一个没有。这些都可以帮助我们决策做参考。

再比如,我们要挑选ETF。现在有很多网站可以帮助我们。但是,在某个网站上,我选了亚洲区ETF,发现它遗漏了很多中国的ETF?为什么,因为这个分类里,并没有中国区ETF是亚洲区ETF这样的一个简单的知识。

又比如,我看IPad卖得很火,想投资Apple股票。可是AAPL现在市盈率很高,不敢跳,怎么办?其实网上有很多人,买了IPad回来拆,分析里面的配件(这个就是知识了)。有分析师(fool.com上就有几位)就按这些配件找相应的公司,推荐这些股票。这个决策过程,要浏览很多网站,看很多数据(比如相关公司的P/E, P/B, 历史数据, 各种噪声)。如果有一个平台,把这个自动化了,那我就可以自定义一些ETF(也就是股票组合),比如IPad ETF, XOOM ETF, 卖得最火的手机的最常用配件的ETF,等等。

但是,是不是说,我们把数据转化成了RDF或者OWL,就让数据天然有了语义了呢?我看过很多这样的应用(未必在金融领域),对其中语义部分的有效性和必要性,持审慎的态度。对金融数据,我认为同样的态度也是必要的(有的方法直接映射XML的结构到RDF上,这个语义的质量是很差的,我怀疑能不能用)。这也是我在和部分业内人士交谈中,得到的一个非常理性的反应。

首先,简单知识的建模,比如分类关系和ER(Entity-Relation)关系,在语义网之前就有很多的工作。复杂知识的建模,是一个代价很高的过程。金融要求处理瞬息万变的数据,这个建模的复杂性是非常高的。语义的提取本身,是一个极具挑战的工作。试图完美体现一个金融知识模型,比如SEC的GAAP或者某个公司的Taxonomy,这个劳动量是非常大的,而且各公司未必有这个人力或者兴趣来做。所以,我想,一个合理的方法,还是综合使用结构化数据和非结构化数据,象Watson系统那样,大量的吃进数据,并利用现有的语义网数据。不要试图建立一个包罗万象的金融本体。

其次,推理到底在这个过程起多大的作用?我想,一个关键还是不可以拘泥于逻辑的推理。非常多的金融数据是模糊的,比如Twitter的数据(参StockTwits.com)。基于概率的模型,或者基于机器学习(比如神经网络)的模型,也许能更好的处理这类数据。

另外,就是金融数据的海量性和实时性。所有的查询和推理系统,都必须能适应极大量的数据,几个毫秒的差距都可能造成损失。基于推理机的语义网查询推理系统,能不能用,怎么用,待考。并行计算如何用,或者非传统数据库(比如基于列的数据库)如何用,如何在它们上面实现简单的金融领域需要的推理,待学习。

总的来说,我对这个方向很有信心。但是这是一个很大的系统工程,需要大的投入,需要和金融界很好的沟通。目前有团队在做这个事,具体如何发展,待观察。

另参考(都是原则性的科普,不可不信,不可全信):

我另整理有一些XBRL和语义相关的资料,待以后写相关文章的时候再整理于此。
分类:语义网, 财经, 思路

基于语义网的证券分析

2011/04/19 2 条评论

Xian Li(李娴)和我, Jim Hendler合作的一篇文章“Fundamental Analysis Powered by Semantic Web”[1] (基于语义网的基本分析)获得了2011 IEEE Symposium on Computational Intelligence for Financial Engineering and Economics ( in IEEE Symposium Series on Computational Intelligence 2011)最佳论文。

这篇文章是前一篇文章“Representing Financial Reports on the Semantic Web – A Faithful Translation from XBRL to OWL”[2](在语义网上表示金融报告——从XBRL到OWL的语义保真翻译)的继续。

首先,XBRL (eXtensible Business Reporting Language)是一种金融的报表格式。各上市公司或者基金公司做年报季报,都要用这个格式。目前,在美国,欧洲,日本和中国,都在要求使用这个格式。但是XBRL是基于XML的,其中有丰富的语义信息没有得到表现。比如说,我说子公司A的收入要汇总到总公司的总收入里,但是,总公司的帐哪里,我必需把这话车轱辘再说一遍:总公司的总收入包括子公司A的收入。XBRL的报告,是非常啰嗦的。

文章[2]的基本思路是:XBRL规范里的语义,和公司内部定义的一些概念(比如财年到底是几月到几月),都可以用OWL这种语义网的语言来表现。这样,我们可以做推理,还可以支持更好的自动查账——比如提早发现麦道夫(Madoff)这类的欺诈。

文章[1]进一步说,有许多XBRL使用中的语义,无法用OWL来表示,可以用规则来表示。这些规则语法形式可以用SPARQL。理想的,我们应该用RIF(规则交换格式语言),但是现在RIF还没有什么实现工具,暂用SPARQL。

文章[1]还讨论了其他一些内容,比如如何利用互联数据(linked Data)和社交网络数据(Social Media Data)如Twitter,来帮助进行金融数据的分析。

现在用语义网技术做金融的分析,是一个逐渐热起来的方向。很多投行,评级机构和基金公司都在招这方面的人材。

金融是一个很复杂的领域,如何用好语义网所带来的结构化数据和丰富语义的好处,并不是一个简单的工作。这两篇文章,严格来说都还只是很初步的工作。XBRL是一个很复杂的规范,我们还没有给出它完备的语义网表示。美国SEC给出了GAAP(一般公认会计原则)分类,里面有丰富的语义信息,和XBRL是相辅相成的,也需要集成进来。我们也还需要做更深入的案例分析和应用实践。特别是工具的开发,现在还在起步阶段。Xian做了几个演示[3],感兴趣的可以去看看。

[1] Xian Li, Jie Bao, James A. Hendler (2011). Fundamental Analysis Powered by Semantic Web. In 2011 IEEE Symposium on Computational Intelligence for Financial Engineering & Economics (CIFEr).

[2] Jie Bao, Graham Rong, Xian Li, and Li Ding (2010). Representing Financial Reports on the Semantic Web – A Faithful Translation from XBRL to OWL. In The 4th International Web Rule Symposium (RuleML). (p. 144-152)

[3] http://logd.tw.rpi.edu/test/corpdata/demo/secinshub_v2.0.html TWC开放政府数据网站也有一些和财政或者金融相关的例子(也是Xian Li开发的)。

分类:语义网, 财经

吃骨头不吐骨头皮

2011/04/04 4 条评论

终于完成了今年的报税工作,花了我预期时间的5倍时间。肉痛之余,说说美国的税。数字比较多,枯燥,没耐心的可以直接跳到最后一段。

网上常看到一些关于中国税负世界第二,及和美国税负比较的文章。用“中国税负”或“税负痛苦”搜一下,海了去的文章,我这里懒得列。这种GP文章大多似是而非,是写这种文章的人根本就不知道,或者存心不想,去做一些基本的调查研究工作,抓住一两个概念(比如“馒头税”)或者统计数据就开始无视其背景开扯。尤其是关于美国的部分,十有八九是在说一个穿越过去的平行宇宙。这种文章,特别滋养恍然大悟党,几千个回帖都算是少的。在今天这个穿越无罪,YY有理的大环境,周朝人可以喝茶(《赵氏孤儿》),宋朝人可以啃玉米(《新水浒传》),为什么今天我们就不可以穿越到一个轻徭薄赋的美国去呢?亲?

当然,我这里并不是写论文,只说说我知道的一点点皮毛,一样有很强的误导性。这里只讲微观个人税收,不讲宏观税负,也主要用中产阶级做例子,我比较熟悉。数据是最容易被误用的,尤其是不完整和缺少比较的时候。你要是想了解中美税制比较这个大题目,还得去看专业论文。退而求其次次次次,不妨看看西西河上的几篇科普(三次税制改革美国税收中国和美国税率的比较),或者维基百科[1,2]。

首先澄清一点:在中国缴纳个人所得税的人其实很少。中国目前(2011年)是11%,最近在讨论起征点提高到3000元,那这个百分比会降到个位数。美国是57%的人交税(2009年),也就是43%的人一分钱不交或者政府倒贴。所以交所得税在中国是个“罕见”的事,在美国大概一半人。

基本的个人所得税,联邦有,州有,有的地方(比如纽约市)还有市税。联邦个人所得税是累进税,州税有累进的(比如艾奥瓦),也有一刀切的(Flat rate),比如麻州5.3%。联邦边际税率(也就是你下一块钱要交的税)分几档,15%到35%。实际综合税率不同。根据我的计算,对一般中产(10万到20万家庭年收入的),可纳税部分大体联邦所得税综合税率22%-25%的样子。在中国,年薪10万RMB的交所得税11%,20万的15%,30万的17%,再高就不是一般人了。所以对于中产,单论中央政府收的所得税,美国比中国高得多。注意,中国并没有另收省税。

那17%增值税呢(“馒头税”)?这是中国人人都要交的。美国现在还没有增值税(虽然税务专家们大多认为征这个税最终不可避免),不过大多数州有消费税,6%-7%的样子,有的附加1%左右的教育税等。看起来比17%增值税低。但是要知道增值税只对“增值”的部分收,而消费税是按最终价格全额收的。增值税并不是最终售价的17%,到底低多少,视商品种类而定,比6%-7%高或者低都有可能。

美国有社保税(6.2%)和联邦医疗保险税(Medicare,1.45%)。中国我不很清楚,查了一下,养老保险8%,失业保险1%,医疗保险2%,似乎各地还有不同。需要指出,美国的社保税包含了养老,失业,残疾等几个方面,但是并不是养老的全部。如果靠社保养老,那基本只有饿死了——一般来说,对中产阶级,大概社保能覆盖1/3的基本生活收入,前提是到时候社保还存在。每年社保局都会给我发信,温馨提示到我退休的2041年(注意,美国的法定退休年龄是65岁;早退可以,最早62岁,但是要扣退休金;以后要提高到67岁),社保基金会一分钱不剩;但是叫我不要担心,因为如果那时候的年轻人还在交社保,那大概可以给我本来可以拿到的70%的样子。

所以大多数美国人,要参加雇主办的401(k)计划——除了少数吃大锅饭的准国企和政府。一人一年最多可以存16,500,现在免税,退休时算上收益部分再交。大多数美国人只存很少(本来也不储蓄),5%甚至更少;中产会多存些,我们家20%的样子。另外还有个人退休账户(IRA),有的免税,有的不免,太复杂,不讲。

Medicare税也不能简单对应于中国的医疗保险费。这个联邦强制保险,只有退休(也即65岁以上)人口受益。在职的,要另买保险。比如我们家一家三口,一年要另掏$4000多参加雇主的商业险。美国家庭收入中位数不过5万,医疗保险占到5%-10%,很正常。

美国有几样税,是中国没有的。我最眼红的,是中国没有资本利得税。联邦长期资本利得税(一年以上)是15%,短期资本利得税和本人边际税率一样,对大多数人,也就是15%,25%,28%(中产大体是后两组)。州也有,比如麻州短期12%,长期5.3%——注意,这是收了联邦税之后再收的。所以比如某麻州居民炒股,做短线挣了100刀,本身25%边际税率(个人收入5万就到了;家庭差不多8万的样子),那自己能落袋63刀,37刀交了税。中国股市短期行为很厉害,很大一个原因就是没有资本利得税。

另外一个是财产税,比如房子,土地,汽车,游艇。我们家两辆车,一年收税800多,比车保险还多。房产税,中国现在在试点,税率和征收范围都是象征性的。麻州大概房产税1%-2%,看区的好坏。新罕布什尔州高一些,2%或更多。由于房子长期来说会随通胀升值(3%的样子),在新罕布什尔大概30年不到就要交超过房子的原价给政府,比天朝的70年要快多了。

最后还有遗产税,赠与税,911税,“放弃国籍/绿卡税”等,不提。

那综合起来,一般美国人的税负是多少呢?这个很不好讲,因为“一般美国人”的定义各人理解不同。普通人,也就是一对夫妻,5万收入(美国中位数),两个孩子,有房贷,那是不用交所得税的,社保和医保税逃不了,大概不到4000;房产税看地方,2000的也有,5000的也有(这个阶层大概也住不了更贵的房子)。这里都没算消费税。这个阶层的生活标准,大概也就是中国大城市的普通职员的标准。

中国新移民在美国的,夫妻都受过良好教育,差不多年薪一起20万或更高,房子要40万或者更贵(除非在大农村)。这个水准,差不多比97%的美国人收入高。如果是15万,也比94%美国人高。这个阶层,对应中国大城市比较体面的白领的生活水准(搁帝都魔都,差不多就是两口子年薪20万到30万RMB吧)。按20万美刀一年的那家,那一年个人所得税差不多15万可征额(算401k全放),对应综合税率23%,也就是3.5万的样子。州税1万,社保和医保税1.5万,房产税7000-8000(一般不会再低,再低学区和治安都成问题了),大概一年6万到7万之间,占毛收入的1/3左右,同样不包括消费税。比很多欧洲国家都低。是不是比中国低,我不知道,要国内的人士来讲。

题外话,那一个“中产家庭”一年生活费要多少呢?这个更不好讲,家家不同。对收入20万的中国夫妻,很基本的衣食住行,小孩入托上学,基本国内旅行,一年下来,5万很紧张,6-7万比较靠谱。注意这里没有任何铺张浪费的项目(比如请阿姨做家务,自己基本不做饭下馆子)。由于收入高,福利也一概享受不到,比如国内常说的免费奶粉(几乎每个国内的亲戚朋友都要问我我们家妞是不是不用我们自己出钱买奶粉,不知道是不是个例)。还要注意,美国小学放学往往很早(比如下午2点),孩子又不能一个人(违法),所以要交钱上学校的After-school兴趣班,所以并不是义务教育就不要掏钱上学的。学生两口子2万可以活下来,那对应“北漂”,又是一个标准。很多人看美国物价,看到东西便宜,却不算服务的价格,比如医疗,看孩子和律师。以后有时间,再细讲。总之,对过得去的中产,如果不想办法避税(比如开皮包公司),差不多有下面的公式:

一年交的税 = 一年生活费

【题外话2,报税是一个极其麻烦的过程。以后有时间,回顾一下我过去10年的报税历程,让大家看看到底有多麻烦。】

美国的税法,远比我知道的复杂不知道多少倍,所以美国养了上百万人之多的会计师。大家都知道“只有死亡和税是不可逃避的”这句话。在美国,IRS(国税局)是最招人恨的部门之一。去年,有人喊“take my pound of flesh”(还记得《威尼斯商人》?),开着飞机一头撞到IRS的奥斯汀大楼上。可怜何止是一磅肉,连骨头也全搭进去,却有何益?他的声明(Joseph Andrew Stack Manifesto,有中文的)倒写得很好,想了解美国近年茶党思潮的,推荐。这里摘最后两句:

The communist creed: From each according to his ability, to each according to his need.
(共产主义信条:各尽所能,按需分配)

The capitalist creed: From each according to his gullibility, to each according to his greed.
( 资本主义信条:敛自愚民,贪者多得)

西瓜大丸子汤,2011-04-04

【这个文章牵扯太多,有错是一定的,请方家指正。】

分类:生活, 财经

东市、西市和股市

2011/03/28 留下评论

若论唐宋城市的的差别,莫如从坊市到街市的发展。原来在唐代城市,市场在专门的街区中,并不是对着大街开门的,里面有各种各样的店铺……有同学说了,不就是Shopping Mall吗。唔,差不多。比如长安,有东市、西市(见左图,来自Wikipedia),每天中午开市,到了天黑就关了。到了宋代,商铺开到了大街上,就象同学们在《清明上河图》里看到的,非常适合压马路。有历史学家说这是进步。至于为什么压马路比逛Mall进步,有待进一步学习。

就营业时间短这一点,唐代坊市和现在的股市颇为相似。美国股市每天9:30到下午4点,六个半小时。中国股市9:30-11:30,午休后下午1点-3点,才4个小时。我一直不明白为什么股市交易时间这么短,而且周末不营业。现在看,这正是说明现在的股市还处在很原始的阶段吗。以后的历史学家写书,会评价说21世纪初,是一个金融经济极不发达的社会,有限的证券交换,是社会生产力水平低下和社会分工不发达的产物云云。

设想一下100年以后,股市彻底的街市化,您去过早吃包子,菜单上都问您要不要先上本铺的股票5股开个胃;或者,您半夜您去便利店买牙膏,用借记卡付账,店员除了问您要不要稍带取点现金(Cash back),还问要不要来点股票(Stock back)。就连您和mm去压马路,被小屁孩死缠着买花,都发现廉价包装纸里赫然插着一张花店股票交易确认券。:)

这才算有点金融经济的样子吗。

分类:财经, 历史, 恶搞

货币代表的是语义信息,而不仅是信息

2011/03/17 留下评论

接着”货币的量纲是焦耳/开尔文“扯。我现在做的这个项目,叫做语义信息论(semantic information theory)。这是一个少有的,我感兴趣又可以拿工资的工作。一起合作的,有人工智能,通信理论和算法方面的几个大牛,都是些极聪明的人。这是背景。

上面讲货币的本质是有序度的测量。哪一种有序度?传统信息论,研究的是随机信号,并不考虑信号背后的意义。DNA上一比特,和AV的一比特,无差别,所谓对错。

何谓语义,见仁见智,有许多不同的学派。我们这里用的,主要是模型论语义。也就是,我们说一个东西,比如“美女”,其实代表一个集合:美女={范冰冰,李冰冰,赵冰冰,钱冰冰,…(等等)}。这个集合,就是“美女”这个词代表的“模型”。不同的时候,不同的人,这个模型可能不同,有人认为芙蓉是,有人认为不是。总之,定义一个概念,主要是通过建立这个概念对应的实例的关系。我们家妞妞在看图识字,就是接受这个模型论语义的过程。

加上这个语义,我们讲语义信息,是指信号本身现在有了对错。看到范冰冰,惊呼“美女”!这个信号很靠谱,是对的。看到,唔,潘长江,惊呼“美女”,别人会认为你喝高了。这个对错,用模型论语义来检验。

所以有这个语义通信和工程通信的最基础区别:工程上,我们要传递的是信号;语义上,我们要传递的是信号代表的模型–信号变了(比如不说“美女”了,说“靓女”)都没关系,只要代表的模型没变。

为什么说货币代表是语义信息呢?你拿到一块钱,其实并不是真的关心这块钱的具体表现形式,硬币也可,纸币也可,电子信号也可。较真一点,没有两块钱是完全一样的,比如序列号。你关心的是这个一块钱能买到多少东西:10块巧克力,或者12个鸡蛋。这些东西,是这个钱代表的模型。

货币的购买力,取决于能购买的模型(商品和服务)的数量,以及它们的丰度。为什么物以稀为贵呢?well,动态的讲,你可以用供求理论,那么当市场到了一个平衡态(当然,这个平衡态不总是存在,我们这里不深入讨论),这个价格,就反映了一个物品令人“吃惊”的程度,表达这个稀缺度的,就是价格。鸡蛋常有,慈禧太后的夜壶不常有,所以后者贵。

那么平均来讲,一块钱能代表的,就是各种可能的交换对象的稀缺程度的数学期望。社会的有序度高,可以极大的提高商品交换的范围和服务的程度,使得物品相对“稀缺”(因为其他选择多了),从而提高购买力。这个东西,实实在在就是熵。严格一点,是逻辑熵,以和统计熵相区别。

这样,用钱来做支付工具,从信息的角度,是语义信息的传递,因为我们关心的不是票子本身,而是巧克力,鸡蛋,慈禧太后的夜壶,还有范冰冰…(面壁去)

西瓜大丸子汤 2011-03-17