注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

陈玉宇的博客

风雨如晦,鸡鸣不已

 
 
 

日志

 
 
关于我

北京大学光华管理学院副教授。 1994年毕业于北京大学经济学院国民经济管理专业,同年进入国家经济体制改革委员会宏观经济司,从事经济改革和政策研究。2003年获得澳大利亚国立大学经济学博士学位。 陈玉宇博士主要从事关于劳动市场、人力资本、增长、消费和储蓄等问题的研究,其论文发表在国际和国内一流学术杂志。陈玉宇博士的教学兴趣主要是应用计量经济学、管理经济学、宏观政策分析等。 从来没有看见一只狗会公平地、审慎地同另外一只狗交换骨头。陈玉宇坚信,包括中国人在内的人类有能力、有信心进行自由的市场交易

网易考拉推荐

灰色收入和统计局的灰头土脸  

2010-09-01 02:34:43|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
       王小鲁撰写的《灰色收入与居民收入差距》一石激起千尺浪,清浪浊浪皆有。统计局的专业人士王有捐对其报告有比较客观公允的评价,指出了其缺陷。王小鲁的报告,其实很粗糙。我看到的这个版本,主要是给非专业的人士看的,技术部分语焉不详,所以我没完全搞清楚他的做法。但是从这篇报告里,也有很多疏漏或者错误的地方。
       警告:这是包含技术内容的帖子。请对宏观经济、劳动市场、和统计有一些了解的人阅读。其余的人不必看。

       第一,王小鲁的基本结论是,国家统计局的居民收入和支出调查数据质量很差,尤其是收入数据,高度低估。比如2008年,国家统计局的城市住户调查数据表明人均可支配收入是15000元,而王小鲁说几乎是两倍。主要原因是高收入群体的收入被高度低估了。

      第二, 进一步,王小鲁说,根据他调查数据得到的样本人均收入,乘上人数,那么全国人民的可支配收入一共是23万亿,占GDP的比重是23/31=77%。哈哈,郎咸平的粉丝们应该来打这一架。郎咸平说全国人民的工资收入占GDP8%。这里王小鲁说全国人民的收入占GDP77%。比较值得存疑。

      统计局的居民入户调查数据计算出来的人均收入乘上人口大约得到12.9万亿,占GDP的42%。事实上,大家并不从居民入户调查数据来获得国民紧急统计中的总的居民收入。因为自全世界各国进行居民入户调查以来,收入的低报现象很严重。

     在进行国民经济核算的时候,统计局还编制了资金流量表,这里显示居民收入总数为18万亿,占GDP比重为60%。这个是国民收入核算中总量数据的来源。

     第一财经日报的愤青记者有篇雄文,居民收入统计局两套数据打架5.3万亿元差距待解,指出“对于2008年居民收入我们有三个数据:国家统计局入户调查数据12.9万亿元;经济普查资金流量表数据18.2万亿元;王小鲁数据22.7万亿元。”,

   然后该报义正词严的质问“国家统计局王有捐和施发启两位人士均就官方入户调查的科学性做出过很好的介绍,其样本的数量、科学性,要高出王小鲁许多,为什么相比于经济普查,这一官方调查依然偏离得如此巨大?这高达5.3万亿元的官方数据差距如何解释?与普查数据差距如此之大的入户调查数据,是否还有继续持续下去的必要性?”

    第三,王小鲁根据自己的研究,说根据统计局的研究最富10%的居民与最穷10%居民的收入之比不是3倍,而是十几倍几十倍(请原谅没记清楚),这个数据进一步刺激了对收入分配不平等感到愤怒的人们的神经。

    第四,所有这些与统计局数据的差异,被冠以灰色收入这么一个不准确的称呼。这个称呼有意无意的误导人们将收入差距归结为灰色,归结为巧取豪夺和不合法。悲哉。

   如何理解以上4个方面的反应和结论?

   1,王小鲁得出的人均收入数据是统计局的两倍,基本不可靠!王小鲁的方法有启发人的地方,值得肯定。但是以王小鲁的调查数据做总体的推断,则是错误的。王在自己的报告里也指出“本项研究通过一批专业调查员,。。对他们各自居住地属于不同职业、不同收入阶层的亲属、朋友、关系密切的同事和邻里进行个别访问,总共在全国范围获得(数千)份城镇居民家庭实际收入和消费情况的问卷。需要说明,这项调查的目的并不是要用调查样本家庭的收入状况推算我国城镇居民的总体收入分布状况,而是采集不同收入等级居民的收入和消费特征参数用以检验和校正现有的城镇居民收入数据。

    什么意思呢?北大校园内学生有2万人,我想知道其平均身高。我如果只抽取10个人,量了量,将10个人的平均数作为北大2万名学生平均身高的估计。这就叫抽样推断。要推断的准确,样本越大越好。我如果抽取500个学生测量一下身高,那么这500人的身高算出来的样本平均数会更接近2万人的平均。还有,光样本大不管用,还要样本选取的有代表性。如果你跑到北大五四操场去选取样本,抽到的都是打篮球的兄弟们,那么你的抽样不具有代表性,估计会有偏。

     王的样本(1)样本小,4000多户。相对比,统计局的城市住户是40000户,农村是10多万户。(2)样本的代表性值得怀疑。所以王说,别拿我的样本算出来的平均数,去说总数!这叫自知之明。可惜媒体非要把人家的结论乱用!
    
     2,那么中国的居民收入占GDP比重大概其是几啊?我认为应该用统计局资金流量表里的数据,也就是2008年居民总收入18万亿,占GDP比重60%。60%差不多是世界上的平均水平。印度、英国、德国是65%,巴西59%,智利69%,美国73%。相应的,中国的居民人均收入要用18万亿/13亿人口算出来。

    3,中国的收入分配不平等程度确实很高。而且,我有篇论文指出这种不平等反应的是长期收入的不平等,而不是短期的暂时性的因素导致的不平等。居民的消费不平等几乎与收入不平等一样高。很多人也相信中国正在踏入最不平等的国家行列。都这样了,何苦再去自我折磨,说把灰色收入算进来不平等程度更高!

    4,统计局也犯了一个很大的错误。统计所作的住户调查数据,在全世界绝对属于高质量,世界银行研究局局长RAVALLION是个超级经济学家,他高度赞美过中国的居民入户调查数据。统计局的错误在于,将居民入户数据公布的时候,往往简单称之为“城市居民平均收入”“农村居民平均收入”。其实他应该老老实实说“城市居民抽样样本平均收入”。

      统计局不加区别,让人们误以为他的样本数据平均值,就是全国的总体数据。统计局过于乐观了。或者统计局感觉很难向领导解释清楚,为什么他们的住户调查数据可以统计一个低估的收入。只好硬着头皮公布咯!全世界,没人用家庭调查数据单独来推断国民经济核算中的居民总收入。在进行国民经济核算的时候,居民入户调查数据会成为进行某些判断和互相校准的辅助性工具。

      一句话,绝不可以将居民样本数据直接与国民收入里的居民总收入混同。
      全世界所有的居民调查数据,都面临着严重的收入低报现象。美国是,英国是,加拿大是,泰国是,中国当然也是。比如泰国的家庭收入减掉家庭支出,是个不小的负数。就是因为收入低报。加拿大的收入也不必指出高多少。中国的收入减掉支出大约相当于收入的20%.看起来很有道理。

       美国为了确保入户调查数据的准确(CEX数据),基本上很少问收入信息。人们很乐意报告自己的消费,中国的统计局要求调查户记录日记账来记录消费支出,因此更加可靠。一问收入,人家就紧张,就不愿意讲,就多了警惕和不信任。这样有可能连累吧消费的数据也填的不好。所以有的国家的住户调查数据有详细的指出数据,但是只有很粗略的收入数据。盖源于此。有经济学家甚至建议,为了准确获得关于人们消费的信息,家庭入户调查最好不要有关于收入的数据!

    统计局自今之后要改变现在的说法。居民平均收入,要用国民经济核算里居民收入的口径计算。另外再公布居民调查数据的样本平均数是几。二者有差距,又怎么样?骗人的人才把这两个数据填的一样呢。低报收入,乃人之天性。独裁者才会不服气,发狠曰,老子就不信你不如实汇报!文明社会的研究者可以根据有缺陷的数据,做出适当的研究结果。

     5 王小鲁所用的方法是这样。(我读了他的报告猜测的)。他将样本根据收入高低分成若干个组别,然后算出恩格尔系数。比如他的第一组,恩格尔系数是28%,而这一组的平均收入是14万。统计局的第一组,据王说,恩格尔系数也是28%,而其收入只有2.8万。根据相同收入应该有相同恩格尔系数,那么统计局的数据低估了,这一组的收入应该被看作是14万,而不是2.8万。

       a, 王在这里忘记了他在介绍里的谦虚。王的样本小,抽样性质不同于统计局,所以样本的分布也不同于统计局。那么做以上的换算,则不适合。

       b, 王的数据只有4000个,第一组400个数据,有几个奇大的值,哪怕这个数值是因为录入员点错了小数点,还是因为某个被调查户喝醉了吹牛皮,总之,这样的奇异点会很大影响这一组的平均值。也许去掉那一个1000万的数值,平均值一下子就减少了2万呢。当然,我没见过数据。我只是指出,小样本很容易受大的奇异数据的影响。

      c 作者描述如何运用恩格尔系数,看起来只是示意性的。根据附录1王的报告里的描述,我认为其做法有很大的技术性问题。至少这一段描述是不清楚的,或者说是错误的。

      d, 王将样本根据收入分成7个组。每个组的收入,统计局的样本都有低估。除了第一组,统计局的样本收入数据被低估了10-30%。这种指控,在合理界限内。第一组,收入低估了好几倍。这个数据你们相信吗?这个数据正说明了,第一组的结果可能是由于少数的奇异值造成!这样的话,忘得结论主要来自几个奇异值。再一次,他所用的方法,根据他的不清楚的描述,很有可能是不恰当的。
      
     e,居民面对统计局的调查员,尤其是富裕的家庭,倾向于低报自己的收入。可是,王小鲁的社会学方法是由亲朋好友去访问家庭,那么你说人们会多报还是少报收入,也许为了面子,多报呢。
     
    f, 统计局的消费数据是要求家庭每天几日记账得到的,调查员没两个星期去整理一次。王小鲁的就是由亲朋好友询问一下各种消费支出。是回忆性的。美国有研究表明,回忆性的回答消费开支,时间越远,遗漏越多。会严重低估消费。这是王的数据用来计算恩格尔系数的一个严重问题。 
  
   g,收入数据也不好计算。如果高收入家庭是挣工资,还好说。如果是从事工商业经营的,那么如何剔除经营成本,是件很挑战的事情,尤其对于那些家庭小生意而言。不信去访问几个这样的家庭验证一下。
     收入的定义,也很值得注意。你出售了一辆二手车,算不算收入?你出售了股票,怎么算收入?你把国债卖了,算不算收入?网友自己回答一下,就知道要统计出经济学上有意义的收入数据多么难!

结论:这么一个引起争议的研究,怎么就引起第一财经日报的记者喊出“入户调查数据,是否还有继续持续下去的必要性?”。统计局的入户调查数据,当然有必要性继续下去。因为他目的不是仅仅算出收入差距,算出人均收入。他最主要的目的是了解消费结构,了解生活成本。全世界没有一个国家指望居民入户调查来算出居民收入!

    还有,我的观点是住户数据要关心穷人。而不是关心富人有多少钱。也不是要关心富人的钱是穷人的多少倍。关心穷人,就搞清楚穷人的生活状态,并且制定政策给予帮助。

    正确的政策呼吁是,请全社会更多关注统计工作,请财政部拨更多钱,请统计局放松对民间进行统计调查活动的限制,请统计局更加开放微观数据给社会上的研究者,促进数据的利用。

    19世纪末山西发生巨大的饥荒。中国的史书,给皇帝的奏折,政府各部门的文件,对此的描述一律是“饿殍遍地”“赤地千里”“十室九空”“民不聊生”“易子而食”。他奶奶的。要得到那次饥荒死了多少人,结果需要从当时在华的传教士的日记或者他们写给教皇和各国政府的报告。教士们有初步的统计常识。所以我们大略可以推断出当时饥荒的严重程度。

    这种事情现在依然并不鲜见!有的人痛恨粮食涨价,他就希望你统计出粮食涨到天上去了。有的人痛恨房子涨价,他就希望你统计出泡沫来;有的人痛恨贪官强拆民房开发地产,他就希望你统计出GDP的质量历史最差;有的人痛恨美国,他就希望你统计出人民银行在美国的投资大亏;有的人痛恨收入分配,他就希望你统计出管他啥系数,越大越好。

    干嘛要统计啊?统计不也服从长官意志嘛。现在还要服从P民意志。既然民众们认为收入分配不公,还研究个P啊,直接就说“贫富悬殊”“朱门酒肉”“路有冻死骨”“富人广厦千间,穷人无立锥之地”。我们这样的词汇和智慧,有5000年的积累。愚夫愚妇们传唱很久了。

    请头脑还清醒的人,热爱和尊重统计事业,那是使得我们看清事情的最主要助力。不要再让统计局灰头土脸了。跟别的政府部门比,统计局实在该受嘉奖!

(本文的各种质疑,都只是建立在经验基础上,而不是严格研究的证据基础上。这样批评一份学术报告,显得比较粗鲁,在此表示歉意。请将本文理解为一种观点式的批评。)
   王小鲁错在哪里?我为统计局辩 - 陈玉宇 - 陈玉宇的博客
 
附录1:作者对2005 和2006 两个年份的调查数据(分别为2004 年全年和2005 年全年居民收
入和消费数据)进行了合并。为了使数据具有可比性,对2005 年样本的收入和消费数据根
据城镇居民消费价格指数进行了调整,转换为2006 年不变价格数据。对合并后的调查样本
按居民家庭人均可支配收入进行排序,然后根据恩格尔系数进行分组匹配,形成了7 个参
照组,分别对应于国家统计局城镇居民住户调查样本的最高收入组(占城镇居民家庭总数
的10%)、高收入组(占10%)、中上收入组(20%)、中等收入组(20%)、中下收入组(20%)、
低收入组(10%)和最低收入组(10%)。通过匹配,使每个参照组的平均恩格尔系数与统
计局各样本组(以下称之为“对象组”)的恩格尔系数两两相等。根据“在相同经济背景下
8
具有相同恩格尔系数的两组居民,应当具有大体相同的收入水平”这一判断,将具有同等
恩格尔系数的参照组和对象组的人均收入和消费数据进行比较,取得了如下初步结果(见
表3):

附录2:
      1,为什么需要有家庭消费和收入调查(又叫居民入户调查)?
       国家统计局有两个部门负责居民入户调查,一个是农村调查司,另一个是城市调查司。这两个司局在业务上指导城市调查大队和农村调查大队完成有关城市居民和农村居民的调查。两个调查大队据说数万人甚至数十万人。
      根据STIGLER的文章,历史上最早做住户调查的人是DAVIES 在1795年所作。彼时是乾隆60年,十全老人退位,嘉庆即位。那时候的英格兰的工业革命之花正在怒放。DAVIES做居民入户调查的目的“在于了解工人阶级的生活状况”。所以住户调查搜集了大量消费开支的信息,买了几棵菜,几两油,几斤肉,几件衣,做马车花费几许,燃料几许,如此等等。其目的很清楚,这些研究者特别关注穷人的生存状况,DAVIES也是最低工资的积极鼓吹者。
     大名鼎鼎的ENGLE恩格尔,在1855年利用比利时200户居民数据,发明了恩格尔曲线(恩格尔系数)的工具,成为经济学最近得起时间考验的概念。恩格尔系数,通常指的是食品支出占总消费支出的比重。不严格的,是食品支出占总收入的比重。基本规律是,随着收入上升,人们花在食品支出上的份额越来越低。比如2008年城市居民恩格尔系数为37%,农村为44%。
    本质上居民住户调查特别关心穷人,关心人们的生活水平,也就是各种消费水平。
   2,现代住户调查的状况如何?
      现代意义上的居民入户调查发端于二战后。印度的经济学家和统计学家的领导下,1950年开始了著名的印度全国样本户调查。这个调查着重于消费信息的采集。
     随后发达国家陆续引入居民住户调查。
     发展中国家也在积极进行。中国1956年就开始了类似调查。
    美国的1980年代之前,居民住户调查做的不太经常。英国的居民住户调查比较完整质量比较高。所以用英国的住户调查数据做出来的各种经济学研究比较多,其中大为有名的是angus deaton, rechard blundell等人。rechard上个星期刚在北大光华参加了两天会议。
    3,住户调查数据主要用来做啥?
     住户调查数据主要用来分析人们的消费模式,从而来理解人们的生活水准和状况。一般而言人们比较关心穷人或者低收入者的消费状况和生活水准。比如制定贫困线,需要类似指标。
     住户调查数据因为有上千种消费数据,可以准确知道人们的消费权重,从而计算CPI。
      住户调查数据可以进行收入分配的研究,如果收入数据可靠
      住户调查数据可以用来估计和评价各种社会经济政策对民众的影响,这是其最大的用处。这取决于该数据的广泛使用。泰国有法律规定,这些用公帑手机的数据必须对大众开放。
    
      
    
     

      
       
  评论这张
 
阅读(2567)| 评论(15)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017