| 谢益辉:关于统计推断的一些惴惴不安 | |||||||
| 作者:谢益辉 | 发布时间:07-06-18 | 浏览次数:6527 | [大 中 小] | ||||
上个月和一位朋友吃饭,席间谈到统计推断,他就问我,“你们统计就怎么能知道未知的东西呢?或者你们怎么能确定一件事情发生的概率为百分之多少呢?” 这位朋友来自一家基金公司,比我大十岁,毕业于北京一所著名大学,计算机专业出身,但现在对统计也有很强烈的兴趣,觉得统计很神奇。他提的这个问题,在外专业的人看起来是很正常的一个质疑,而作为学统计的人来说,恐怕都没怎么认真想过,主要原因就是我们的教科书大多都是从分布和统计量讲起,而不是从实例中开始的——有了正态分布,我们便拿着各式各样的统计量打天下(这话不太严谨),而不再考虑从数学到现实生活的更细致的“映射”。 其实,在吃饭之前我和他见面时我就和他开了个玩笑:当时我从明德楼这边步行到东门,出发时发短信告诉他我需要8分半钟到达让他稍等(我很少让人稍等5分钟或10分钟或15分钟这样的“整数”时间),他给我回了一句,“置信区间是多少?”那时我已经走到中区水穿石咖啡厅了,时间已经过了大约6分钟,我有把握2分钟走到东门,于是回复“95%置信区间为7分半到9分钟”。后来确实也就用了不到8分钟走到了。 当然,这则小故事在统计上来说,仅仅是玩笑话,我也没有什么统计量,没有分布,置信区间也是随口乱说的。若我真要得到我到达东门的时间分布,那我得一遍遍从西门走到东门,当走的遍数无穷大时,我就可以用经验分布逼近真实分布了(从而真正得到一个统计意义上的置信区间),而那时,我恐怕已经累死在校园里了。 为什么这篇文章的标题要突出“惴惴不安”?其实也是自己平时对统计学一些方法反思的“恶果”,有时候想想,甚至觉得学统计的人都该冷汗直冒、背脊发凉,即使是统计史上的名家、大家、祖师爷的贡献,仔细想想也仍然觉得甚为不安。 我们先看最简单的一个例子:t检验。我想只要是个学统计的必然都知道这个检验,它是用来检验位置参数的,比如单个样本的均值是否为0,两样本的均值是否无差异,等等。我们也都知道这个线索:t检验需要t统计量,而t统计量的来历是独立的正态随机变量与卡方随机变量平方根之商(卡方要除以自己的自由度),实际应用中,这里的分母往往就是样本标准差。在t分布被Gosset发表之前,人们往往只能用总体标准差作为分布构造标准正态随机变量来做检验和估计,Gosset的t分布伟大贡献在于,我们可以用可知的样本标准差替换不可知的总体标准差而且构造t统计量,这下就让人放心多了,因为我们总是畏惧未知的总体(或者未知的参数),而且在小样本情况下更为畏惧——样本量太少我们就更不敢对总体标准差作出估计。 Gosset的确帮助我们解决了个大麻烦,然而t检验仍然要假设总体服从正态分布,这个麻烦可不好解决。可能马上就会有人说,分布也是可以检验的啊。没错,是可以检验,比如著名的KS检验;问题就在于,统计分布检验的备择假设太大,我们做假设检验只能有把握得出“样本不服从某种分布”,而不能说“根据检验,样本服从某种分布”:因为犯第一类错误的概率可以控制,而第二类错误的概率只有鬼才知道(不干鬼的事,鬼也许也不知道)。 第二个例子我想稍微说一点关于抽样调查中的统计推断,这里面的统计推断往往比较简单,大致原理就是用样本均值估计总体均值,样本方差估计总体方差,为什么能这样呢?因为这些估计量往往都是无偏估计,不妨仔细想想“无偏”的意思:期望等于真值;注意不是估计量等于真值,那期望是什么意思呢?通俗来讲,期望就是一个随机变量按照它的分布不停地变变变,变了无数次之后我们看它在“平均”意义下取值为多少,当然抽样工作不可能一遍一遍无穷做下去,我们一般仅有一次抽样,得到的估计量也就只有一个值,这一个孤零零的估计值,到底离真实值有多远?只能再去问问鬼。此时可能又有人会说,我们不是还有方差吗?不是可以做置信区间的估计吗?没错,书上都是这么写的。方差有什么用呢?书上说了,方差是度量离散程度的,试着想一下,告诉你一个随机变量均值为100,方差为1000,你能想出所谓的“离散程度”是怎样的吗?恐怕也难以想象,所以除非方差为零,否则我一向觉得它在描述统计中并没多大实际意义(它的确是刻画离散程度的,但怎样叫大怎样叫小?没有标准)。再看置信区间,要谈置信区间一般也就不可避免要用到分布,于是假设条件又来了,一方面是总体独立同分布,另一方面样本量足够大,这样才能根据中心极限定理构造正态分布随机变量。显然,两个问题来了:抽样能保证独立同分布吗?怎样的样本量才算作大?又是不好回答的问题。例如分层和整群抽样,很能让人怀疑样本的独立性;而大样本的问题,从数理统计角度(中心极限定理)来看,必须是样本量趋于无穷,显然这是不可能的,若样本量趋于无穷了,那我们还抽什么样? 我曾看过的抽样类教科书中对于中心极限定理究竟是如何连接数理统计和抽样这个问题都描述得非常模糊,甚至只字不提,直接就用了正态分布作推断。我对这个问题也是想了很久才基本上搞明白,此前被教科书上的一个颇具误导性的例子牵着鼻子走错了路,因此一直迷惑不解。统计的书上经常用抛硬币或掷色子作为例子,比如一本抽样技术书上就用两次掷色子求均值作为抽样的例子,说明抽样均值的“正态性”。其实这样的例子只能说明抽样均值服从某种对称分布,即使这种结论也是在特定环境下得出的:因为总体分布是对称的。2个样本点肯定是很少的,但结果看起来确实像正态分布,究竟是怎么回事呢? 图 1抽样均值的分布为正态分布?(略,详见附件) 实际上,若先不追究中心极限定理,我们可以简单做一个模拟来说明问题。比如下面的代码是从自由度为4的卡方分布随机数中抽取样本量为2的样本点,求均值并作密度曲线图,如图1,上面是总体分布,下面是抽样均值的分布,其中虚线为按照样本计算估计的正态分布密度曲线。显然从一个非对称分布中抽取小样本得到的均值也是非对称的,那么就更不会是正态分布了。
抽样均值在样本量充分大的时候才会趋近正态分布,在上面的模拟中我们只需要把样本量增大一些(第7行),比如改成30或50,结果就和正态分布比较接近了。关于抽样均值的极限分布证明也不太困难,不妨参见茆诗松、王静龙等编著的《高等数理统计》。总之,数理统计中的“大样本”在抽样中指的就是样本量要大,而不是某些书上模糊提到的 要大(尽管听起来还挺有道理)。 最后再谈一点感受,就是上研究生之后通过对数据挖掘和机器学习方法的反思回头再看以往长期学习的经典统计方法,有时也是背脊发凉。原因在于两种建模思想的碰撞:数据建模和算法建模。众所周知,传统统计方法基本上都是基于某种特定的模型去做拟合,然后根据分布构造一系列的统计量作估计和检验,这就是数据建模的思路;而算法建模则是数据挖掘和机器学习的明显特征,我们并不关心自变量和因变量在模型的“黑箱子”中发生了什么,我们只关心在黑箱子中走了一遍之后“产出”是否正确,或者换句话说,预测的正确率如何,在数据挖掘和机器学习的领域中(尤其是后者),我们很少听闻“统计量”或是“估计”、“检验”之类的经典统计学术语,我们追求好的算法,让这种(些)算法既能很好拟合数据,又不失一般性或推广性。 2001年Leo Breiman在Statistical Science上的一篇文章"Statistical Modeling: The Two Cultures"同样让我读得冷汗直冒,因为算法建模的优势不可否认——我们可以说它是实用主义的或者功利的。评判模型的好坏,除了“拟合得好”和“具有好的推广性”两个原则还有什么呢?想想似乎确实没有了。那么我们费了那么多精力、研究了那么多年的经典统计学就要被机器学习打败了?听起来的确是一件令人惶恐的事情。 后来,也渐渐想明白了。统计也并不是那么功利的学科,固然拟合和预测都是很重要的,但还有一方面,就是解释变量之间的关系(回归、多元、时序等),它同样也是统计学一向重视的,这一点也导致统计学能在各个学科中广泛应用,而这恰恰是机器学习几乎完全忽略的。看样子天下又可以太平了,然而…… Leo Breiman在那篇文章中批评的一点都不错:“你怎么知道模型就是这个样子的?”(第三次跑去问鬼吧)关于这一点,我个人所观察到的一些国内统计应用情况是,作者们普遍只使用一种模型来得出结论,而缺乏多种对比,尤其是现在热得不得了的结构方程模型(为什么A影响B却不影响C),若用Leo的问题质问起来,恐怕很多文章都得倒下去。 其实,关于统计模型的这种质疑,也不是机器学习出现后才开始有的,以前看Gujarati的"Basic Econometrics"一书,曾经读到一段很有意思的话:
经济学家们“在一间黑屋子里找一只本不存在的黑色的猫”,而计量经济学家往往会宣称他们找到了一只这样的猫。听起来很可笑,但从某种意义上来讲,我们何尝不是在做这样的事情? 如此种种惴惴不安,迫使我并不急于追求新奇的模型方法,而是在统计与现实的对应(或者说“映射”)上下功夫,我要弄清楚的是,究竟我们有多大把握使用统计模型,以及数学公式究竟是什么意思? 无论如何,统计的任务,并不是拿着模型去忽悠别人,虽然目前看来,忽悠还是比较容易的。脑子里有一些惴惴不安,才能促进我们对问题更深刻的理解。谁说“君子坦荡荡,小人常戚戚”的? 下载全文: 谢益辉:关于统计推断的一些惴惴不安>>> |
|||||||
|
|
|||||||
| 相关附件:无 | |||||||
| 相关文章[统计思想]:无 | |||||||
| 下一篇:无[已到最后一篇] | |||||||
| 上一篇:[07-06-14] 杨洋:AMOS跨组比较操作 | |||||||
| 相关评论: |
|||||||
| 添加评论: | |||||||
