百科

自选择偏差

问题来源

在微观计量经济学中最常见的问题之一是样本选择问题。在一般的统计或计量经济学研究中,用于估计所研究系统的参数的数据依赖于从总体中抽取的样本。如果所抽取的样本是随机的,即以类似“抽签”的方式获得的样本,根据这些样本数据所估计的各种参数能够准确反映总体的相关特性,理论上,就是所估计的参数是无偏的和一致的。而且随着抽取的样本越大,其对事件的总体特征分布的描述越是会准确。

但是,如果所抽取的样本不是随机的,那么无论其选择的样本容量有多大,则根据这些样本数据所估计的参数就不能准确反映所研究的总体性质的分布。但是,在不同的事件的研究中,大多数抽样都不是随机的,因为事件的总体总是会相当庞大,甚至是没有边界的。因此,多数的抽样只能是在研究者所选择的界定范围和规则内进行,这就可能出现抽样选择的偏差,或是未把相关联的变量放入抽样,或是把不相干的变量放入抽样中。

例如,研究一个地区,劳动妇女的工资状况。这个地区的所有适龄妇女(包括就业与非就业妇女)构成研究的总体。在研究中,一般不可能获得所有这些妇女的资料,而只能得到一部分就业妇女的相关资料。这部分提供资料的被调查妇女就构成研究的样本。

现在,研究的目的是通过样本中被调查妇女提供的劳动数据分析所有适龄妇女(总体)如果就业时她们工资水平的一些决定因素。所调查的妇女可以是随机地从总体中抽取的,但只有就业妇女能够提供有关她们工资水平的资料,所以只能研究就业妇女的样本数据。可以把就业与不就业看做个人的一种决策,妇女的这个决策如果不依赖于所要研究的劳动工资的决定因素,那么,即使所研究的只是已就业妇女的资料,我们也可以把所抽取的样本看做随机的。因为,理论上说,决定妇女就业不就业的因素是外生的,它不影响所要研究的问题。

但是,妇女选择就业与不就业往往不是外生的,而部分的是由所研究的问题决定的。例如,工资水平的高低,工作环境的好坏显然会影响妇女的就业选择。这样,以就业妇女作为研究样本就不再是随机的,而是部分地由所研究问题的某些因素所决定,也就是说,所研究的某些问题影响了样本的选取。如果按照传统的方法,通过这种样本所估计的参数就不能很好反映总体的性质,它们会有所偏差。另一方面,如果决定妇女就业与不就业选择的因素或信息可以通过调查获得的话,在传统的分析方法中增加相关的变量就可以解决样本的选择偏差问题。当这些信息无法获得时传统方法就难以处理。赫克曼所发明的方法可以简单和方便地处理这个问题。由于导致统计推断产生偏差的样本的非随机性是由所研究的对象(在这里是妇女)的个人决策造成的,这个问题也叫自选择问题。样本选择偏差还可能来自研究人员的某些决定或数据处理过程。

问题解决

“赫克曼两阶段模型”或赫氏法就是解决这种选择的偏差和自选择的问题。

可以说,在社会科学的各种研究中,选择偏差与自选择问题是最平常的,也是不可避免的。因为在大多数社会科学的经验研究中,所获得的样本数据很难保证它们的随机性。我们可以以赫克曼最早研究的劳动妇女工资的决定为例对此给以说明。
19世纪70年代中期赫克曼在对美国劳动供给进行研究的过程中遇到了选择性样本问题,这些问题促使他提出了所谓赫克曼修正法(或两阶段法,赫氏法,Heckitmethod)。这个方法简单适用,不仅在微观计量经济学,在其他社会科学的经验研究中得到了广泛的应用。
在经济学领域,赫克曼方法著名的应用包括李氏1978年所做关于加入工会对工人相对工资影响的研究。这个问题涉及自我选择,因为工人加不加入工会是一个选择性的决定,而不是任意的。决定工人加不加入工会的因素很多,其中有些是不可观察到的。另一项著名应用是魏里斯和罗森进行的关于教育如何提高工资收入的研究,接不接受教育同样是一个自我选择问题。

上一篇:OSC指标
下一篇:狼性文化