第二部分 管理学的研究方法
第5章 实证研究的设计与评价
樊景立
香港科技大学
梁建
上海交通大学
陈志俊
上海财经大学
引言
本章主要讨论实证研究中的研究设计。概括来说,研究设计(research design)是对研究项目结构和过程进行的整体安排。一般来说,研究问题的性质大体决定了研究设计的方向,但研究设计有时也可以作为一项实证研究的起点:通过对文献的阅读和总结,研究者可以发现已有文献中存在的问题和不足,找出弥补这些缺陷的方法。以此为基础,进而提出研究问题,设计相应的实证研究。通过研究设计,研究者将一项研究的多个成分有机地结合在一起,包括回顾文献、提出问题、搜集数据、分析数据、得出结论。因此,研究设计是研究项目的一个核心环节。
好的研究设计可以将研究涉及的变量纳入一个清晰连贯的体系,以此回答研究者提出的问题(Daft,1983)。严谨的设计为研究结论的可靠性提供了保证。很多文章正是因为研究设计的不当而降低了研究的质量。Daft(1995)曾经回顾了自己在AMJ、ASQ担任审稿人期间的经历。他认为在最后被拒绝发表的文章中,大约有20%是因为研究设计不当。同样,Grunow(1995)考察了303篇用英语或德语发表的实证研究,认为只有19.9%的文章回答了它们起初提出的研究问题,而其余的文章似乎在提出研究问题后就“迷失”了,它们的缺陷集中体现在研究的各部分之间缺乏有效的连接,研究结论无法有效地回答研究问题。不难看出,逻辑严密的研究设计是完成一项高质量研究的必要条件。
概括来说,研究设计的核心在于我们完成一项研究时,总体逻辑是否清楚,构成研究项目的各部分之间的联系是否清晰(Royer & Zarlowski,2001)。在本书随后的章节中,读者将陆续学习到实验研究方法(第6章)、准实验研究(第7章)、实地研究中的问卷调查(第8章)、二手数据分析(第9章)和质化研究(第10、11章)。这五种研究方法从研究设计的角度并没有优劣之分。对于研究者来说,设计研究时需要做的就是为特定的研究问题选择最恰当、最经济的研究方法。本章着重于阐述实证研究的一般过程,介绍研究设计的目的和常用的研究类型,讨论评价实证研究优劣的效度指标,以及分析研究设计时需要控制的因素。
5.1 实证研究的本质
5.1.1 社会科学中的实证主义取向
自20世纪50年代以来,实证主义(positivism)的思想一直在社会科学中占有举足轻重的地位。受到自然科学的启示,实证主义传统一直强调客观现象与抽象理论之间的双向依赖关系(Comte,1988)。根据实证主义的研究范式,任何社会科学理论的建立都必须基于所观察到的事实。同样,如果没有相关理论的指导,我们对现象的观察极有可能是杂乱的、毫无成效的。实证主义者认为研究者的责任是客观地观察已经存在的各种社会现象,并最终通过数量化的表达方式说明社会现象的运行规律。
实证主义传统认为客观规律和事实(fact)是现实存在的,因此我们可以通过科学的测量,实现对研究对象的数量化表达,以此来观察、解释、预测变量间的因果关系。但是这一假设受到了近代怀疑主义者的尖锐质疑。如Mackie(1977)认为任何社会科学研究都带有强烈的主观感情色彩,所有的价值判断都是人们普遍的主观意愿反映在社会生活中,最终形成了社会规范。因此,社会科学中所谓的真理和知识都是主观建构的,世界上并不存在普遍适用的价值体系。由于并不存在一个客观世界以及研究者本身不可避免的主观色彩,因此我们无法真正客观地描述世界。因此,怀疑主义者认为所有对社会现象的认知和研究都是错误的。
针对这一批评,以Dewey为代表的自然经验主义(natural empiricism)哲学家重新修订了实证主义的认识论体系(Boyles,2006)。Dewey认为所谓的知识只是研究的终端,人类对于知识的掌握是需要时间的,拥有了知识代表着我们研究的终结。相对于知识本身,我们更应该关心知识获取的过程是否可靠和严谨。我们在研究中得出的结论更应该被理解为“有根据的论断”(warranted assertion)。我们对现象界的每一点解释都需要有证据的支持,都需要经得起同行的检验,这应该是知识积累过程中的一个重要的特征。同时,由于我们对社会现象的感知(perceiving)和认知(knowing)都是发生在一个大的“情境”中,无法穷尽真理的各种情况,因此,Popper(1977)提出研究中假设检验的过程只是一种证伪(falsification)的过程。在一项研究中,我们得到支持假设的证据只是认识世界、获得知识过程中很微小的一步,它只能说明否认变量间的因果关系是错误的。作为对一个复杂社会系统的检验,我们得到的证据还远远不能证实变量间必然地存在因果联系。由于我们无法在一项研究中控制所有潜在的外生变量、调查所有可能的样本,所以一个理论假设在实证研究中只能是得到支持(或暂时得到接受),而不能得到证明(proof)。
与这一认识论思想相吻合,现代管理学的实证研究大多是从实验或问卷调查中得到数据,然后在统计分析的基础上得出研究结论。在实证研究中,我们强调得出研究结论的可靠性,即推论变量间的因果关系时,我们需要消除其他可能的各种替代假设(alternative explanation),同时有效地控制其他无关的但可能会影响因变量和自变量关系的外生变量(extraneous variables)。正是因为实证研究对结论可靠性的强调以及推论因果关系的复杂性,我们在研究中需要强调整体设计的角色。一般而言,实证主义倡导的研究方法大多是用于检验预先建立的研究假设或命题,如果得到的数据分析结果与研究假设的预期一致,就认为假设是可以接受的;一旦发现了与假设判断相反的结果,就有理由拒绝研究假设。在实证研究传统中,我们的知识是在不断质疑、不断更新中进步的。
5.1.2 实证研究的一般过程
基于实证主义思想的影响,科学研究的主要目标在于探讨变量间的因果关系。最简单的实证研究过程可以用图1的模型表述。在图1中,线a代表两个抽象构念X和Y之间的理论关系。我们需要检验的研究假设是变量X和Y之间是否存在因果关系。但由于在现实世界中,我们无法直接观察这些抽象的构念(X和Y),所以首先需要将它们操作化为我们可以测量的变量(即图1中的x与y)。图1中线b1、b2代表操作化历程。通过将抽象的构念转化为可以测量的操作指标,我们就将一个研究假设转换为可以进行实证研究的具体问题。然后,我们搜集资料并运用合适的统计方法来验证测量变量x与y间是否存在统计显著的关系(如线d所示)。如果没有发现统计显著的联系,就拒绝研究假设并接受零假设(null hypothesis),推断在构念X和Y之间不存在因果关系。若经过统计检验,我们发现x与y之间存在显著关系,但在推断X与Y之间存在因果关系前,需要剔除各种可能导致x与y之间显著性关系的替代解释。经过详细的逻辑思考及检验之后,如果我们推断测量变量x与y之间确实存在显著性因果关系(如线c所示),我们就可以接受研究假设,推断构念X与Y之间可能存在因果关系。最后,我们需要考虑研究的样本及所处的特定时空(包括时间、空间、研究参与者等情境因素)对所获得的研究结论的影响,推论研究结论是否在其他情境下也能成立。这就是实证研究的一般过程。
图1 实证研究的一般过程
资料来源:Schwab,1999。
通过上面的描述可以发现,实证研究是一个复杂的推理过程。它需要研究者事先对研究的问题、测量的操作步骤、统计分析的方法以及研究样本的代表性进行详细的计划。由此得出的研究结论才能够经得起考验,我们所进行的研究才能被接受为是高质量的学术研究。
5.1.3 实证研究中的数据搜集
如上节所述,数据资料的采集是实证研究区别于以往研究范式的一个重要标志。一般而言,研究者的数据有三种来源:首先,研究者将外界可直接观察的事件作为数据的来源,在不需要任何辅助工具的情况下,将外界信息转化为数字。在宏观战略管理领域,我们对企业行为的数据搜集大多依赖于这种方式,如利用ROA和ROE测量企业绩效等。在微观组织行为学研究中,也不乏这类测量方式。如Oldham和Cummings(1996)把员工获得专利或申请专利的数目作为测量他们创造力的指标;Greenberg(2002)用被试在实验中偷钱的数目来测量他们遇到不公正待遇时的行为反应。其次,在研究者面对无法直接观察的对象(如员工的态度、动机等)时,需要借助测量工具,如通过员工填写量表实现对其态度的数字化描述。最后,我们可以将测量工具用于他人可以观察的行为,如请上司评价部属的工作业绩和行为、实验员对被试行为进行记录等。通过这三种数据的搜集方式,我们可以实现客观世界和抽象构念在实证研究中的一一对应。以上提到的三种数据来源可以用图2的形式加以表示。
图2 实证研究中数据的来源
资料来源:Baumard & Ibert,2001。
需要指出的是,虽然实证主义者致力于对外部世界进行客观的描述,但是研究所依据的数据往往是带有主观色彩的。在上面列出的三种数据搜集方式中,第一种方式看似客观,但这些客观指标很难完整地测量我们的理论构念。比如,用ROA和ROE测量企业绩效时,我们很难从结果中判断企业的长久竞争绩效。而在实际操作中,研究者往往会从众多可供选择的指标中选择最能与研究变量契合的指标。对后两种方法而言,研究者面临的测量误差来源就更多。例如,同一部门的两名员工描述企业工资改革政策,或在评价另一名同事的组织公民行为(organizational citizenship behavior, OCB)时,双方提供的信息可能会有很大的差异。也就是说,就他们共同经历的事件,我们可能得到两组非常不同的数据。造成这个结果的原因大致有两种:双方在工资改革或与另一名同事交往中的经历不一样,双方在将事件“翻译”成我们需要的数据时出现了差异。
从实证研究的本质以及研究过程来看,影响一个人如何解释外部事件的因素有很多,我们根本无法在一项实证研究中有效囊括所有可能的变量。而我们的研究对象往往又是不可直接观测的,只能通过间接方式搜集资料,对变量进行数量化操作。当我们使用本身带有误差的测量工具去研究一个复杂的社会系统时,这样的实证研究面临着相当大的挑战。为了在管理学研究中实现对外部世界客观、准确的描述和判断,我们就需要格外强调我们的研究设计,使我们的研究过程得到很好的控制,针对变量间的因果关系得到清晰的结论,最后有效地回答我们的研究问题。
5.2 研究设计在实证研究中所扮演的角色
5.2.1 研究设计的目的与过程
研究设计是整个研究过程的执行计划。一般而言,研究设计的基本目的有三:(1)有效地回答研究问题。在实证研究中,研究问题通常是以研究假设的形式出现的,研究设计的目的就是要通过数量化的分析,为假设中涉及的构念间关系提供有效的检验,从而判断研究者的理论预期是否得到了观察数据的支持。(2)满足实证研究效度的要求。研究设计使我们可以合理地安排研究过程,提高研究质量。研究结论的可靠性依赖于它得出的方式和方法。通过严谨的研究设计,我们可以确保对理论构念的操作化质量,根据数据类型选择正确的统计方法,最大限度地剔除各种替代解释对因果结论的影响,通过合理选择样本提高研究的外部适用性,从而最终保证研究结论的可靠性。(3)控制研究中涉及的各种变异量。通过研究设计,我们可以根据研究问题和所需数据的类型选择合适的研究方法,从而有效地控制造成因变量发生变化的各种变异量,如系统变异(systematic variance)、外生变异(extraneous variance)和误差变异(error variance)。通过控制可能影响因变量变异的各种因素,提高研究结论的严谨性与可信度。
研究设计是一个研究项目的整体蓝图,Royer和Zarlowski(2001)曾经用图形表述了研究设计的一般过程(见图3)。由图3可见,在对一项研究进行整体设计时,研究者一般要进行七个步骤的思考,包括确定研究主题,通过文献回顾和探索性访谈发展研究假设,确定抽样方法、测量(操作化)手段,以及这些因素对统计分析的影响等。研究者在搜集资料前必须认真考虑这些因素,才能有效地回答研究问题,保证研究的质量。
图3 研究设计的过程
资料来源:Royer & Zarlowski,2001。
在图3中,我们需要特别指出的是研究设计是一个不断循环、不断重复的动态过程,而不是一成不变、一劳永逸的静态过程。在执行作为整体规划的研究设计时,不仅可能会因为当初的研究构想不够周全而变得难以继续,需要做出调整;而且可能需要随着研究者对现象了解的深入而改变。最近搜集的数据、同事的评论、刚读到的文献或者新的搜集数据的机会都有可能使研究者的兴趣发生变化,从而改变原来的研究设计。Meyer(1982)的研究就是这样的一个例子。他起初以三藩市(San Francisco)的医院为样本,探讨医院的环境、营销策略、组织结构和组织过程之间的关系。但在研究期间,当地的保险公司突然中止了与大约4000名医生的合同,要求这些医生重新以个人名义与公司签订新合同,而保费则提高为原来的384%。这件事引发了大规模的医生罢工。整个罢工持续了将近一个月,为医院的工作带来极大的影响。Meyer迅速意识到这是一个研究组织适应的绝佳机会,于是改变了自己的研究计划,重新设计了一个准实验来进行自己的研究,最后完成了一篇出色的博士论文。
在这个例子中,Meyer根据研究情境的变化,推翻了原有的研究设计,重新确定了研究主题,及时调整了所采用的研究方法。这种调整反映了Meyer对研究现象的敏感和对研究问题的深刻理解。Meyer的例子可能只是一个特例。我们在日常的研究中一般不大可能完全推翻自己的研究计划。但这一例子提醒我们,在执行计划中研究者需要始终保持对研究问题和研究情境的敏感性。通过及时修改研究计划,确保研究问题和研究情境之间良好的匹配是完成一项高质量的实证研究、有效揭示管理现象的必要条件之一(关于情境化研究的论述,请参见本书第12章)。
5.2.2 研究方法的选择
在确定研究计划时,我们需要根据问题的性质选择合适的研究方法,从而有效地完成数据的采集。在本书中,我们将依次讨论五种主要的研究方法:实验法、准实验设计、问卷调查、二手数据和质性研究。作为数据搜集的方式,这五种研究方法没有优劣之分,我们需要根据自己对研究问题的理解进行选择。在实验法中,自变量主要由研究者控制或操纵。在进行实验时,研究者将被试随机分配到代表自变量不同程度的各个实验组和控制组内,并观察这种操纵对因变量变异量的影响。同时,通过控制各种情境因素,研究者得以清晰地观察假设的因果关系,确保研究结论的可靠性。所以当研究者主要关心变量之间的因果关系、需要剔除各种替代解释对研究结论的影响时,实验法是最好的选择。
但有时由于客观条件和资源的限制,研究者无法将被试随机分配到实验组和控制组中。这时研究者可选择使用准实验设计,仍可在一定程度上保证研究的效度。与实验法不同,研究者在准实验设计中没有对被试采用随机分配的方法,而是在自然场合下进行观察。由于研究者没有对被试与周围情境的接触实施控制,自变量容易受到外部情境的影响。所以相对于实验法,准实验设计的缺点在于不能用随机分配消除混淆变量和替代解释,内部效度略低,但准实验设计对研究条件要求较低,可以做到灵活多变,而且所得的结论适用范围较广。
研究者经常使用的第三种方法是问卷调查。问卷调查的特点是快速、有效、廉价。由于它对被调查者的干扰比较小,所以容易得到企业与员工的支持。但由于无法对被调查者进行实验处理,研究者需要较大规模的样本才能保证自变量有足够的变异量。为了提高问卷调查的研究效度,我们可以根据研究问题在调查中加入其他相关变量的测量,在进行统计分析时,将这些变量纳入作为控制变量,以此来剔除替代解释对自变量和因变量因果关系的干扰。
在以上三种研究类型中,研究者和被试/被调查者都会发生直接联系,由他们直接向研究者提供资料数据,服务于某个研究问题。但如果无法通过直接方式获得数据,我们可以搜集和分析二手数据。与准实验设计和问卷调查相同,二手数据的直接来源不受研究者控制,因此研究者不能对研究对象进行随机分配。为了控制各种混淆变量,研究者需要对它们进行测量编码(coding),纳入统计模型,以实现对这些变量的控制,提高研究效度。相对于前三种研究方式,二手数据的客观性和可重复性比较高。如果研究对象不是个体而是企业、地区、国家,或者研究项目需要较大规模的样本,以及研究问题的时间跨度比较长,可以尝试使用二手资料数据。
最后一种研究类型是质性研究。与前四种定量的研究方法不同,质性研究需要研究者与研究对象进行较为深入的接触。研究过程可能产生的干扰使得我们不太容易获得企业或员工的支持。所以质性研究的样本量普遍较小,而且经常通过方便抽样(convenience sampling)的方式获得。同时由于数据的来源不受研究者的控制,往往很难就研究结论进行重复验证。由于对研究过程的控制程度较低,质性研究对变量间因果关系的推论不容易严谨。但是它可以就所研究的现象提供丰富的描述(thick description)。一般而言,它既可以作为数据来源方式,也可以作为其他研究手段的补充,并可以成为孕育新理论、新概念的摇篮。
就像我们强调的那样,各种研究方法本身并没有优劣之分。对研究类型的选择取决于研究问题的性质和研究者对结果的预期。在研究设计阶段,很多初学者容易过多地关注研究方法和数据分析的复杂性,而相对忽视了研究方法与研究问题的匹配程度。经常有人误认为研究方法的复杂程度代表了文章的质量高低,因而追求“时髦的研究方法”,这种理解其实是不正确的。过于烦琐的研究方法并不能代替研究者对研究现象本身清楚的界定和说明。研究者应该在分析自己研究问题的基础上,选择与研究问题最为匹配的、自己最为擅长的方法。因此,在选择研究方法时,建议读者思考以下几个问题(Royer & Zarlowski,2001):
·这种方法适合回答我的研究问题吗?
·这种方法可以带来预期的研究结果吗?
·使用这种方法需要哪些条件?
·这种方法自身有哪些局限?
·还有哪种方法适合现在的研究问题吗?
·现在选择的方法优于其他方法吗?如果是,为什么?
·在使用这种方法时,我需要掌握哪些技能?
·我现在掌握这些技能了吗?如果没有,我可以学到这些技能吗?
·我是否需要其他的方法来提高对研究现象的观察?
5.2.3 研究问题与研究方法的匹配
在分别了解了研究设计的目的和方法之后,我们进一步通过实例讨论如何将两者相结合。为了保证研究的效度,提高研究的效率和质量,我们需要根据研究问题进行研究设计,选择与问题相匹配的研究方法。如果无视问题的性质而随意选取研究方法,往往会导致研究设计的差错。例如,研究设计中经常需要考虑如何选择验证假设的层次(如个体、团队、公司、行业层次等),我们需要针对研究问题,仔细设计研究方案。如果脱离了研究问题,我们的实证研究可能发生研究层次的错位,影响研究质量。下面我们通过一个实例来了解研究设计和研究问题之间的关系。
对企业来讲,业绩起伏是家常便饭,成功与失败往往交替出现。失败是成功之母,企业可以总结失败的教训,但成功的经历会带给企业什么呢?Audia, Locke和Smith(2000)认为企业过去的成功会导致对以往战略的坚持,而这种坚持对于公司今后的发展却是把双刃剑:当外部环境稳定时,坚持以往战略有助于降低运营风险、充分挖掘企业能力;而当外部环境动荡时,坚持以往战略却会使得企业难以重新进行战略定位,进而延滞企业变革的速度。为了检验这一命题,Audia等人回顾了相关的文献,发现对这个问题的研究可以分为两类:一类研究关注成功经历如何影响企业对于现行战略的坚持;另一类研究则讨论了企业对现行战略的坚持如何影响未来的业绩水平。在整合这两类研究的基础上,他们提出了假设一:在环境突变后,拥有更多成功经历的公司会更加坚持以往的战略,而这种坚持会损害公司的经营业绩。在这一过程中,企业战略决策者的个人心理过程起到了中介作用。为此,他们提出了假设二:在解释以往成功经历对未来业绩的影响时,六种个人心理过程变量起到了中介作用:(1)对以往成功的满意感;(2)对现行战略有效性的自信心;(3)自我效能感(self-efficacy);(4)个人目标;(5)搜集信息的数量;(6)搜集信息的种类。
由以上的叙述可以发现,这两个假设不仅位于不同的层面,而且源于不同的理论。假设一主要关注在外部环境发生突变后,企业的成功经历如何影响了它们的战略选择和未来的业绩水平。研究者很难通过实验法或问卷调查等方法去操作这些研究变量。因此,Audia等人通过搜集二手数据较好地满足了假设验证的要求。在20世纪70年代末,美国政府解除了对美国航空企业和卡车运输企业两个行业的行政管制,造成了行业竞争格局的突变。Audia等人通过搜集25家航空企业、125家卡车运输企业在行业变革期间的相关数据,通过回归分析得到了支持假设的结果。
不同于假设一,假设二涉及了心理过程变量的中介作用,这些个人变量显然无法通过搜集二手资料的方式获得。因此,Audia等人根据美国移动通信行业发生的事件设计了一个商业游戏来检验这个假设。在实验中,被试要求模拟担任一家移动通信公司的首席执行官,其目标是成为市场的领导者。实验共需被试在两个阶段做出13次战略决策。每次决策后,研究者都会根据决策质量对被试的经营业绩进行反馈。第一阶段共有8次战略选择,这时通信公司的竞争限定于4个区域,政府在每个区域发放20个经营许可证。这一阶段市场整体上稳步提升,每家公司都有所收益。研究者在进行绩效反馈的同时,提醒被试政府的行业管制可能会解除,竞争可能会因此而加剧。在8次决策做出后,研究者测量了被试的6种心理状态。在第二阶段开始后,研究者通知被试政府解除了对手机行业的区域管制,允许跨区域竞争。同时,由于市场趋于饱和,行业增长率由此前的30%放缓为12%—14%。在这种情况下,研究者要求被试继续进行5次战略选择,根据其决策质量判断他们的业绩表现。与二手数据分析中得到的结论一致,他们发现既往决策的成功导致了被试在第二阶段坚持使用同样的战略,而对以往战略的坚持导致了经营业绩的下滑。同时,他们发现个体心理过程完全中介了既往的成功经历对于战略坚持的作用,其中对以往成功的满意度、自我效能感以及信息搜集的类型起到了关键作用。
在Audia等人的研究中,他们关心的是公司以往的成功如何通过影响企业家的个人心理因素,进而影响了公司业绩。因此,他们将研究的注意力分别放在了公司和个人层面上,并且通过选择不同的研究方法有效地回答了研究问题。通过以上分析,我们可以看出有效的研究设计必须基于相应的研究问题。根据研究问题的不同,我们需要选择不同的研究方法,采用不同的研究设计。
5.2.4 数据资料的搜集与分析
在讨论了研究问题和研究方法之间的关系后,我们探讨研究设计对数据资料搜集和分析的影响。在一项研究中,研究问题、研究方法、变量测量与统计分析是相辅相成、紧密联结的不同步骤(Pedhazur & Schmelkin,1991)。在研究中,我们首先需要明确具体的研究问题,结合研究问题选择恰当的研究方法。然后,我们需要选择相应的资料搜集方式和统计分析方法。如果说确定研究问题指明了研究的具体现象,那么针对数据搜集和分析方法的设计就需要回答从哪里得到数据以及应当如何处理得到的数据。
与选择研究方法相似,我们强调数据分析的方法本身并没有优劣之分。数据资料分析是为回答研究问题而服务的,应该在研究设计的指导下进行。如果我们没有理清研究问题、测量工具和资料分析之间的关系,我们得出的结论就只能反映变量在测量和分析层面的关系,而不能有效地回答我们的研究问题(Klein, Dansereau & Hall,1994)。对于资料分析方法的选择,应该符合研究理论和设计的要求。例如,在讨论工作满意度对绩效的影响时,如果我们希望了解员工满意度与员工绩效之间的关系,那么测量和分析应该以个体为单位;而如果研究的问题是部门士气对于部门业绩的影响,我们的分析就应该在部门层面。在管理学研究中,我们很多时候只能在个体层面采集数据(如对员工士气的测量)。但我们对变量的测量以及数据的分析都必须以部门为单元,才能回答研究问题。如果需要研究部门士气对于员工业绩的影响,因为部门士气是部门层面的变量,而员工业绩是个人层面的变量,这时我们就应该进行跨层次的研究与分析(关于这一问题的讨论请详见本书的第17章)。在前面提到的Audia等人的例子中,我们也可以看到当研究问题涉及组织战略层面时,他们的数据来源于二手资料,分析的单元是企业;而当研究问题涉及中介心理变量时,他们的数据来源于实验,分析的单元是个人。
以上我们探讨了如何通过研究设计有效地整合研究问题、研究方法、数据资料的搜集与分析之间的关系。我们按照实证研究的内在逻辑分阶段讨论了研究设计应该扮演的角色,特别强调研究设计是否严谨影响了研究中各个环节之间的相互联系,决定了研究结果是否能够清晰地回答研究问题。但需要指出的是,研究设计过程是动态的,而不是静态的。我们提出的分析顺序并不是一成不变的。随着研究的进行,我们可能意识到原先研究设计的不足,或者发现新的研究问题。Daft(1983)就指出研究本身更多地与研究者的技能和经验有关。技能和经验的积累更多的是通过学习过程而获得的。研究设计的质量与研究者以往的经验、对研究问题的理解以及自身的创造力密不可分。因此,研究设计本身就是一个学习过程,研究者需要从这一过程中认识到管理学研究的内在逻辑和效度要求,在实践中不断对研究设计做出调整和改进。
5.3 实证研究的效度评价
前面我们对实证研究中研究设计的目的、作用和过程进行了介绍。那么我们如何去评价一项研究是否有效地回答了研究问题呢?结合实证研究的一般过程,我们可以通过四种效度指标来实现对研究设计质量的评价,即构念效度(construct validity)、统计结论效度(statistical conclusion validity)、内部效度(internal validity)和外部效度(external validity)(Cook & Campbell,1979)。能否提高研究效度,保证研究结论的可靠性,是我们评价一项研究是否有效以及它得到的结论是否可靠的关键因素。
5.3.1 构念效度
构念效度是指变量测量的准确性,它评价的是我们在对构念进行操作化时,变量测量的内容和构念定义的一致性程度。如前所述,由于管理学的很多构念并不能直接观察,我们需要通过各种操作化手段将其转换为可数量化估计的指标体系。在这一转换过程中,我们对构念的测量不可避免地引入了各种误差。这些误差可能来自理论层面(如测量指标无法完整、准确地反映构念的理论内涵),也有可能来自操作过程(如测量过程中夹杂了与构念无关的随机误差)。这些误差降低了测量指标对理论构念的准确反映(在图1中,线b1、b2就代表了构念与测量指标之间的对应关系)。如果测量指标与理论构念之间不能准确对应,那么由此得出的结论就会出现偏差。即使最后在统计检验时发现了变量间的显著关系,也无法清晰地推断构念之间存在因果关系,我们将这样的研究评价为构念效度偏低。
由以上讨论可见,构念效度是一项高质量研究的首要指标。在研究设计中,研究者的目的是尽量减少测量时的偏差,努力提高变量与构念之间的对应程度。鉴于其重要性,本书的第13章将详细讨论测量过程的构念效度问题。在本章中,我们简要地讨论如何从理论和实际测量两方面提高构念效度:第一,从分析抽象构念的角度,研究者需要精确定义理论构念并明确它的内部结构。由于构念来源于抽象理论,在现实世界中并不能直接观察,因此对它的观察和测量必须依赖于精确的定义说明。如果缺少精确的定义,即使研究者在测量过程中避免了各种随机误差,由于无法确定得出的数据能否准确地代表理论构念,统计分析得出的结论还是无法有效地回答研究问题。
第二,从变量测量的角度,研究者需要选择合适的测量方式,以控制测量误差。比如在文献中,我们常常会发现一个构念有许多种量表。到底在研究中选用哪一个量表,就是一个经常困扰初学者的问题。例如,对于组织公民行为的测量,既有在西方情境下发展出来的文化普遍性(etic)量表,也有专门结合中国国情发展的文化特殊性(emic)量表。在测量时应该如何选择呢?我们的答案是首先选用经过严格评审的、发表在高质量杂志上的量表;其次,结合具体的研究问题选择最能符合研究情境要求的测量工具。当研究者关心的问题有关中国管理实践的特殊性时,采用具有文化特殊性的量表就能捕捉到更多信息。如果研究者关心的是一种普遍现象,只是运用来自中国的样本进行假设检验,那么具有文化普遍性的量表就应该是首选。通过这样的标准,我们不仅可以保证变量测量的质量,同时也提高了测量工具与研究问题、研究情境之间的匹配程度,确保了变量操作的构念效度。
5.3.2 统计结论效度
统计结论效度是指在对假设关系进行统计推论时,我们采用的统计检验手段及所做出的统计决策是否正确。在图1中,统计结论效度描述的是线d。在实证研究中,统计检验的本质是通过抽样的方式来对变量间的关系做出泛化的推论。我们针对统计检验而做出的研究结论,都是在一定的概率基础上针对零假设(null hypothesis)而做出的。因此,任何研究结论都面临着统计结论效度的问题。一般而言,我们在做出统计决策时存在着四种可能性:接受正确的零假设、拒绝错误的零假设、拒绝正确的零假设和接受错误的零假设。前两种情况属于正确的结论,但后两种情况属于研究者做出的错误决策,直接影响到研究的统计结论效度。第三种情况是“存伪”,我们称之为一类错误(Type I error),即两个变量间并没有联系,但我们却根据自己的统计结果拒绝了零假设,得出它们之间存在显著性关系的结论。第四种情况属于“去真”,我们称之为二类错误(Type II error),即两个变量间存在显著性关系,但我们却接受了零假设,认为它们之间并不相关。无论是拒绝原本正确的零假设,或是接受原本错误的零假设,都会降低统计结论的可信程度。导致这两类统计决策错误的因素有很多,如样本太小造成统计检测力的缺乏;忽视了统计检验的基本假设,造成统计方法运用的错误;测验问卷和实验操作信度的缺乏;被试样本的差异度太大等。对这些因素的详细探讨可参见Cook和Campbell(1979)的论述。
在这两类错误中,我们在实证研究中更为关注一类错误,即我们一直避免错误地接受一个并不存在的因果关系,进而影响后续的研究和管理实践。一个突出的例子就是我们对于共同方法变异(common method variance)的态度。共同方法变异夸大了变量间的联系,导致我们有可能错误地接受研究结论,产生一类错误。尽管研究表明这类基于个人感知的方法变异并不必然显著地改变变量关系(Crampton & Wagner,1994),即拒绝含有共同方法变异的研究结论有可能犯二类错误,但为了避免一类错误,现在主流管理学杂志已很难接受含有共同方法变异的文章。
研究者一直认为可以通过选择正确的统计检验手段、严格的检验标准和取样随机化等方法降低一类错误,保证研究结论的严谨性,但随着高校对发表研究论文重视程度的逐步提高,许多研究者在数据分析中一味地追求显著性结果,而未得到支持的假设往往被放弃(Leung, 2011),客观上造成了实证研究结果中一类错误的增加。Simmons, Nelson和Simonsohn(2011)认为造成这一现象的原因在于研究者在实证研究中拥有的自由度,如要不要搜集更多的数据、选择哪一个对照组进行比较、使用哪些控制变量、选择哪一个量表等。这些自由给了研究者选择性报告统计结果的空间。考虑到在一项显著性结果背后可能存在更多的未被报告、未能支持假设的分析结果,我们在接受一项研究结论时犯一类错误的可能性远远高于我们统计检验的显著性水平(即一般5%的错误可能性)。长此以往,这种现象必然会影响我们研究结论的可重复性和可信度,以及管理学研究的严谨性和学科声誉。因此,每一位研究者都有责任规范自己的研究过程,不能一味地追求显著性结果,而应该真实、全面地报告研究结果,共同维护研究结论的科学性和可验证性。
5.3.3 内部效度
对研究设计质量的第三个评价标准是内部效度。内部效度是指测量变量间因果关系推论的可信度,其评价的是变量间是否真的存在因果关系,而不是变量测量结果之间的统计关系。图1中,我们可以用线c表示一项实证研究的内部效度。如果我们发现因变量x随着自变量y的变化而变化,且两者之间关系显著,在由此推断其间存在因果关系前,研究者需要考虑这一结论是否剔除了其他各种可能的替代解释。某些外生变量的存在可能使我们在解释x与y变量关系时出现偏差。例如,在管理学历史上非常有名的霍桑实验中,研究者通过改变监管方式、增加互动时间,发现参加云母片分离实验的员工绩效提高了15%,从而认定人际关系的改善是员工绩效提高的主要解释。Carey(1967)针对这一结论提出了自己的观点。他认为由于外部经济形势的好转和雇佣关系的改善,霍桑工厂5500名工人的平均绩效在实验期间也提高了7%。因此,在控制了外部经济因素对员工绩效的影响后,人际关系因素能够在多大程度上提高员工绩效是一个疑问。从这个例子可以看出,如果对所研究的管理现象以及相关文献缺乏足够的了解,我们的研究设计方案极有可能忽略与替代解释相关的构念,最终致使变量之间的关系模糊不清,难以清晰解释,从而影响到研究的内部效度。
影响内部效度的因素主要来自于除自变量之外的各种混淆变量。它们的存在使得我们无法就自变量与因变量之间的关系清晰地做出结论。Cook和Campbell(1979)曾总结了在准实验研究中常见的混淆变量:(1)过去事件的影响。所有发生在研究期间的事件,都可能对被试产生影响并导致因变量的变化。(2)成熟效应(maturation)。观察到的效应可能是因为被试随着研究的进展身心发生了变化(如更加聪明、强壮、有经验等),而非因为自变量变化而产生的影响。(3)测验效应。研究中一个测验发生的次数可能会引起观察到的效应,特别是在研究后期,被试对测验内容变得更加熟悉会导致绩效提高。(4)统计回归(statistical regression)。当研究者根据前测分数分配被试时,如果测验的稳定性较差,各种随机误差的存在会使得前测分数较高的被试在后测时分数降低,而前测分数低的被试的分数则会有所提高,这时将这些变化归因于自变量的效应显然是不恰当的。(5)自我选择效应。观察到的效应可能是因为被试在能力或特质方面的差异而造成的,如果不能采用随机抽样方式和随机分派被试,研究者就应该警惕这种结果。(6)流失效应。如果有被试在研究期间退出或流失,这时所观测到的因变量变化可能是样本变化而造成的。(7)测量工具效应。观察到的效应可能来自前后测量标准的变化,研究人员由于对测量内容更加熟悉而有可能改变他们的评价标准。值得注意的是,这些因素在研究当中可能并不是独立的,它们之间可能会发生交互作用而使得变量间关系更加模糊。例如,选择样本不当使得研究样本可能存在系统性的差异,而这种差异可能随着研究进程而逐渐被放大。研究者应该对这些因素在实证研究中的作用有所警觉,并采取相应的步骤加以控制。
即使研究者在研究设计中考虑了所有的干扰因素,剔除了混淆变量和替代解释对变量间因果关系的影响,也不一定能够保证研究的内部效度。因果关系方向不清可能是另一个突出的问题。例如,在发现了组织支持和组织公民行为之间的显著关系后,我们很难判断是因为组织提供了无微不至的关怀从而提高了员工的组织公民行为,还是因为员工的忠诚表现而最终赢得了组织的支持。如果不能区分出变量之间的先后顺序,我们很难判断其间因果关系的方向。在实验法中,研究者能够较为精确地判断自变量和因变量变化的顺序从而避免这种问题。但是对于很多采用横截面数据(cross-sectional data)的问卷研究而言,由于自变量与因变量的数据来自同一时间点,更多地面临着因果关系方向不清的问题。
针对这些可能影响内部效度的因素,研究者主要可以从两方面进行预防和控制:一方面,可以从强化变量间的理论联系出发,在概念层面充分理清自变量与因变量之间的因果关系,同时在以往文献中搜寻有哪些变量可能成为假设检验中的混淆变量,予以测量,在统计检验时进行控制。另一方面,可以从选择研究方法上加以考虑。例如,如果研究者认为自己的研究假设非常容易受到其他混淆变量的影响,就可以通过实验进行随机化处理的方法提高研究的内部效度。如果研究者认为因果关系方向不清可能是一个突出问题,可以采用实验法或是纵向设计的方式理清研究变量间的关系。最近,Liang, Farh和Farh(2012)采用二阶段的面板数据(panel data)检验了心理机制和建言行为之间的关系。心理变量与外显行为之间的关系一直是困扰研究者的一个问题。在这项研究中,研究者在控制了变量间的自相关、逆向关系后,对假设的因果关系进行了检验,较好地解决了变量间因果关系不清的问题。有兴趣的读者可以进一步参考他们的研究设计。此外,本书在第6—11章中将分别讨论如何在不同的研究方法中提高研究的内部效度。
5.3.4 外部效度
外部效度是指将研究结论推广到其他群体、时间和情境时的可信程度。通常情况下,研究结果往往是基于一个样本、一个时间点得到的。如果研究者使用的研究样本、测量手段等有较大的特殊性,研究结果很有可能无法在其他的情境中得到重复。例如,我们以大学生样本得到的决策研究结论,可能无法推广到企业的CEO身上。外部效度指标告诫我们需要清楚研究结论所处的情境界限。当你在样本中找到显著的因果关系时,需要自问一下这些结论是否只在这些人、这样的环境和时间内有效。假如是,那么你的研究结论就缺少必要的外部效度。
由于外部效度考虑的是研究结论在其他情境中的可重复程度,所以它对于应用性的实证研究而言是一个非常重要的评价指标。影响外部效度的因素主要包括:(1)研究样本的选择。一般而言,研究样本是影响研究结论外部效度的首要因素。例如,现在的很多管理学研究过多地依赖MBA学生,这样的被试群体由于自身的特殊性,使得我们得出的结论很难推广到其他样本中。(2)研究环境本身可能具有特殊性,造成我们得到的结果无法推论到整个目标群体。例如,在实验研究中,如果参与实验的人预先知道了研究的目的,他们就很有可能以一种角色扮演的心态完成实验任务,这时基于这些回答/表现得出的结论也就缺少了外部效度。因此,研究者可以选取具有较高代表性的样本来提高研究的外部效度。样本对于总体的代表性是外部效度的主要影响因素之一。当样本可以较好地代表总体时,从样本得到的结论就更容易在总体内得到重复。而如果研究目的还包括在不同总体间证实研究假设,可以通过在多个总体内分别抽样的方式,来检验研究结论的外部效度。
外部效度的不足对于研究结论和理论发展并不一定总是坏事。如果我们能够意识到研究结论的情境边界,有时也许是新研究的开始。现在越来越多的管理学研究已经开始注意到情境因素(如人、环境、时间)对研究结论的影响。这些情境因素要么是自变量的先行因素,要么是可能改变自变量和因变量关系的调节变量(详见本书第16、20章)。如能将这些情境因素与理论思考相结合,很有可能产生非常有趣的研究。例如,Farh, Earley和Lin(1997)发现在台湾组织公民行为的维度不同于在西方情境下的研究结果。换言之,以往研究的结论可能是存在情境局限的,不同的文化情境可能成为影响组织公民行为的重要变量。不出意外,他们发现对于传统性(traditionality)较低的人来说,组织公民行为与分配公正和过程公正的相关性较强;对于传统性较高的人来说,组织公民行为与分配公正和过程公正的相关性较弱。在这个研究中,描述样本特征的个人传统性成为组织公民行为和组织公正之间的调节变量。
在这一节中,我们主要讨论了评价实证研究的设计质量所依据的四种效度指标,它们分别是构念效度、统计结论效度、内部效度和外部效度。需要指出的是,在任何一项研究设计中,研究者由于客观条件的限制以及研究方法的局限,往往无法同时兼顾上述的四种效度指标,在一个研究中同时满足四种指标要求是几乎不可能的。为了保证研究结论的整体效度水平,研究者可以采用的方式是进行多项研究来回答一个研究问题。例如,在Audia等人的研究中,他们首先使用二手数据来验证研究假设。这种方法具有较高的外部效度但较低的内部效度。因此,他们接着在个人层面进行了一项模拟实验,来验证研究结论的可靠性,并检验心理过程变量发挥的中介作用。实验研究具有较高的内部效度但较低的外部效度。通过将两者相结合,他们的研究结论很好地满足了这两种效度的要求。同时,由于对构念的清楚定义、准确测量和恰当分析,他们的研究结论又具有较高的构念效度和统计结论效度。
5.4 实证研究中的变异量控制
在了解了评价研究质量的效度指标后,我们需要讨论如何在研究设计阶段科学、合理地设计自己的研究过程,最终使得我们的研究符合这些效度指标的要求。针对这一问题,我们主要考虑是如何结合自己的研究假设,有效地控制造成因变量变异的各种因素,以提高研究结论的可靠性和科学性。一般而言,我们在研究中主要考虑的三种变异包括:系统变异、外生变异以及误差变异(Kerlinger & Lee, 2000)。我们首先来了解一下这三种变异量之间的关系。
5.4.1 研究中的变量变异
我们经常可以观察到在同一家企业里,员工的满意度会有很大的差异;在同一个行业里,公司经营业绩也会非常地不同。这些个体/企业之间的差异就是我们在管理学研究中需要解释的变异量。研究设计的目的在于寻找合适的自变量以实现对这些因变量变异的解释,如我们可以用个人收入水平的不同来解释员工满意度的差异。但在实际情况中,因变量的变化不仅会受到自变量的影响,还会受到其他很多因素的影响。如满意度可能同时受到组织情境、个人期望和人格特征等因素的影响。我们通称这些因素为外生变量,即在自变量以外,有可能影响因变量的因素。除外生变异外,影响因变量的还有误差变异。这类变异来源于原因各异的各种随机因素,如被试在接受测验时的心情、当时的环境等。与外生变异不同,误差变异对因变量的影响归结于随机性变量,而不是系统性变量(systematic variable)。我们把这些变量的关系用图4加以表示。
图4 构成因变量变异的各种因素
从变异的角度来看,研究设计最主要的问题是如何处理因变量的变异。在一个研究中,其中只有自变量引起的因变量变异是对假设检验有帮助的。在研究设计阶段,我们一般通过对变异量进行分割的方式帮助我们进行思考。通过变异量分割,研究者可以清晰误差来源、了解影响研究效度的主要因素,并通过控制三类变异清晰地确定变量间的因果关系。简言之,变异量分割的思路即最大化系统变异(maximizing systematic variance)、控制外生变异(controlling extraneous variance)、最小化误差变异(minimizing error variance)。我们依次讨论如何通过研究设计对研究中的三种变异量进行控制。
5.4.2 最大化系统变异
系统变异是指由于自变量变化而引起的因变量变异。在研究设计时,我们希望选择的自变量能够对因变量产生显著性影响,所以研究者需要实现自变量对因变量的最大化影响。系统变异在因变量的变异中占的比重越大,说明研究中自变量的影响越明显,我们也就越有机会发现支持我们假设的证据。最大化系统变异需要我们在研究设计阶段充分考虑假设检验所需要的样本,以及对自变量的操作和测量方式。例如,在研究收入水平与工作满意度的关系时,如在选择的样本当中,大多数人都对工作满意,或者更糟糕的情况是,他们的薪水都相似,那么研究者得到支持性证据的可能性将非常小。
由于变量性质的不同,在研究设计中操纵变异量的方法也是不同的。我们可以将管理学中的变量大致分成两类:可变变量(active variable)和属性变量(attribute variable)。前者是指在设计中可以被操纵的、可以变化的变量。对这类变量我们可以通过实验法对其加以操纵,使得被试在实验组与控制组所处的情境有显著差异。这样我们就可以最大化系统变异,从而有机会观察到对自变量的操纵引起的被试反应。例如,Stajkovic, Locke和Blair(2006)通过实验法研究了潜意识目标动机(subconscious goal motivation)对目标设定效应的影响。在这个实验中,研究者给被试呈现了五个单词,要求他们用其中四个单词组成一个语法正确的句子。在实验组,被试需要完成的20个句子中大多带有与成就有关的单词,如完成、努力、达成、掌握、成功等;而在控制组,研究者选用的大多是与成就无关的词。通过这种启动(priming)的方式,研究者就在完成具体任务之前,使得被试在不知不觉中处于不同的动机水平,创造了影响因变量的系统变异。
但在许多研究中,研究者感兴趣的变量不是可变的,或是非常难以操纵的。我们把这类变量称为属性变量。我们对这类变量的操作需要通过对样本的选择来实现。例如,Farh, Hackett和Liang(2007)考察了权力距离(power distance)和个人传统性对中国员工的影响。他们从社会交换理论出发,提出这两种文化价值观可能调节了员工在知觉组织支持后的反应:高权力距离和高传统性的员工更多地受到自己的角色限制,他们的工作态度和行为较少地受到组织支持的影响;而低权力距离和低传统性的员工则更多地看重双方在交换中的对等性,他们对企业的态度和行为更多地受到组织支持的影响。在这项研究中,很显然我们无法操纵被调查对象的文化价值观。为了有效检验这类属性变量的效应,他们在样本选择阶段尽可能地扩大了可能影响结果的系统变异:从27家性质不同的公司选择员工来搜集数据,而不是在一家公司或利用MBA学生来完成问卷。由于在研究设计阶段注重了样本的异质性,他们最大可能地实现了调查对象在这类属性变量(即权力距离和个人传统性)上的差异,从而有利于在研究中观察它们的调节作用。
在上面的例子中,我们也可以看到样本选择对于可变变量变异量控制的重要作用。通过调查27家不同的公司,他们非常有效地测量了知觉到的组织支持这一关键变量。如果他们的样本来自同一家公司/集团,由于经历的企业文化、领导作风、管理政策是基本相同的,研究对象之间对组织支持评估的差异只能来源于个体差异。样本的同质性导致我们无法实现最大化系统变异的设计要求。因此,在研究设计阶段,研究者应考虑如何根据研究问题的性质,从不同的背景中抽取研究样本,以此来提高研究的系统变异。
5.4.3 控制外生变异
外生变异会系统地影响我们感兴趣的因变量,同时也可能影响我们研究中的自变量(从而成为研究假设的潜在替代解释),但它们却与我们的研究目的无关。换言之,产生外生变异的变量在其他的研究中可能是很好的自变量,但在我们的研究中却不属于关注的焦点,所以我们需要对这类可能对因变量造成影响的外生变量实现有效的控制,将其效应最小化、抵消或者与自变量的效应进行隔离。只有通过一定的控制手段,排除无关变量对因变量的影响,我们才能清晰地判断并解释自变量对因变量的影响。如果不能实现对外生变异的有效控制,在发现了显著性关系后,我们无法判断这一关系究竟是因为自变量对因变量的影响,还是未加控制的外生变异的影响。能否在研究设计阶段,清楚认定关键的外生变量,并对其实施有效的控制,是判断一名研究者的设计能力、对相关文献了解程度的一个很好的评价指标。
为了控制外生变异,我们在研究设计方案中可以考虑三种思路:首先,我们可以通过修改研究模型,将外生变量纳入研究设计,从而将其效应与自变量的效应加以区分。例如,在我们研究工作满意度对工作绩效的影响时,为了排除个体能力的干扰,我们就可以将两个变量共同加入研究模型。特别是在实验法中,我们可以将两者作为设计中的分析要素,形成2×2多因子实验设计。通过分析它们的主效应和交互效应,来区分这两种因素对员工绩效的影响。
其次,如果修改模型会模糊研究焦点,我们可以考虑通过抽样的方式(如随机化、匹配参与者等)实现对外生变量的控制。常用的控制方式有三种:(1)排除法。不同于选择差异化的自变量,研究者可以通过选择同质性的外生变量,来排除它们对因变量的影响。例如,我们希望了解收入水平对个人满意度的影响,同时性别也有可能对满意度水平有影响,这时在取样时我们就可以单独选择男性或女性。使用这种同质的样本,我们就可以排除外生变量的影响。(2)随机分配法。如果能够将被试随机分配到不同的实验组与控制组中,我们就能切断外生变量与因变量的联系,对其进行有效的控制。这时得到的研究结果就无法用外生变量来解释。(3)配对法。这种方法是指将外生变异进行配对处理,创造相对等的研究条件,从而控制外生变量。例如,如果需要考察一项组织变革的成效,我们可以选择另一家没有变革的企业作为控制组。虽然研究者不能随机分派哪家企业进行变革或不变革,但研究者可选择一家与变革企业相类似的企业(如科技的性质、制度、工厂设立时间长短等)作为控制比较对象,通过对比即可较为清晰地看出变革发生后产生的实际效果。
最后,如果我们没有条件实现对研究对象的操纵,可以通过统计控制(statistical control)的方式实现对外生变量的控制。我们可以将外生变量与自变量及因变量一起进行测量,在统计分析时排除它们的效应。例如,在研究创新战略对公司经营业绩的影响时,我们必须控制公司的规模和行业特征。虽然这两个因素都不是研究的关注点,但它们会影响公司的获利能力及战略选择。只有控制了这些变量,我们才有信心得出这样的结论,即公司利润的变动是创新的结果而不是规模(大公司倾向于利润更高)或行业(一些行业比其他行业利润更高)的影响。统计控制的操作方便,是研究者常用的控制外生变异的方法,特别是在问卷或二手资料研究中。
研究者一般认为在假设检验之前,如果先排除掉控制变量对因变量的影响,那么自变量对因变量的效应会变得更加清晰。但是这一愿望往往由于研究者没有清晰变量间的关系而成为一厢情愿。Spector和Brannick(2011)建议研究者在使用控制变量前,需要清晰界定控制变量可能扮演的角色以及对假设检验的可能影响,否则可能使得到的研究结论更加模糊。
5.4.4 最小化误差变异
误差变异是指由于随机因素而导致的因变量变异。这部分属于随机性质,不像外生变异那样会在测量中造成系统性的偏误。最典型的随机变异是测量误差(如暂时的不注意、短暂的情绪波动等),或研究者控制不了的未知因素。我们将误差最小化,其目的就是尽可能地使系统变异显现出来。通常误差变异和外生变量对因变量变异的影响是无法区分的,这两部分产生的因变量变异之和就是我们在统计分析时所称的剩余部分(residual),即自变量无法解释的变异部分。在进行F检验时,我们将因变量的总变异分为两部分:一部分是由自变量造成的组间差异(between group variance),另一部分就是外生变量和误差共同造成的剩余部分。如果我们能够尽量减少测量误差,就可以提高我们统计检验的F值,增加我们得到显著性结果的可能性。
由于误差变异是由随机因素造成的差异,它的处理方法也表现为减少个体差异和测量误差两方面。首先是减少受试者的个体差异。在保证最大化自变量变异的同时,尽量减少其他个体差异对因变量的影响。人与人之间的差距越小,由于个体差异带来的误差变异也越小。第二是减少测量误差。为了控制测量误差,我们一方面需要提高测量的精确程度,提高测量的信度(我们在第13章会专门讨论测量的信度),另一方面需要有效地控制测量情境。情境控制可以使得测量更精确。如在实验时尽量减少实验者的不同,例如性别不同、讲话语气的不一样等。用放录音带的方式,使指导语的速度和声音尽量标准化。在问卷调查时,尽量保证室内环境、问卷填答的时间等因素的一致性。
从上面的讨论可以发现,在研究设计阶段,对变异量的控制是非常重要的。为了实现对因变量的预测,我们需要尽可能地提高自变量的变异,尽可能地控制与因变量变异有关的外生变量和随机误差。外生变量和随机误差的存在会增加自变量无法解释的因变量变异(即变异剩余量),从而降低我们在检验自变量效应时的统计功效(statistical power)。假如外生变量同时又与自变量相关,更会形成替代解释,造成对研究结果解释的困难。
5.5 结语
作为社会科学的一个分支,我们在管理学研究中面临着很多方法论上的挑战:研究方法的局限使得我们往往无法对研究变量进行直接的测量。人类组织活动自身的复杂性使得我们经常无法对变量间的因果关系做出清晰的界定。同时,管理学自身的特性又要求研究者必须深入企业、接近企业员工去得到研究必需的资料。而这又往往超越了研究者自身的能力和角色。我们需要用不太精确的工具去理清一个复杂系统中的各种关系,但我们又不能根据自己的意愿去搜集所需的信息,这就是我们在管理学研究中面临的实际困难。这些局限和困难都加重了研究设计在整个研究项目中的重要程度。在启动一项研究项目时,我们需要格外强调研究设计的重要性,充分了解影响研究效度的各种因素,有效控制研究过程中产生的各种变异量,最终有效地回答研究问题。
参考文献
Audia, P. G., Locke, E. A. & Smith, K. G. (2000). The paradox of success: An archival and laboratory study of strategic persistence following radical environmental change. Academy of Management Journal, 43, 837—853.
Boyles, D. R. (2006). Dewey's epistemology: An argument for warranted assertions, knowing, and meaningful classroom practices. Educational Theory, 56, 57—68.
Baumard, P. & Ibert, J. (2001). What approach with which data? In R. A. Thietart, Doing Management Research: A Comprehensive Guide. London: Sage Publications.
Carey, A. (1967). The Hawthorne Studies: A radical criticism. American Sociological Review, 32, 403—416.
Crampton, S. M. & Wagner, J. A. (1994). Percept-Percept inflation in micro-organizational research: An investigation of prevalence and effect. Journal of Applied Psychology, 79, 167—176.
Comte, A., Ferré, F. (Tr. )(1988). Introduction to Positive Philosophy. Indianapolis: Hackett Publishing Company, Inc.
Cook T. D. & Campbell D. (1979). Quasi-Experimentation: Design and Analysis Issues for Field Settings. Boston: Houghton Mifflin Company.
Daft, R. L. (1983). Learning the craft of organizational research. Academy of Management Review, 8, 539—546.
Daft, R. L. (1995). Why I recommended that your manuscript be rejected and what you can do about it? In L. L. Cummings and P. J. Frost(Eds.), Publishing in the Organizational Sciences(2nd edition). Thousand Oaks, CA: Sage.
Farh, J. L., Earley, P. C. & Lin, S. C. (1997). Impetus for action: A cultural analysis of justice and organizational citizenship behavior in Chinese society. Administrative Science Quarterly, 42, 421—444.
Farh, J. L., Hackett, R. D. & Liang, J. (2007). Individual-Level cultural values as moderators of perceived organizational support-employee outcomes relationships in China: Comparing the effects of power distance and traditionality. Academy of Management Journal, 50, 715—729.
Greenberg, J. (2002). Who stole the money, and when? Individual and situational determinants of employee theft. Organizational Behavior and Human Decision Processes, 89, 985—1003.
Grunow, D. (1995). The research design in organization studies. Organization Science, 6, 93—103.
Kerlinger, F. N. & Lee, H. B. (2000). Foundations of Behavioral Research. Fort Worth, TX: Harcourt College Publishers.
Klein, K. J., Dansereau, F. & Hall, R. J. (1994). Levels issues in theory development, data collection, and analysis. Academy of Management Review, 19, 195—229.
Leung, K. (2011). Presenting post hoc hypotheses as a priori: Ethical and theoretical issues. Management and Organization Review, 7, 471—479.
Liang, J., Farh, C. I. C. & Farh, J. L. (2012). Psychological antecedents of promotive and prohibitive voice: A two-wave examination. Academy of Management Journal, 55, 71—92.
Mackie, J. L. (1977). Ethics: Inventing Right and Wrong. Penguin.
Meyer, A. D. (1982). Adapting to environmental jolts. Administrative Science Quarterly, 27, 515—537.
Oldham, G. R. & Cummings, A. (1996). Employee creativity: Personal and contextual factors at work. Academy of Management Journal, 39, 607—634.
Pedhazur, E. J. & Schmelkin, L. P. (1991). Measurement, Design, and Analysis: An Integrated Approach. Hillsdale, NJ: Lawrence Erlbaum.
Popper, K. (1977). The Logic of Scientific Discovery. London: Hutchison.
Royer, I. & Zarlowski, P. (2001). Research design. In R. A. Thietart, Doing Management Research: A Comprehensive Guide. London: Sage Publications.
Schwab, D. P. (1999). Research Methods for Organizational Studies. Mahwah, NJ: Lawrence Erlbaum Associates.
Simmons, J. P., Nelson, L. D. & Simonsohn, U. (2011). False-Positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359—1366.
Spector, P. E. & Brannick, M. T. (2011). Methodological urban legends: The misuse of statistical control variables. Organizational Research Methods, 14, 287—305.
Stajkovic, A. D., Locke, E. A & Blair, E. (2006). A first examination of the relationships between primed subconscious goals, assigned conscious goals, and task performance. Journal of Applied Psychology, 91, 1171—1180.