信度和效度如何区分？怎么做信度和效度的检验？

栏目：职业教育时间：2023-02-05

　　文章来源：微信公众号【我看人看我】

　　信度和效度是优良的测量工具必备的条件，是评估所测量数据的可靠性和有效性的基本尺度。只有保证测量工具的信度和效度，才有可能获得可靠、正确的数据。

　　信度，即可靠性或一致性，指的是测量结果经得起重复检验，即测量工具能否稳定地测量到它想要测量的数据。信度反映了测量中的随机误差大小，信度高，那么意味针对同一事物进行多次测量的结果可以保持一致，说明该测量工具可靠、稳定；缺乏信度，则前后测量的结果就会出现不一致，说明该测量工具有问题。

　　效度，即切实性，指的是测量工具确实能够测出其所要测量的内容。效度高，说明测量结果能很好地反映测量对象的真实特征，能够保证不同研究人员对某一研究变量的意义和内内涵有一致的理解；缺乏效度，则说明测量工具没有正确地获取反映真实特征的数据。比如农村贫困，代表政府对贫困进行测量的人对贫困的理解和农民对贫困的理解是不一样的，前者根据的是可量化的指标，后者关心的是自己的实际生活感受，以及与他人的比较。

　　信度和效度的关系可用以下四幅图来表示。黑点表示测量结果，靶心表示测量目的，离靶心越近，表示测量结果越准确。

　　a 图：黑点均集中在一个小区域，说明多次测量比较稳定、一致，即信度高；但黑点均远离靶心，说明多次测量结果都没有切合测量目的，测量结果准确性较差，即效度低（高信度低效度）；

　　b 图：黑点分散各处，说明多次测量的结果很不稳定，即信度低；而且大部分黑点都远离靶心，说明测量结果的准确性交叉，即效度低（低信度低效度）。

　　c 图：黑点分散在一侧，且大部分都远离靶心，说明测量结果稳定性不足，且准确性也不行，即低效度低信度。

　　d 图：黑点均集中于靶心附近，说明测量结果既稳定又准确，即高信度高效度。

　　由这四幅图所表示的关系，我们可知：

　　（1）信度低，效度不可能高。如果收集的资料不可信、不可靠，那么它肯定是不能真实反映研究对象的真实特征；

　　（2）信度高，效度不一定高，效度有可能很低。比如，即使测量出某个人的经济收入，但未必能够说明他的消费水平；

　　（3）效度低，信度有可能高；

　　（4）效度高，信度必然也高。

　　因此，信度是效度的必要条件，但不是充分条件，无信度必然无效度，但有信度未必有效度；效度是信度的充分条件，但不是必要条件，有效度必然会有信度，但无效度却未必无信度。

　　问卷、量表是调查研究常用的测量工具，而信度和效度是衡量测量工具质量高低的重要指标。因此，在问卷设计、量表设计时，需要对问卷、量表进行信度和效度的检验，以判断通过它们获取的数据的可靠和有效程度，保证所收集到的数据真实、可靠、有效。这里我们以检验量表的信度和效度的检验为基础进行介绍。

　　信度反映了测量中的随机误差大小，由于造成测量随机误差的来源有多种，因此信度检验的方法也有多种，主要包括内在信度检验和外在信度检验。

　　内在信度所检验的是量表的内部一致性，一致性程度越高，那么测量数据就越准确，评估结果的可信度就越强。内部一致性主要有两层意思：一是考察量表的所有题目测量的是否是同一个概念，一般来说，量表的作用是要测量某个单一的现象/心理特质；二是量表中的所有题目得分之间是否存在较高的正相关。为什么量表的题目会存在相关？有两种可能：第一种是题目之间有因果关系；第二种是量表各题目存在一个共同的因。大多数情况下，第一种原因是不存在的，更多的是第二种可能使量表的项目之间存在一定程度的相关性。如果量表的内在信度不高，说明测量结果可能反映的是多个概念/心理特质的综合反映，这种结果就会比较难解释，对此，我们可以把一次测量分解为多个具有一致性的分测量，再进行解释。

　　检验量表内部一致性的方法有多种，包括Cronbach-α、协方差矩阵、多项目量表的协方差矩阵、α与协方差矩阵。最常用的是Cronbach-α。

　　（1）Cronbach-α

　　Cronbach-α 是量表信度最常用的检验方法。Cronbach-α 系数的范围在0~1之间，越接近1，信度越好，其判断标准为：

　　系数在0.9以上，表明该测量工具即量表的信度很好；0.8-0.9，表明信度较好；0.7-0.8，可以接受，但量表的某些内容需要修改；0.7以下，说明量表的某些内容需要重新编写。

　　使用SPSS来计算Cronbach-α系数的操作路径为：【分析】-【度量】-【可靠性分析】

　　外在信度的检验主要考察的是时间、测量形式等外在因素的变化是否会对对测量结果的稳定性和一致性产生影响。

　　常用的外在信度分析方法有：重测信度法、复本信度法、折半信度法。

　　（1）重测信度

　　用同一个量表对同一批被调查者前后调查两次，再根据调查结果计算相关系数，即可得到重测信度。两次调查间隔的时间要适当，间隔太短，被调查者会记得上一次调查的答案；间隔太久，可能会因为发生一些事情影响他们的态度。

　　（2）复本信度

　　在一项调查中，针对同一批被调查者，先使用A量表进行测量，再用A量表的复本进行测量，然后根据调查结果计算其相关系数。A量表的复本需在题数、形式、内容、难度等方面与A量表一致，仅只在问法、用词方面不同。复本的调查可连续进行调查，也可以隔一段时间再进行调查。连续实施调查的复本信度又称为等值系数，相隔一段时间再进行复本调查所得到的复本信度又称为稳定与等值系数。

　　（3）折半信度

　　将调查结果，按题目的单双数或者前半部分和后半部分划分为相同的两份进行计分，再根据每个样本的两部分的总分，并计算其相关系数，该系数即为折半信度系数。

　　效度是指测量工具确实能够测出其所要测量的内容。因此，量表是否具备效度，就要看该量表结果是否达到了此次测量的目的。比如，一个用以测量产品满意度的量表，被用来测量用户活跃度，那么所得的测量结果肯定缺乏信度。即使是测量内容相同，被测量的目标群体发生了变化，效度也会大受影响。

　　量表的效度检验，主要采用以下三种方法：

　　内容效度的检验主要是考虑所测量的内容是否很好地反映了所要研究的概念（变量）的基本内容，即策略工具实测的内容与我们想要测量的内容之间的匹配程度。

　　内容效度的检验一般采用专家评估、预调查的方法，来评估量表是否合理、用户是否理解量表题项，再根据结果来修正量表。

　　结构效度，也叫建构效度、构想效度。结构效度的检验主要是考察量表的内部结构与编制量表时依据的理论假设是否相符，具体来说，即是评估量表的题项与测量维度（测量方向）是否一致。一般通过因子分析来检验结构效度。比如在开发者体验调查量表中，10道题分为了易学、易用、高效三个维度的题项，那么可以通过因子分析来评估每个维度下的题项与其所属的维度是否一致。在使用因子分析评估结构效度，一般会同时使用探索性因子分析和验证性因子分析进行综合评估：

　　（1）探索性因子分析目的是要探索所评估现象/特质的因子结构，所得的公因子相当于量表所要测量的潜在维度，因子载荷反映了量表题项对该维度的贡献，因子载荷越大，说明题项与该维度的关系越密切；

　　（2）验证性因子分析是在已经确定因子数量、各题项和因子的对应关系的情况下，基于实际数据来拟合特定的因子模型，分析拟合优度，以验证预设的因子结构与实际数据的匹配程度。

　　校标效度，也叫准则效度、校标关联效度。校标效度的检验主要是以一个公认有效的量表作为标准，考察当前量表与标准量表的测量结果的相关性，所测得的相关系数为当前量表的效度，相关系数越大表示该量表的校标效度就越好。比如将自己设计的量表所搜集的数据与权威量表的数据进行相关分析，如果相关大，说明准则效度比较好。

　　如果对单个清楚明确的概念或概念的某个维度进行测量，可提高信度。每个测量工具只针对单独的一个概念进行测量，就可以明确所收集的数据是针对的哪个概念或维度，而不会因为多个概念的存在导致我们无法精确判断测量结果是针对哪一个概念，而且不同维度的测量指标之间可能会相互影响，从而影响测量结果的可靠性、准确性。这意味着，在调查研究中，我们要将概念定义清楚，不能模糊不清。

　　测量层次越高，获取的信息就越精确、详细，自然信度就会越高。因此，在研究时，尽可能以最精确的测量层次来测量概念或变量。

　　多重指标允许研究者对概念或变量进行更广泛、全面的测量，自然测量结果也会更准确、稳定。比如满意度评分，分维度的满意度评价比总体的满意度评价所获取的信息更为广泛、细致，让研究者可以了解不同方面的满意度情况。但并不意味测量指标越多越好，指标数量也要在合适的范围。

　　正式调查前，可在小范围内进行预测试，以了解问卷题项是否清楚明白，避免题项含糊不清，造成错误理解。

　　题项要清楚明白，且能让被调查者容易理解，不然模糊不清、难以理解会导致被调查者回答错误，从而影响调查的信度。

　　问卷题项不要太多，不要占用被调查者太多时间，如果太多，可能被调查者填答到后面就渐渐没了耐心，回答也就变得随意，甚至乱填。

　　对于需要调查人员与被调查者面对面调查的，要求调查人员需按照程序和标准询问被调查者，不得有意无意对被调查者施加影响，在后续的数据记录的时候也要耐心认真，避免出错

　　尽量给被调查者安排或者营造一个良好的填答环境，避免被他人或者外界因素的干扰

　　问卷设计需做到规范标准，比如价值中立、选项穷尽、题项排序等要求，都需要做好。

　　要明确调查目的是什么，收集该信息点的目的是什么，以确保题项能够真正收集到想要测量的数据。

　　题项要清楚明白，且能让被调查者容易理解，不然模糊不清、难以理解会导致被调查者回答错误，从而影响调查的信度。

　　问卷题项不要太多，不要占用被调查者太多时间，如果太多，可能被调查者填答到后面就渐渐没了耐心，回答也就变得随意，甚至乱填。

　　尽量给被调查者安排或者营造一个良好的填答环境，避免被他人或者外界因素的干扰。

　　问卷设计需做到规范标准，比如价值中立、选项穷尽、题项排序等要求，都需要做好。

　　样本具备代表性，意味着所调查的对象是我们实际想要了解的对象，自然所收集的数据就越准确。

　　举报/反馈

上一篇：北师大协同66个市县教育局发起全国教育局长高峰论坛
下一篇：北大原校长许智宏：转基因争论应基于科学

信度和效度如何区分？怎么做信度和效度的检验？

最近更新职业教育