信号检测论——评价法
姓名
(上海师范大学应用心理学,上海,201418)
摘 要本实验采用信号检测论中的一个基础实验程序——评价法,考察男女两名不同被试对汉字再认的准确性和判断标准。实验发现:(1)击中率和虚报率会随先定概率的提高而增加;(2)被试一的判断标准β相较于被试二的判断标准β更为严格,不易将测验项目判断为目标项目;(3)在同一先定概率下,被试一的辨别力d’要大于被试二,而被试一的判断标准β要小于被试二。
关键词信号检测论;评价法;ROC曲线;辨别力d’;判定标准β
1 导言
传统心理物理学创造性的提出“阈限”概念来反映心理量和物理量之间的对应关系,并将阈限定义为能引起心理感受(绝对感受或差别感受)的物理刺激强度。但在实际研究中,非感觉因素对阈限测量的影响往往是难以排除的。信号检测论挑战了传统的阈限定义,以一个“反应阈限”来取代感觉阈限作为被试
报告
软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载
有无刺激的分界点。具体地说,信号检测论认为对信号的知觉包括感觉和决策两个过程。被试先根据所侦测到的信号强度产生相应的心理感受,再将感觉强度与事先确立的判断标准进行比较,当感觉强度超过上述标准时,才会报告刺激或差异的存在,而该报告标准即“反应阈限”。由于能有效分离个体客观的感受性与主观的反应偏向,信号检测论已经成为现代心理物理学总占据主导地位的理论。
信号和噪音是信号检测论中最基本的两个概念。在心理学领域,信号检测论所指的信号可以理解为刺激。而噪音就是信号所伴随着的背景。信号检测论假定,噪音总是存在于系统之中,无法消除——无论这个系统是一个收音机,还是人的神经系统。
信号检测论有三个基础的实验程序:有无法、迫选法和评价法。在评价法中,先定概率或/和奖惩办法恒定时,根据确信程度将回答分为n个评价等级,即让感觉强度划归到上述n个等级,从而要求被试同时考虑(n-1)个判断标准。因此需对每个判断标准,分别极端感受性和反应倾向的指标。对于最严格的判断标准以下的各个标准所对应的击中率,都应是该标准以上各等级的击中率的累积。因为若能根据某一感觉强度百分之百地确信“SN刺激存在”,在较为宽松的标准(如80%)下一定也能据此确信“SN刺激存在”。同理,各标准在的虚惊率都应是该标准以上各等级的虚惊率的累积。
将击中概率作为虚惊率的函数,根据不同判断标准对同一信号的反应而得到的曲线,就是接受者操作特征曲线,简称ROC曲线。ROC曲线的曲率(即由对角线到曲线中点的距离)约等于辨别力指标d’。ROC曲线上任意一点的切线斜率,即该点的决策标准β。
本实验考察被试的再认能力,在再认实验中,指标d’用于衡量被试的再认辨别力,d’越大,表示再认能力越高;指标β用于反应标准的评估,β越大,表示判断标准越严格,即被试不轻易将测验项目判断为目标项目;β越低,表示判断标准越宽松,即被试容易将测验项目判断为目标项目。
对于项目的再认记忆是再认研究的主要课题之一,运用评价法来得出对于项目再认记忆的ROC曲线时,不仅要求被试对呈现的测验项目进行新(信号)旧(噪音)判断,还要求被试给出对上述再认判断的肯定程度。例如,同一种先定概率和奖惩办法下,若将被试的反应分为5种(肯定看过;可能看过;不能确定;可能没看过;肯定没看过),则要求被试确立4种确定程度不同的判断标准。
本实验中,我们将选择汉字作为实验材料,运用评价法(5点评分)来进行新旧再认测验,绘制项目再认记忆的ROC曲线。目的在于掌握评价法和ROC曲线的绘制方法,并了解如何应用ROC曲线来检验再认记忆的模型。
2 方法
2.1被试
两名上师大心理系本科生,一男一女
2.2仪器与材料
仪器:计算机及PsyTech心理实验系统软件
材料:信号汉字100个,噪音汉字100个
2.3实验程序
登录并打开PsyTech心理实验软件主界面,选中实验列表中的“信号检测论(评价法)”。双击呈现实验简介,点击“进入实验”到“操作向导”。实验者可进行参数设置:改变刺激呈现时间等参数或默认参数。点击“开始实验”呈现本实验指导语。
第一次指导语是:“这是一个用评价法进行的信号检测论实验。实验开始后屏幕会逐个呈现一系列汉字,请你认真看并尽量记住这些汉字。当你明白了上述指导语的意思后,就点击下面的‘正式实验’按钮‘开始’。”被试按任意键后,实验先呈现100个作为信号的汉字,被试只看并记忆,不作其它反应。呈现完毕,点“确定”再次出现指导语。第二次指导语是:“下面屏幕将再次逐个呈现一系列汉字。其中一半是你刚才看过的,一半是没有看过的。请你对这些呈现的汉字作出判断,是否你刚才看过的,并用鼠标对你判断的肯定程度作等级评价。如果100%肯定看过,请点击“1”;如果觉得可能(75%肯定)看过,请点击“2”;如果觉得不能确定(50%肯定)看到过,请点击“3”;如果觉得可能(25%肯定)没看过,请点击“4”;如果100%肯定没有看过,请点击“5”。当你明白了上述实验的步骤后,就请点击下面的“正式实验”按钮“开始”。”
将另外100个作为噪音的汉字与原来呈现过的汉字混合后再次随机呈现。被试按照实验指导语要求对每个呈现的汉字作出是“信号”还是“噪音”的判断,并要求被试按五个等级评价。实验结束,点击结束提示语中的确定可直接查看结果,也可以换被试继续实验,以后在主界面“数据”菜单中查看。
2.4数据处理
采用了EXCEL 2010进行数据处理
3 结果
3.1 描述性统计结果
表1 被试一(女)五种评价等级下对刺激的判断
判断标准
肯定看过
可能看过
不能确定
可能没看过
肯定没看过
信号(SN)
0.59
0.08
0.02
0.09
0.22
噪音(N)
0.09
0.01
0.01
0.04
0.85
被试一对判断为“肯定看过”的信号汉字的概率为0.59,噪音汉字的概率为0.09;被试一对判断为“可能看过”的信号汉字的概率为0.08,噪音汉字的概率为0.01;被试一对判断为“不能确定”的信号汉字的概率为0.02,噪音汉字的概率为0.01;被试一对判断为“可能没看过”的信号汉字的概率为0.09,噪音汉字的概率为0.04;被试一对判断为“肯定没看过”的信号汉字的概率为0.22,噪音汉字的概率为0.85。
表2被试二(男)五种评价等级下对刺激的判断
判断标准
肯定看过
可能看过
不能确定
可能没看过
肯定没看过
信号(SN)
0.61
0.04
0.08
0.05
0.22
噪音(N)
0.23
0.02
0.07
0.06
0.62
被试二对判断为“肯定看过”的信号汉字的概率为0.61,噪音汉字的概率为0.23;被试二对判断为“可能看过”的信号汉字的概率为0.04,噪音汉字的概率为0.02;被试二对判断为“不能确定”的信号汉字的概率为0.08,噪音汉字的概率为0.07;被试二对判断为“可能没看过”的信号汉字的概率为0.05,噪音汉字的概率为0.06;被试二对判断为“肯定没看过”的信号汉字的概率为0.22,噪音汉字的概率为0.62。
3.2 两名被试在四种判断标准下的击中率和虚报率
表3 被试一(女)四种判断标准下的击中率和虚报率
判断标准
C1
C2
C3
C4
击中率
0.59
0.67
0.69
0.78
虚报率
0.09
0.10
0.11
0.15
被试一在判断标准C1下的击中率为0.59,虚报率为0.09;在判断标准C2下的击中率为0.67,虚报率为0.10;在判断标准C3下的击中率为0.69,虚报率为0.11;在判断标准C4下的击中率为0.78,虚报率为0.15。
表4被试二(男)四种判断标准下的击中率和虚报率
判断标准
C1
C2
C3
C4
击中率
0.61
0.65
0.73
0.78
虚报率
0.23
0.25
0.32
0.38
被试二在判断标准C1下的击中率为0.61,虚报率为0.23;在判断标准C2下的击中率为0.65,虚报率为0.25;在判断标准C3下的击中率为0.73,虚报率为0.32;在判断标准C4下的击中率为0.78,虚报率为0.38。
3.3 两名被试的辨别力d’和判定标准β
表5 被试一(女)四种判断标准下的辨别力d’和判断标准β
判断标准
C1
C2
C3
C4
辨别力d’
1.568
1.721
1.722
1.809
判断标准β
0.844
0.803
0.793
0.746
被试一在判断标准C1下的辨别力为1.568,判定标准为0.844;在判断标准C2下的辨别力为1.721,判定标准为0.803;在判断标准C3下的辨别力为1.722,判定标准为0.793;在判断标准C4下的辨别力为1.809,判定标准为0.746。
表6被试二(男)四种判断标准下的辨别力d’和判断标准β
判断标准
C1
C2
C3
C4
辨别力d’
1.018
1.060
1.081
1.078
判断标准β
0.852
0.835
0.806
0.793
被试二在判断标准C1下的辨别力为1.018,判定标准为0.852;在判断标准C2下的辨别力为1.060,判定标准为0.835;在判断标准C3下的辨别力为1.081,判定标准为0.806;在判断标准C4下的辨别力为1.078,判定标准为0.793。
3.4 根据四对击中率和虚报率的数值,两名被试的ROC曲线图
由图可看出,被试一(女)的击中率和虚报率都随先定概率的增大而增大。
由图可看出,被试二(男)的击中率和虚报率都随先定概率的增大而增大。
4 讨论
4.1 讨论如果要比较7岁和10岁儿童对汉字记忆的能力,应如何用评价法进行实验;
由于7岁和10岁的儿童认识的汉字数量及其有限,所以首先在设置汉字这一环节要特别注意,一定要选用他们学过并且记住的汉字,可以以他们的语文书为参考。而且儿童的记忆容量比成人的要小,所以在信号和噪音设置的数目上要有所减少。实验的评定等级可以还设为五个等级:肯定看过,可能看过,不能确定,可能没看过,肯定没看过。但是实验的指导语一定要简单易懂,并且主试要保证让儿童充分理解实验过程之后,这样儿童做出来的实验结果才有价值。
4.2 讨论评价法与有无法的主要不同之处;
有无法实验需要事先确定SN刺激和N刺激,以及先定概率;然后随机呈现SN和N,并要求被试报告S刺激出现与否。针对一种先定概率或奖励办法,这种方法只要求被试确立一个刺激标准并据此报告:刺激引起的感觉强度高于判断标准则报告“有”,刺激引起的感觉强度低于判断标准则报告“无”。因此有无法会损失大量信息,如被试对上述反应的确信程度等。而在评价法实验中,既要求被试回答呈现的刺激是否信号,又要求被试说明对于回答的确信程度,因此用评价法进行一轮实验,就可以获得有无法多轮试验才能得到的结果。
4.3 讨论假若本实验的刺激换成图片,推测语词记忆和图片记忆的结果差异,并讨论差异的原因;
个人认为,若将实验刺激换成图片,预测被试的再认能力会有所提高,原因在于:被试作为中国人,对于汉字的认识熟悉程度很高,且呈现的汉字刺激都是人们日常熟悉的汉字,极易混淆,如“天”与“大”,“土”与“士”的混淆,让被试不易分辨,哪些刺激是实验中呈现的刺激,哪些是本身就记住的语词,所以可能会导致被试在做出“不能确定”的判断增多;而对于图片而言,给被试呈现的图片,对被试来说,都是新刺激,所以当被试看过呈现的图片后,熟悉感就会提升,将这些图片放在陌生图片中时,预测被试可能会很快分辨出是否为刚刚的熟悉图片,所以,可能在做出“肯定看过”和“肯定没看过”的判断增多,在做出“不能确定”的判断减少。