1、目 录摘 要IAbstractII1 文献综述11.1 基于实物操作的老年人日常问题解决能力测验11.1.1 老年人日常问题解决能力的分类11.1.2 老年人日常问题解决能力的评估11.1.3 老年人日常问题解决能力的测量31.2 题组与局部试题依赖研究41.2.1 题组41.2.2 局部试题依赖51.3 题组反应理论的发展及等级反应题组模型71.3.1 题组反应理论的提出71.3.2 题组反应理论相关研究81.3.3 等级反应题组模型91.3.4 等级反应题组模型参数估计方法9 1.4 已有研究存在的问题及本研究的意义102 研究对象与方法122.1 测量工具122.2 研究对象122.3
2、问卷施测122.4 分析工具123 结果与分析133.1传统项目反应模型强假设检验133.1.1 单维性检验133.1.1.1 EFA检验测验单维性133.1.1.2 CFA检验测验维度143.2 传统项目反应模型项目参数估计153.2.1 传统项目反应模型项目参数估计153.2.1.1 区分度a参数分析163.2.2.2 难度b参数分析163.2.2.3 测验信息函数分析173.3 局部试题依赖性检验173.4 题组反应模型项目参数估计193.4.1 题组效果参数估计193.4.2 题组反应模型项目参数估计203.4.2.1 4题组反应理论区分度a参数分析233.4.2.2 10题组反应理论
3、区分度a参数分析233.4.2.3 4题组反应模型难度b参数分析233.4.2.4 10题组反应模型难度b参数分析233.4.2.5 4题组反应模型项目参数分析233.4.2.6 10题组反应模型项目参数分析243.5 题组反应模型被试能力参数估计243.6 题组反应模型参数对比253.6.1 区分度a参数对比253.6.2 难度b参数对比253.6.3 被试能力参数对比263.7 题组反应模型与传统项目反应模型参数对比263.7.1 区分度a参数对比263.7.2 难度b参数对比273.7.3 被试能力参数对比294 讨论314.1 项目反应理论基本假设检验314.2 基于实物操作的老年人日
4、常问题解决能力测验项目参数分析314.3 基于实物操作的老年人日常问题解决能力测验被试能力参数分析324.4 4题组反应模型与10题组项目反应模型参数估计对比324.5 题组反应模型与标准项目反应模型参数估计对比325 结论与展望345.1 研究结论345.2 未来研究方向34参考文献35附 录39致谢40摘 要随着现代心理与教育测量的发展,特别是自二十世纪五十年代以来项目反应理论的发展,测验编制的科学性越来越高。项目反应理论是建立在局部试题独立的强假设下,但随着具有局部试题依赖的题组题型的运用越来越广泛,项目反应理论对题组类测验的参数估计会出现偏差,此时应运用题组反应理论进行测验质量分析。目
5、前国内外对题组反应理论的研究多是模拟研究,实证研究非常少。本研究为考察基于实物操作的老年人日常问题解决能力测验的项目性能,采用基于实物操作的问卷调查法对450名60至84周岁的老年人进行实证研究,运用题组反应模型及传统项目反应模型进行数据分析。结果如下:(1)基于实物操作的老年人日常问题解决能力测验质量优良,该测验具有良好的区分度、难度;(2)基于实物操作的老年人日常问题解决能力测验符合单维性假设条件,即测验只测量老年人日常问题解决能力;(3)基于实物操作的老年人日常问题解决能力测验违背局部试题独立前提,统计量及题组效果结果显示项目间存在依赖性;(4)测验长度一定时,不管是4个题组的分类还是更
6、精细的10个题组的分类,题组反应模型参数估计结果基本一致,特别是被试能力参数估计结果几乎一样;(5)与题组反应模型相比,忽略项目间依赖性的传统项目反应模型会高估测验区分度、难度,而且明显高估被试能力,低估被试能力估计值的估计标准误。关键词:题组;局部试题依赖;题组反应模型;基于实物操作的老年人日常问题解决能力测验AbstractWith the development of modern psychology and education measurement, especially with the development of the item response theory since
7、the 1950 s, the testing construction is becoming more scientific. Item response theory is based on strong assumption of local indepentdent, but with the more widely using of testlets, item response theory to estimate the parameters of testlets will have some deviation, testlet response theory should
8、 be applied for test quality analysis at this point. At current, the researches of the testlet response theory both in domestic and overseas are mostly simulation study, very little empirical research. This study in order to investigate the quality of the questionnaire “Performance-based assessment
9、on the Chinese elders ability of everyday problem solving”, which is based on the observed task of daily living, surveying on 629 old people under the age of 60 to 84 in empirical study, using the testlet response model and traditional item response model for data analysis. The results are as follow
10、s: (1) Theresultsof items analysis is showing that the questionnaire“Performance-based assessment on the Chinese elders ability of everyday problem solving” has a good quality, the questionnaire has moderate difficulty and satisfactory discrimination. (2) The questionnaire meet the condition of Unid
11、imensionality hypothesis, namely the questionnaire only measures the elders ability of solving the everyday problems. (3) The questionnaire has breach the local independent premise, the results of Q3 index and (testlet effects var) show that the local item dependence exists within testlets. (4) When
12、 the questionnaire length is fixed, whether the classification of the four testlets or finer classification of 10 testlets, theparameterestimates of testlet response model are basically consistent, especially the ability parameter estimation results are nearly the same.(5) Compared with the testlet
13、response model, traditional item response model tends to overestimate the discrimination and difficulty of the test, obviously overestimate the ability parameter estimation and underestimate the standard error of ability parameter estimate. Key Words: testlet; local item dependence, LID; testlet res
14、ponse model; Performance-based assessment on the Chinese elders ability of everyday problem solving based on the observed task of daily living39赣南师范学院硕士论文1 文献综述1.1 基于实物操作的老年人日常问题解决能力测验我国已于1999年进入老年化社会,随着我国老龄化社会的到来,老年人健康问题,特别是老年人心理健康问题日益受到社会各界关注。日常问题解决能力是近年来老年人心理研究中比较活跃的领域之一,心理学研究日常问题解决能力主要考察个体对日常问题表
15、征的方式、采取的解决策略、解决的过程和解决的效果等(许淑莲、申继亮,2006)。目前,实践智力(Practical/Pragmatic Intelligence)、实践问题解决能力(Prac-tical Problem Solving)、日常问题解决能力(Everyday Problem Solving)、日常认知(Everyday Cognition)、日常能力(Everyday Competence)等都是指个体解决日常生活中所遇到的问题的能力。本研究中所使用的老年人日常问题解决能力的概念就是指老年人解决其生活中所必然面对的实际问题的能力,这种能力极大地影响着老年人生活质量及其身心健康。那
16、么老年人生活中会遇到哪些日常问题?怎样评估测量呢?1.1.1 老年人日常问题解决能力的分类日常问题解决涉及到生活中的多个方面,较为一致的看法是把日常问题解决分为完成活动任务和处理人际关系两种类型,也即工具性问题解决和人际性问题解决(Camp et al., 1989; Marsiske & Willis, 1995; Blanchard-Fields et al., 1997)。工具性问题解决(Instrumental Problem Solving),指的是个体从事对其生存具有工具性意义的实践性活动,如购物、服药、打电话、做饭等;人际性问题解决(Interpersonal Problem S
17、olving)主要涉及人际情绪情感因素,指处理在社会关系情境中产生的情绪情感反应的问题,如取悦妻子、消除夫妻间矛盾等。经典的工具性日常问题解决(Instrumental Activity of Daily Living, IADL)测验由服药、备餐、理财、打电话、洗衣、家务和出行七项任务组成, 并且每项任务都反映了日常问题解决能力的某一个方面。人际性问题解决由于涉及情绪情感等非理性因素,具有高度的复杂性及不确定性,是一种典型的结构不良问题,一般对人际问题解决主要采取定性分析的研究方法。在实际生活中工具性问题解决也可能涉及人际性问题解决,比如去菜市场买菜可能会和商贩讨价还价等。根据老年人实际生活
18、情境及中国国情,本研究使用的基于实物操作的老年人日常问题解决能力问卷中的日常问题解决能力不进行工具性和人际性问题解决的具体分类,总共包括服药、打电话、电器使用和理财四个方面。1.1.2 老年人日常问题解决能力的评估老年人日常问题解决能力的评估具有情境性、复杂性的特点。对于老年人日常问题解决能力的评估从最开始的从任务出发的自我报告法到本研究采用的从认知能力出发的基于实物操作的评估方法,大致可分为两类:一类是基于非实物操作的评估方法,包括自我报告法、代理报告法、纸笔测验法;一类是基于实物操作的方法。改进评估老年人日常问题解决能力的方法一直倍受重视,至今采用自我报告法仍占大多数(陈勃,2007)。自
19、我报告法是让被试完成自陈式问卷,即老年人根据自己实际情况评价自己的日常问题解决的能力等级或水平。这种评估方法施测简单方便,可以用于团体施测,但用此种方法的施测结果非常主观,身体健康或主观效能感高的被试倾向于高估自己的能力。为了避免这种主观倾向,有研究者采用代理报告法代替被试自我报告。代理报告也存在代理人主观倾向问题,代理报告人与被评分者关系好坏会影响评分的高低,并且他人在总体上倾向于低估年老者的能力(Diehl M, 1998)。 非基于实物操作测评老年人日常问题解决能力的评估方法除自我报告法及代理报告法外,还有一种以客观操作为基础的纸笔测验法。纸笔测验法一般是把说明书或图表以文字材料或图表材
20、料的形式在纸上呈现给被试,要求被试选出正确答案。实际上纸笔测验相当于让被试做阅读理解或数学应用题,一部分考查的是老年人日常问题解决能力,一部分考查的是被试的阅读理解及记忆思维能力。当被试做错时,也许是被试不理解题目意思,而非不具备这种问题解决能力。并且在作答过程中被试会产生一种陌生感或虚假感,纸笔测验不能反映被试解决日常真实情境下问题的效率。总而言之,纸笔测验只是一种对真实日常问题以书面形式表达出来的模拟,这种模拟和问题解决与客观实际可能会有一定差距。 Willis和Marsiske(1993)参考美国教育考试服务中心基本技能测验(ETS basic skills Tests)编制出的日常问题
21、解决测验(Everyday Problem-Solving Test, EPT)就是运用纸笔测验的形式评估老年人日常问题解决能力。另外,EPT 也有自评式的项目。我国也有研究者则将自我报告法与纸笔测验结合起来,李茵、王大华和申继亮(1997)编制的适合国内老年人的日常问题解决测验, 同样包括自评和操作两部分测验, 后一部分涵盖了老年人独立生活中的七项基本日常活动,如做饭、吃药、购物、邮寄等。上述自我报告法、代理报告法、纸笔测验法均不能真实全面的反映被试的日常问题题解决能力,越来越多的研究者主张根据被试的实际操作行为即被试的实物操作对其日常能力进行评估,如Diehl等(1995)在EPT基础上发
22、展起来的可观察的日常生活任务(Observed Tasks of Daily Living, OTDL)测验。OTDL测验有三项任务备餐、服药和打电话,施测时给被试呈现一些生活中的常见物(如蛋糕搅拌器、药品、电话本)作为刺激,要求被试通过现场操作完成9项做饭方面的任务,13项吃药方面的任务和9项打电话方面的任务,这些任务不是很容易就能完成,需要进行分析或推理。被试平均完成测验时间在40-60分钟,耗时较长。Diehl等(2005)对此问卷进行了修订,编制了可观察的日常生活行为问卷修订版(OTDL-R),将备餐一项改为理财, 项目也由原来的31项调整为9项,测试时间更短,任务难度分布范围扩大,效
23、度也符合心理学测验的要求。与非基于实物操作评估方法相比,基于实际操作评估方法的优点在于与老年人的生活实际及真实的问题解决任务更为接近,不仅保证了较高的内部效度,而且保证了拥有较高外在效度或生态效度(Allaire et al., 2009)。老年人日常问题解决能力与老年人日常生活的实际以及他们所处的自然环境、社会环境紧密关联,用国外的工具来评估中国老年人的日常问题解决能力其可适程度相当低微。因此,我国自主编制出的中国文化背景下基于实物操作的老年人日常问题解决能力问卷对考查我国老年人日常问题解决能力尤为重要。1.1.3 老年人日常问题解决能力的统计测量老年人日常问题解决能力的评估不管是自我报告法
24、、代理报告法、纸笔测验法,还是基于实物操作的评估方法,老年人日常问题解决能力的测量都是基于经典测量理论(Classical Test Theory, CTT),最为常用的就是平均数的比较、相关研究及测验信效度的测量。经典的真分数理论有三个方面的基本假设。假设一,真分数不变理论,即个体的特质恒定不变,具有稳定性。假设二,误差完全随机。假设三,观察分数是真分数与误差之和。相对于IRT的强假设,CTT的基本假设我们称之为弱假设。CTT虽然历史悠久,应用广泛,但CTT仍有很大的局限性。首先,测验统计量(测验的信度、效度)的样本依赖性。对同一项目而言,被试群体水平高,则测验难度估计值低,反之亦然。由于老
25、年人日常问题解决能力具有很大的个体差异性,因此基于CTT的测验质量好坏,很大程度上依赖于被试能力。第二,测验分数对具体测验的依赖性。测量相同能力的两个不同测验的分数,即使测量的外部条件标准化,但由于CTT控制应用误差标准化,测量的项目其间一般都是不等的。第三,能力量表与难度量表的不一致性。被试能力量表参照系是测验的卷面总分,被试难度量表参照系是被试群体。被试得分80表示被试答对了80%的题,项目难度0.8表示80%的被试答对了该题。因此,我们无法判断0.8难度的项目就是与得分80的被试水平匹配。鉴于CTT的局限,新兴的项目反应理论(Item Response Theory, IRT)兴起并蓬勃
26、发展,像SAT、GRE大规模考试都是运用IRT来解决考试标准化问题。项目反应理论又称潜在特质理论,它以项目及被试能力作为考查对象。IRT的基本思想是:将被试的潜在能力与其在测验试题上答对或答错的反应概率,透过一条连续递增的函数即项目特征曲线(Item Characterristic Curve, ICC)联系在一起。与CTT不同,IRT是建立在强假设基础上的。其基本假设如下: (一)单维性假设单维性的基本假设是指测验的维度必须是单一的,测验中的各个试题都测量同一种共同的能力或潜在特质,即测验试题必须集中在测量某种特定能力上。 (二)局部独立性假设局部独立性是指当被试作答某一题时,不受其他试题的
27、影响,即被试在任何一题的反应是独立的。题组形式的测验就违反了局部独立性假设。 (三)非限时性假设非限时性假设是指被试能否完成测验是受被试的能力影响,而非时间不够答完试题所影响。此假设是隐含在单维度假设里,若因为时间的限制影响到被试作答表现,则单一维度的假设将受到考验。(四)知道正确假设在IRT理论中,若被试知道某一试题的正确答案,那被试必然会答对该试题;若被试答错某一题,必然是被试能力不够。相对于CTT,IRT理论具有许多优点。第一,项目参数的不变性,即项目参数的估计与所选取被试无关。第二,能力参数不变性,即被试能力参数的估计与所选取测验项目无关,也就是说各测验项目对总测验的贡献是独立的。第三
28、,采用非线性模型,建立了被试对项目的反应与其潜在特质之间的非线性关系,这一点更符合事实。测验信息函数的概念代替了信度理论,用测验对能力估计所提供的信息量的多少来表示测量的精度。鉴于IRT的诸多优势,本研究采用IRT模型分析测验质量。题组反应模型是标准项目反应模型的延伸,是对题目参数进行更加精准的估计与分析的理论。因此根据实际情况,本研究分别采用传统项目反应模型和题组反应模型对基于实物操作的老年人日常问题解决能力问卷进行测验性能分析。1.2 题组与局部试题依赖研究1.2.1 题组美国学者Ebel(1951)提出编写测验试题的建议,他认为情境依赖的题组(C-ontext-Dependent Ite
29、m Set)可以测量到被试较为高阶的学习成果。Haladyna(1992)也曾针对不同的学科领域,如:阅读理解、数学问题解决等,提出题组(Item Sets)得以测量到高层次思考的说明;另外,他也认为题组的测验形式,可以让测验施测者获得更多有关被试的学习信息。随后也有研究表明,题组题型使得客观题型试题也能测量到学习者高层次思考的能力(Crehan, Sireci, Haladyna & Henders-on, 1993)。简言之,情境依赖的题组,使得学习者得以应用其分析思考和问题解决的知识和能力(Wainer & Lewis, 1990; Allen & Sudweeks, 2001)。不仅如
30、此,使用题组还可以节约被试阅读材料的时间, 提高测验的效率(Bradlow, Wainer, & Wang, 1999; Wainer, Bradlow, & Du, 2000; DeMars, 2006; Wainer, Bradlow,& Wang, 2007; Huang & Wang, 2013)。所谓情境依赖的题组,指的是共用相同刺激的一组试题(Haladyna, 1992; L-ee, 2000;Allen & Sudweeks, 2001),因此一个情境依赖的题组必然包含一个刺激(Stimulus)或题干,和一组需以该刺激或题干作为答题依据的试题。题组题型提出后,有同的学者使用不
31、同的名称来指称此种题型,如早先的解释作业(Interpretive Exercises)(Ebel, 1951; Wesman, 1971);段落(passages)(Yen,1993);以及最近的题组(Testlets)(Lee, 2000; Lee & Frisbie, 1999; Wainer & Kiely, 1987;Wainer & Lewis, 1990)等。依据最近的研究文献,题组(Testlets)这一个名词是目前最广受学者所接受与使用的。由于题组形式可以测量较为高层次的思考,并应用于多种题型上,因此,目前许多大型的标准化成就测验或国家考试,都采用此种测验类型来评估学生的成就
32、。例如:美国教育进展评价(National Assessment of Educational ProgressNAEP)、国际阅读素养进展研究(Progress in International Reading Literacy Study, PIRLS)、国际学生评估项目(Programme for International Student Assessment, PISA)等大型评量;我国的大学入学考试、硕士研究生入学统一英语考试等,皆使用了题组的测验形式。1.2.2 局部试题依赖题目分数独立是经典测量理论(CTT)和项目反应理论(IRT)的假设前提。在CTT中,其中一项基本假设为测量
33、误差与受测者真实分数之间呈零相关。在IRT中的基本假设局部独立性(Local Independence, LI),是指在给定能力水平的情况下,被试作答各试题的答对概率是相互独立的,即每个被试在某一题的正确反应概率不受其它试题反应所影响。令为某一被试的潜在特质或能力,Ui为被试回答试题i的随机反应(i=1,2,3,n),P(Ui | )则为给定被试能力下,在试题i反应的概率,可以写成个别试题反应概率的乘积(Chen & Thissen, 1997; Lord, 1980; Yen, 1993),公式如下:P(U1,U2, Un | ) = P(U1 | ) P(U2 | )P(Un | )=在I
34、RT中试题局部独立性的假设,主要是为了参数估计的方便性,根据被试作答的联合概率,利用极大似然估计法(Maximum Likelihood Estimate, ML)进行参数估计,经过多次迭代(Iteration)后求得各参数的近似值。被试在一份测验上的反应,如果受到能力值以外的因素影响,这时就产生了局部试题依赖(Local Item Dependence, LID)。例如,在题组题型中,由于同一个题组内的试题是使用相同一段文字刺激,所以试题间可能相互有关联,被试在作答某一试题时会受到其它试题的作答情形而影响。相对于局部独立性的定义,笔者认为局部试题依赖可定义为,在给定能力水平的情况下,被试作答
35、各试题的答对概率是相互依赖的,即每个被试在某一题的正确反应概率受其它因素所影响。詹沛达,王文中,王立君(2013)在项目反应理论新进展之题组反应理论一文中认为局部独立性中“局部(Local)”的含义应是“给定的”, 局部独立性假设就可被描述为“假设:在给定被试能力时, 不同的项目反应间相互独立”且“假设:在给定项目参数时, 不同能力的被试在该项目上的反应间相互独立”;与对局部项目独立性的理解相似, 局部项目依赖性可理解为“在给定被试能力时, 不同的项目反应间存在依赖性”。局部试题依赖的“依赖”也就是试题分数的条件相关性(Conditional Correlation)可分为正面的以及负面的两种
36、。正面的局部依赖是指,如果被试在某一试题的表现比预期的好(或表现比预期的不好),那他在其它试题上也有可能会表现的比预期的好(或表现比预期的不好);而负面的局部依赖是指,被试在某一试题的表现良好(或表现不好),但他在其它试题的表现有可能非常差(或非常好)。Yen(1993)认为局部依赖可能是由外在协助或干扰(External Assistance or Interference);答题速度(Speedeness);疲劳(Fatigue);练习(Practice);试题或反应形式(Item or Response Format);段落依赖(Passage Dependence);试题串(Item
37、Chaining);对先前答案的解释(Explanation of Previous Answer);评分规则或评分者(Scoring Rubrics or Raters)和知识、内容及能力(Content, Knowledge, and Abilities)这些因素所造成。根据许多研究者的分析与探讨,忽略试题的局部依赖,将可能造成两种负面结果。第一种是测验信息函数的高估及测验标准误的低估(Sireci et al., 1991; Wainer & Thissen, 1996; Yen, 1984, 1993)。Yen(1993)指出,假如测验存在局部试题依赖性,将会造成几乎100%信息函数高
38、估,因而会低估想达到测验精准所需的试题数。第二种是参数估计的偏差,有学者认为如果存在局部试题依赖性,平均会有60%的试题参数估计会有偏误。测验的试题若违反了项目反应理论局部独立性假设前提,将对试题的信效度、参数估计产生重要影响(Yen,1993)。在二元计分模型下,研究者多以Q1、Q2、Q3、2、G2、diff、diff等作为检验试题局部独立性指标(Chen & Thissen, 1997; Yen, 1984);在多元计分模型下,2、G2、Q3、Zd常被用来作为侦查指标(Kim, Cohen &and Lin, 2005),这4个指标中,最常用的为Yen(1984)所提出的Q3统计量。1.3
39、 题组反应理论的发展及等级反应题组模型1.3.1 题组反应理论的提出由于题组题型测验具有局部试题依赖的特性,这违背了IRT的假设前提。若使用传统IRT模型分析试题,忽略题组试题内的相关,则会高估被试能力且试题参数会产生偏估的情形(Wainer, 1995; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991; Wainer & Thissen, 1996; Wainer & Wang, 2000; Yen, 1993)。另一种比较传统的处理方法是将一个题组看成一个多级评分的超级项目(Super Item, SI, Sireci et
40、al., 1991),以多级计分的方式来计算该题组得分,并以多级评分模型分析试题。比如:一个题组内有5题二元计分的选择题,答对1题得一分,则被试在该题组所得分为0到5分。常用的多级评分模型有称名反应模型(Nominal Response Model, NRM)( Bock, 1972)、分部评分模型(Partial Credit Model, PCM)(Masters, 1982)、广义分部评分模型(Generalized Partial Credit Model, GPCM) (Muraki, 1992)、等级反应模型(Graded Response Model, GRM)(Samejima
41、,1969) 。Wainer(1995)认为当整份测验包含较高比例的独立试题且题组效果为适度时,也许可以使用多级计分模型来分析题组题型试题。这种处理方法虽然在一定程度上可以减轻局部依赖性对参数估计精度和信度的影响, 但仍存在一定的不足(Wang & Wilson, 2005)。第一,采用多级评分方法可能会低估测验信度;第二,无法区分在SI上得分相同被试的反应组合(比如被试A答对第1、2、5题, 被试B答对第2、3、4题,虽然两位被试在该题组的得分都是3分,但实际上他们在各题的表现却不尽相同),无法充分利用题组内所有项目提供的信息;第三,不适用于基于题组的计算机化自适应测验。鉴于此,Bradlo
42、w,Wainer & Wang (1999)通过引入一个新的概念题组随机效应参数, 将标准的两参数逻辑斯蒂(2PL)项目反应模型推广带有题组效应参数的两参数逻辑斯蒂(2PL)项目反应模型题组反应(Testlet Response)模型, 标志着题组反应理论(Testlet Response Theory, TRT)的出现。TRT是在IRT的基础上形成的一种扩展理论。TRT构建了一系列数学模型,它们与传统IRT最基本的区别在于,通过引入题组参数id(j)为由于题组dj而产生的额外依赖建立起模型。具体方法是:将线性预测量tij的标准形式 扩展为: 其中,aj、bj和i分别是题目j区分度、题目j难度
43、和考生i能力,id(j)描述在题组dj中题目j和考生i的题组效应(交互作用),也就是题组随机效应参数。对于一个给定考生,同一题组内题目的额外依赖就以这种方式建模,因为题目都会共享它们的预测分数中的效应id(j)。由定义可以看出,id(j)=0时所有题目独立。因此,是参数id(j) 的设定体现了这个模型和与标准化IRT模型之间的差别。1.3.2 题组反应理论相关研究关于题组反应理论的研究,目前国内外比较多的是集中于模型研究及模拟研究,实证研究非常少。Bradlow,Wainer & Wang(1999)最早以模拟研究的方式进行题组反应模型的研究,在测验长度固定(30题独立试题及30题题组试题)情
44、况下,改变题组数(3或6个题组)和题组效果变异数(0.5、1、2),分别采用BILOG-MG软件(Zimowski, Muraki, Mislevy & Bock, 2003)、不考虑题组效果的Gibbs抽样法及考虑题组效果的Gibbs抽样法进行参数估计精准度的比较。结果显示,三种估计方法的试题参数及能力参数的估计误差都会随着题组效果变异数变大而增加,且采用考虑题组效果的Gibbs抽样法进行参数估计最精准。Wang & Wilson(2005)进行模型研究,采用模型资料改变试题计分类型(二元、多元及混合计分)、题组数(4或8个题组)、被试数(200或500)、题组效果变异数(0.25、0.5、
45、0.75、1),对测验项目参数、被试能力参数及题组效果变异数进行参数估计。结果显示,试题难度参数和题组效果变异数的估计误差随人数增加而减小,被试能力参数估计误差随题组数增加而减小。Li, Bolt & Fu(2005)根据模拟及实证研究证明使用题组测验进行测验等化时必须采用适合题组模型的等化方法。台湾及大陆学者对题组反应理论的研究近年来也越来越多。许思雯(2008)以模拟研究探讨题组测验在不同计分模式(试题计分IRT计分模式、题组记分IRT模式、TRT计分模式)对被试能力参数的影响。另外她还以2006年PISA(促进国际阅读素养研究)阅读理解测验实证研究不同计分模型对被试能力参数估计的差异情形
46、。模拟资料结果显示,以TRT计分模式对被试能力估计最为精准。实证研究结果显示,PISA阅读平量中的各个题组具有不同程度的局部试题依赖,相对于题组计分的多点IRT模式,单一试题计分IRT模式与TRT模式在能力估计上的相关较高。涂冬波、蔡艳、漆书青等(2009)引进具有相依性的题组模型,介绍实现了项目间相依性的探查方法,并采用全新的MCMC估计实现了模型的参数估计。模拟研究表明,当项目间存在相依性时,题组模型的参数估计精度较高,忽视项目间相依性的参数估计会给参数估计带来较大的不良影响。刘玥、刘红云(2012)为探讨题组随机效应适用范围,采用Monte Carlo模拟研究,分别使用2-PL贝叶斯题组
47、随机效应模型(BTRM)和2-PL贝叶斯模型(BM)对数据进行拟合。结果显示:(1) BTRM不受题组效应和题组长度影响, BM对参数估计的误差随题组效应和题组长度增加而增加。(2) BTRM具有一定的普遍性, 且当题组效应大, 题组长, 题目数量大时使用该模型能减少估计误差, 但是当题目数量较小时, 两个模型得到的能力估计误差都较大。(3)当局部独立题目的比例较大时,两种模型得到的参数估计差异不大。吴锐、丁数良、甘登文(2010)对含题组的测验等值方法进行研究,采用基于题组的2PTM模型及IRT 特征曲线法等值,进行的Monte Carlo 模拟实验。其实验结果表明, 考虑了局部相依性的题组
48、模型2PTM绝大部分情况下都比2PLM等值的误差小且有显著性差异。1.3.3 等级反应题组模型Wang,Bradlow & Wainer(2002)在等级反应模型中加入题组随机效应参数而成为等级反应题组模型(Graded-Response Testlet Model, GRTM)。在计算被试的真正反应概率时分为两步,首先计算操作特征曲线(Operating Characteristic Curves):代表能力值为的被试所答题组试题第题得分以上的反应概率;代表被试能力参数;代表第题的区分度;代表第题第个的阈值参数(Threshold Parameter);代表被试作答题组d()时的题组效果;且和。再借由上述公式计算类别反应曲线(Category Response Curve):其中代表能力值为的被试作答题组试题第题得分的反应概