首页 量身订做的测验

量身订做的测验

量身订做的测验量身订做的测验 * 參考資料二量身訂製的測驗—適性測驗何榮桂國立台灣師範大學資訊教育學系教授一、關於適性測驗電腦化適性測驗(computerized adaptive test;CAT)是測驗理論與實務伴隨電腦科技的發展而形成的產物。至目前為止,CAT的理論與技術均已十分成熟,一些常見的測驗工具(如ETS的托福測驗等)也以CAT的方式施測,反觀國內,測驗的使用頗為頻繁,但尚未嘗試CAT,對於一個測驗工作者而言,真有些遺憾，本文擬以淺顯的文字,說明CAT的原理、製作與實施方式,提供有意研發CAT...

量身订做的测验 * 參考資料二量身訂製的測驗—適性測驗何榮桂國立台灣師範大學資訊教育學系教授一、關於適性測驗電腦化適性測驗(computerized adaptive test;CAT)是測驗理論與實務伴隨電腦科技的發展而形成的產物。至目前為止,CAT的理論與技術均已十分成熟,一些常見的測驗工具(如ETS的托福測驗等)也以CAT的方式施測,反觀國內,測驗的使用頗為頻繁,但尚未嘗試CAT,對於一個測驗工作者而言,真有些遺憾，本文擬以淺顯的文字,說明CAT的原理、製作與實施方式,提供有意研發CAT的測驗工作者參考。 1、測驗與人生評量(evaluation)與人的一生息息相關。人一出生,接生的產科醫生或產婆即根據生理特徵判斷新生兒的性別,這可能是人生第一次被評量。這個例子告訴我們評量的最基本意義。評量專家認為,評量就是根據某種法則(如生理特徵)賦予人(如新生兒)、事、物等一種符號(如男生或女生)的歷程。接著,人的一生即活在評量之中,諸如量身高、體重、血壓等,又如學校中大大小小的考試,都是評量活動,既使到了人生最後一刻,有時都還需要接受評量。測驗(test)或狹義的考試,是評量過程中最常見的工具之一,形式也多。測驗 1 或考試不外乎在進行診斷、選才、安置、預測、成就評定等活動,無論其目的為何,測驗所要求的是公平、合理或準確。人的一生雖被考得不計其數,但一般人對測驗的本質並不十分瞭解,而傳統測驗是否公平、合理、或準確,一般人似乎並不太在意,然而,測驗學家卻針對這些問題,不斷進行研究、探討,因而有多種測驗的產生,電腦化適性測驗即是其一。適性測驗即是量身訂製的測驗適性(adaptive)測驗就是量身訂製(tailored)的測驗。早期用量身訂製的測驗”tailored test”實比目前用適性測驗”adaptive test”傳神。量身訂製的測驗,意指給受試者做符合她/他能力(或特質)水準的題目最能反映她/他的能力或特質。對某一受試者而言,太難或太簡單的題目都沒有必要,也就是說,對某一受試者而言,題目太難或太簡單,即使此受試者答了這些題目,也無法從這些題目獲得此受試者之特質,或是說,這些題目並無法回饋受試者的訊息給主試者,這樣的測量就失去意義。適性測驗的實施過程,就是要從一組題目或題庫中找符合受試者能力水準的題目來施測,”找的方法”就是適性測驗的選題策略(item select strategies),也即判斷某題目是否符合某受試者能力水準的方法。一般而言,在一套題目(或一個題庫)裡,不容易一下子就能找到符合某一受試者能力水準的題目,通常要經過好幾題的測試,才能漸漸找到符合其能力水準的題目,為了測試某題是否符合受試 2 者能力水準,必須每答一題,就要估計一次受試者答了此題後的能力,所以每做一題就重新估計一次能力,這是適性測驗的一大特色,而每一階段(即每答一題)的能力估計也是適性測驗施測過程中非常重要的工作。適性測驗既然稱為量身訂製的測驗,在此就以試穿衣服為例,說明適性測驗的施測過程。假設某一款式的衣服有十一種大小不等尺寸(1代表最小,11代表最大)。當選購者對尺寸大小或售貨員對選購者的身材都一無所知的情況下,讓選購者試穿衣服誤差機率最小的選擇,最好是先選中等尺寸的衣服(因為身材中等的人最多)。在這個例子,最好先試穿6號衣服(在實施適性測驗時,6號衣服就是初始題目)。我們都有類似的經驗,在這麼多不同尺寸的衣服裡,第一次即選到合身的機率並不大,不合身當然要再挑選。如果太小,下一件當然要挑大一點的,反之,則選小一點的。問題是如何再從大一點的五件或小一點的五件中有效率的挑一件,在適性測驗裡即涉及選題策略了。選題策略是適性測驗過程中很重要的工作,而設計有效率的選題策略更是適性測驗研究者的研究重點。 3.電腦化的必要從前述的過程,就可知道適性測驗的每一階段都很繁瑣,每階段的選題與能力估計都涉及複雜的計算,如果沒有電腦的輔助,實施起來就很困難,這也就是何以適性測驗需要電腦化的理由,也因而稱為電腦化適性測驗。目前電腦硬體的功能都很強,軟體也十分親和,此時發展電腦化適性測驗已是很容易的事。 3 二、CAT與傳統測驗的異同適性測驗雖是一種以電腦施測的測驗型式,它與傳統的測驗有相同之處,也有不同的地方,以下即從幾個角度略做比較。 1.相同點 (1)目的相同測驗儘管可以用不同的方式來實施,但它們的目的都是想間接的測量人類的某種心理特質,因此都有同樣的目的。 (2)編擬試題的過程相同不同型式的測驗都需要題目,試題的產生不因測驗的型式而有差異,換言之,不同型式的測驗試題,它的編擬技巧及過程大抵相同。但適性測驗的限制則較多,至目前為止,適性測驗僅適用於兩分(binary)計分 (如是非、選擇,填空題等)、多點記分(如五點量表)或部分給分的題型,而大部分的傳統測驗仍然需依賴人工計分,因此,幾乎所有題型,包括簡答、申論題等,都適用。 2.相異點 (1)理論依據不同傳統測驗主要以古典真分數(true score)理論為基礎,古典測驗理論的假設較少,且容易滿足,有時又被稱為弱勢理論(weak theory),相反的,適性測驗則以 4 試題作答理論(item response theory; IRT)為理論根據,IRT係晚近從數學發展出來的測量理論,理論較嚴謹,假設也較難滿足,因此也被稱為強勢理論(strong theory)(限於篇幅,有關測驗理論請讀者參閱其他書籍)。 (2)施測流程不同一般人對傳統測驗的施測過程都很熟悉。傳統測驗試卷的編排大都從易而難,也即先排簡單的題目,接著才是較難的題目。一般的作答順序也會從簡單的先做,然後再做較難的。作答過程中,碰到暫時不會的題目可跳答,也允許更改答案 ,因此,傳統測驗的施測(或受試者作答)的流程大抵是線性且有彈性,而適性測驗的施測流程較多限制(或說較嚴謹),從前述試穿衣服的例子可知,它的流程是非線性的,目前答題的結果,才能決定下一題,且不能跳答或回過頭來修改答案。 (3)施測長度(題數)不同從前述可知,傳統測驗理論上規定每一受試者都要答完一套試卷的所有題目(除非有特別的規定),不管受試者會或不會,都要做相同的題目及相同的題數,最後也都以相同的題數(長度)來判斷結果,適性測驗則不然,不同的受試者所答的題目未必一樣,所答的題數也未必相同。如同試穿衣服的例子,從適性的過程來看,試穿的人未必要試完全部不同尺寸的衣服才能找到合身的衣服,有些人試穿三件即可找到合身的衣服,而有些人可能要試穿五件。 5 (4)測驗結果的表達方式不同傳統測驗大抵以原始分數(如學校的考試)來衡量受試者的成就或傾向,或以衍生分數(如標準測驗所提供的標準分數或百分等級常模等)來表示受試者在同質(如同年級、同地區或同年齡層等)團體中所佔的相對位置,而適性測驗通常以在同一個量尺(scale)的相對位置來表示受試者的能力或特質。綜合以上比較可知,傳統測驗的理論依據較寬鬆,限制較少,實際的應用較容易,因此,易於推廣,但卻較沒有效率,測驗結果的表達也較含糊,相對的,適性測驗的理論較嚴謹,基本假定也較不易滿足,實際應用較不容易,一般人也較不容易暸解,因此,其推廣較困難,但是,施測的過程較有效率,測驗結果的解釋也較合理。三、CAT的原理與流程 1.原理綜合前面的說明,我們可以為CAT的原理做一個比較明確的說明。適性測驗係應用現代心理計量理論,項目反應理論或稱試題作答理論,所發展出來之一種新的實施測驗方式。施測方式係根據一個簡單的原則,即,如受試者正確地回答一個題目,接下來呈現給他的題目會較前一個題目難一點,反之,倘若受試者答錯了一個題目,則下一個要回答的題目會比前一個題目簡單一些。在施測的 6 過程中,受試者每做完一個題目,不論對或錯,,其回答該題的能力將被重新估計,然後根據被重新估計的能力再呈現適合此階段能力估計的題目。每次被重新估計的能力將會更可信。循此原則,直到滿足一個預先設定的信賴水準或終止標準時,測驗即結束。 2.流程圖一適性測驗施測流程根據上述之例子及原理,在此可以將適性測驗以如圖一的流程表示出來。一測驗開始開始選擇初始題目是受試者作答分測驗選題否能力估計繼續未曾被作答?(選擇下一個施測題目) 否達(分)測驗終止條件?測驗管理 (選擇下一個分測驗) 是否達測驗終止條件? 結束是測驗結束個測驗如果沒有分測驗,則看圖一的左半部即可。從前面的說明可知,適性測驗施測過程雖然繁瑣,但從圖一的流程,大致可 7 分成三個階段,即「如何開始」測驗,做了一題之後,在傳統測驗,因係線性的進行,過程非常單純,但實施適性測驗係非線性的進行,因此才有「如何繼續」做下一題的問題。如前所述,這個階段涉及選題與能力估計。測驗進行到某種程度後,又需根據何種標準才能決定「如何結束」測驗。圖一中的三個階段,後面將更詳細的說明。 3.例子圖二係根據圖一的流程所產生的一個實際例子。從圖二的例子可以更具體的說明某一受試者接受CAT的施測過程。此測驗的結果(請先參閱最後一列)是一受試者在一個題數150題的題庫,終止點為估計標準誤.3161(此數值由150題的測驗訊息量換算而得),接受15題的測試後,受試者被估計的能力在1.941處(在一個能力量尺+3~-3間)。圖二的例子可以將其過程更詳細說明如下。施測階試題號受試反能力估估計標準段碼應計誤 1 43 .469 .8568 對 2 57 .929 .7527 對 3 55 1.271 .6440 對 4 12 1.443 .5703 對 5 13 1.590 .5281 對 6 54 1.772 .5009 對 7 114 1.879 .4741 對 8 26 1.975 .4525 對 9 103 1.805 .3910 錯 10 79 1.872 .3768 對 8 11 78 1.950 .3651 對 12 149 1.802 .3378 錯 13 15 1.848 .3282 對 14 76 1.882 .3208 對 15 74 1.941 .3161 對圖二適性測驗的實例如前所述,圖二的例子是一個受試者接受CAT的步驟,利用電腦的功能,可以將每一步驟的變化詳實的記錄下來。提供此CAT的題庫有150題。題庫中的每一試題係以三參數IRT模式估計獲得其難度、鑑別度及猜測度等三個試題參數。測驗開始之前,執行CAT的電腦對受試者目前的能力一無所知(於是假定此受試者為能力中等,也即在能力量尺+3~-3中的0)。因此,先以初始題目(難度適中的第43號題)測試,「受試反應」為答「對」,此階段(1),受試者的能力在能力量尺的”0”處右移至.469處。第一階段完成後,能力重新估計為.469,估計標準誤為.8568。此階段誤差還很大,必須繼續再試。因為受試答對第43題,則下一題(第57題)應該難一點。以此類推,此受試者繼續作答。從圖二可知,直到第8階段,受試者連續答對8題,受試者的能力估計值在量尺上也一直往右移動到1.975處,此時估計標準誤為.4525,還未達所訂的終止標準,因此,必須再繼續做。就已答對的8題而言,每一題都比前一題難一些。因第8階段的第26題也答對,因此,第9階段的第103題也會比第26題難一些。但是受試者答錯了第 9 103題,顯然,此題對此受試者而言可能難一些。因為答錯,所以其能力估計值就往左移到1.805處。循此程序,直到滿足.3161估計標準誤為止,此受試者共答了15題,能力估計值為1.941。不同的受試者接受此題庫的CAT測驗,也是循此程序,但所答的題目與題數則未必一樣,這是與傳統測驗非常不一樣的地方。四、CAT的製作程序製作一個CAT的程序,大致可分為下列步驟,(1)選擇一個合適的IRT模式、(2)建置一個已校準的題庫(calibrated item bank)、(3)決定測驗的起始點(starting point)、(4)選擇有效率的適性策略(adaptive strategy)及能力估計方法、以及(5)決定測驗終止的標準(termination criterion)等,以下將詳細說明這些步驟。如前所述,傳統測驗與CAT的製作在編擬試題的過程大致相同,祗是CAT的題型受到較多的限制。有了試題之後,傳統測驗以古典測驗的試題分析方法,計算每題的難度、鑑別度、誘答分析等,再依據這些試題的統計數據,挑選品質較佳的題目組成測驗。有了完整的一套測驗之後,還須估計此測驗的信度(可靠性)及效度(正確性),以檢定此測驗的適用程度,這是傳統測驗編製的大致過程。適性測驗除了需要電腦環境支援外,試題編擬(與傳統測驗大致相同)完成後,分析試題的方法就與傳統測驗有很大的不同。如前所述,CAT是奠基於數學導向的試題作答理論,就兩分計分的題型而言,目前已有許多測驗學家發展出 10 幾種模式,如單參數模式(one-parameter或Rasch model,此模式只考慮難度參數)、雙參數模式(two-parameter model,此模式考慮難度和鑑別度參數)、或三參數模式(three-parameter model,此模式同時考慮難度、鑑別度及猜測度等參數)。理論上還可發展出更多包含其它參數的模式,但所含的參數愈多,就會愈複雜,應用的限制也愈多,因此,實際上缺乏實用價值。前述三種模式各具特色,過去一些模擬研究指出,三參數較適合應用於CAT,因此,目前選擇此模式發展CAT者較普遍。這也是製作CAT的第一個步驟,選擇一個合適的IRT模式,以進行試題參數估計。選擇一個IRT模式估計試題的參數後,仍需檢定試題是否適合所選的IRT模式(可用卡方檢定其適合度),做為選題的參考。參數估計的方法與過程頗為複雜,所幸目前已有許多軟體(如MicroCAT、Bilog、及Multilog等)可支援,CAT製作者可免除很多繁重的計算工作。試題經過參數估計後,再依據適合度(goodness of fit) 檢定結果選擇品質較佳的題目,以為建立電腦化題庫之用。每一試題有了參數之後,可再依其參數繪製視覺化之試題特徵圖(item characteristic curve,ICC),計算其訊息量(item information),以做為判斷試題特性的參考。如前所述,CAT所依據的IRT理論,假設嚴謹,一份測驗(或題庫裡的試題)必須滿足其基本假定,才能發揮IRT的優點。IRT的兩個基本假定為單一向度(unidimentionality)及局部獨立(local independence)。單一向度是指一份測驗所測量的是一種能力(或特質)。此測驗(或題庫裡的所有試題)如能證明其為單向度 11 性,測驗結果方能合理的解釋。局部獨立是指受試者所答的試題間係統計獨立。此兩假設的檢定皆頗為複雜,單一向度已有很多方法可以應用,如能證明測驗具有單向度性,局部獨立也可伴隨成立。試題的參數也可用以檢定測驗的單一向度及局部獨立。如前所述,傳統測驗必須檢定信度及效度,然而CAT因受試者並非接受所有試題的測量,因此傳統的信度及效度在CAT裡就不那麼重要,在CAT裡,通常以測驗的訊息量(test information)來表示測驗的特性。一個測驗的訊息量即為全部試題訊息量的總和。測驗訊息量也可用來推估測驗標準誤,以作為設定CAT終止標準之參考。從以上的說明與比較可知,發展CAT比編製傳統測驗的過程繁瑣,嚴謹,且需電腦環境的支援,因此推廣也相對的不易。試題有了參數值,且皆滿足其它必要條件後,即可進行第二步驟,即建立電腦化題庫。題庫是CAT的樞紐。CAT因要在電腦環境中施測,因此電腦化題庫的功能非常重要,它必須能夠靈活的存取,編輯,且具保密等安全設計。建立電腦化題庫後,一個CAT即接近完成。 CAT的施測過程非常複雜,但大致可如前述分為三個階段,即「開始」、「繼續」及「終止」,茲分別說明於後。 1、CAT如何開始施測, 12 CAT的施測過程非直線式,當某一受試者在電腦前要進行測驗時,電腦對此受試者能力一無所知,因此,要呈現哪一題讓受試者開始測試,涉及到兩個問題,即施測效率及試題曝光率。如試穿衣服的例子,身材不一的試穿者第一次試穿時,如果都先試穿中等尺寸的衣服,對身材較高大或較嬌小者,就會顯得比較沒有效率,CAT亦然,如果對不同能力水準的受試者,第一題都以中等難度的題目測試,對能力較高或較低者也同樣沒有效率,且第一題的隱密性也隨著曝光。因有這些問題,所以呈現第一題就有許多不同的方式。例如從難度中等的題目中,如10-20題,隨機選出、或由受試者自評自己的能力,再由電腦選擇難度適當的試題回應。 2、CAT如何繼續施測, 當受試者做了第一題之後,不論對或錯,受試者的能力即需重新估計。事實上CAT的施測過程中,受試者每做一題,能力都需估計一次,因此,需要一個能力估計的機制,如最大概似法或貝氏法等,。因CAT的答題過程以非線性的方式進行,對現階段答題情況而言,如答對,下一題會難一些,反之,則下一題會簡單一點。問題是在題庫中這麼多難一些或簡單一點的題目中,如何去挑選一個最接近現階段受試者能力水準的題目,皆需依賴有效率的選題策略,如最大訊息法等,。CAT就是如此反覆答題、能力估計、選題的進行,直到能力估計值收斂到一個可接受的值(也即能力估計值)為止,測驗才結束。 13 3、CAT如何結束, CAT最後階段即如何設定終止標準,任何測驗都有誤差存在,終止標準事實上也是相對的條件,端視測量所能容忍誤差的程度。要求準確度高,就需測試較多的題目,相對地,也會讓CAT較無效率。因此如何在「準確」與「效率」間取得最佳,optimal,點,也是CAT製作必須考慮之處。設定終止標準的方式也有多種,例如最大題目數,如最多15題即終止,、由測驗訊息量換算測驗標準誤,或設多重標準,皆是可行的方式。五、CAT的優點與限制 CAT雖然是較新式的測驗方式,它的存在與發展並不意味著可全然取代傳統的測驗。它有其優點,相對地也有其限制,茲舉較顯著者如下。 (1)CAT的優點 a.經濟且有效率受試者接受CAT的測驗,不需答完題庫裡的全部題目(通常答1/5 ~ 1/3即可結束測驗,視題庫中之題目數及所設定的終止標準而定),因此,在施測時間上較為經濟,就施測工作而言,也較有效率。 b.具個別化測驗的特性傳統的個別測驗是指施測時一個主試對一個受試而言,但本質上未必個別化,而CAT的個別化有兩層意義,一是施測情境的個別化,蓋因不同的受試 14 者接受同一套CAT測驗時,所答的題目及長度(題數)未必一樣,因此,施測的時間可依個別的需求而實施。其次是受試者所做的題目較符合其能力水準。 c.施測情境較標準化 CAT因需在電腦環境中施測,指導語或其它說明皆可由電腦呈現,可避免人為因素的影響,因此,施測情境應較傳統測驗更標準化。 d.能解決傳統測驗的一些瓶頸傳統測驗大抵規定所有的受試者(不管能力高低)都要做同一套測驗的全部題目數,測驗結果通常也以受試者在總題數中答對多少題來報導,如果有一些受試者在同一測驗得滿分,是否表示這些人的能力水準一樣,值得商榷,相反的, 另有一些受試者未答對任何題目(即零分),這些人的能力水準也未必一樣,但傳統測驗無法解決或說明碰到此種上限(ceiling)及下限(bottom)效應的問題。傳統測驗結果的報導(不管用原始分數或標準分數),也容易誤導,以為能力(傳統測驗通常以分數來反映能力)是全有或全無,事實上,滿分不代表完全精熟,零分也不表示都無此方面的能力。另一問題是在同一測驗得同分(即答對同樣的題數但不同的題目)的受試者,傳統測驗的結果都視為一樣,但事實上其能力未必一樣。CAT恰可解決這些問題。一般而言,CAT施測的題數總比題庫的總數少,不會有前述上限與下限的問題。且CAT測驗結果的解釋是放在同一個能力量尺上來看相對位置,此量尺的兩端在正負值無限大處(但實際應用時常限制在約+3~-3之間)。 15 (2)CAT的限制 a.題型較受限制 CAT的題型常要遷就IRT模型,不是任何題型皆可適用。 b.解釋較為困難 CAT的結果不以原始分數解釋,而是以同一能力(或特質)量尺的相對位置表示,一般人較不易接受。克服此困難也可做適當的轉換。 c.研製成本高 CAT的研製,除了初期的擬題、預試、參數估計與傳統測驗一樣外,尚須建置電腦化題庫、設計可在電腦施測的環境,所需成本較傳統測驗高。 d.需有電腦設備配合 CAT若無電腦設備配合,就無能為力了。 e.受試者需有基本的電腦素養如同需電腦設備配合外,受試者若不會使用電腦,CAT也無法實施。六、應是推廣使用CAT的時候了，至目前為止,CAT的理論與技術均已相當成熟,在應用上雖有其限制,但它的優點實已淩駕傳統的紙筆式測驗,且在資訊科技突飛猛進的世代,我們沒有理由不重視CAT的發展與應用。 *何榮桂(2000),量身定製的測驗-適性測驗。測驗與輔導雙月刊,157期,頁 16 3288-3293。 17

                    本文档为【量身订做的测验】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

量身订做的测验

你可能还喜欢