項目反応理論 (IRT:Item Response Theory) について調査しました。
IRTは「試験理論」であり、運用される項目(問題)においては、その 応答(回答) に基づき、個人 (回答者や受験者) の能力値を測るだけでなく、個々の項目が持つ特性 (困難度・識別力など) を確率論的に求めることができます。
古典的テスト (正答率・素点・偏差値) では、問題の困難度や配点といった項目ごとの特性が考慮されにくい傾向にありますが、IRT分析では、公平性がより向上します。これは、項目特性値 (「困難度」や「識別力」など) を考慮し、受験者がその項目に正答する確率から「能力値」を推定でき、項目によって受験者自身の能力をより正確に判断することが可能となるためです。
IRTに基づき運用されているCBT試験 (Computer Based Testing) としては、大学入学共通テスト (旧大学入試センター試験)、医学歯学薬学などの共用試験、情報処理技術者試験 (一部資格) などがあります。どれも 2PLモデル (2パラメータ・ロジスティックモデル) を採用しているとのことです。
IRT分析を行うための道具としては、RやPython等の言語環境で動作するライブラリが広く使われているようです。これらを用いることで、能力値や特性値の算出(推定)は可能ですが、特性値の精度などについては項目(問題)毎に見極めつつ、項目プール (項目バンク) を構築することになると考えられます。持続可能且つ品質を保持したIRT運用を目指すには、相応の体制が必要となりそうです。
- 調査環境
R
Python