2023/11/27
論文掲載報告「語彙理解尺度を題材とした選択式テスト項目作成ガイドラインの応用」(行動計量学)
はじめに
ベネッセ教育総合研究所 教育基礎研究室の渡邊智也・堂下雄輝・堀一輝・加藤健太郎の共著論文が,「行動計量学」第50巻2号に掲載されました。
【論文はこちら】
渡邊智也・堂下雄輝・堀一輝・加藤健太郎(2023).語彙理解尺度を題材とした選択式テスト項目作成ガイドラインの応用 行動計量学, 50, 2, 97-115.
https://doi.org/10.2333/jbhmk.50.97
【論文はこちら】
渡邊智也・堂下雄輝・堀一輝・加藤健太郎(2023).語彙理解尺度を題材とした選択式テスト項目作成ガイドラインの応用 行動計量学, 50, 2, 97-115.
https://doi.org/10.2333/jbhmk.50.97
研究の概要
テスト開発の問題項目作成の過程では,テスト全体の設計方針に照らして,望ましくない項目を排除し,そのような項目がテストに利用されてしまうことを避ける必要があります。テスト開発研究では,そのような欠陥を持つ可能性のある項目を同定し除外するとともに,より良いテスト項目を作成するための汎用的な指針として「項目作成のためのガイドライン」(以下,ガイドラインと表記する)が提案されています(図1,左段)。ガイドラインでは1つの事項につき,作問上の指針が1つ書かれています。
本研究では,このような作問の汎用的な指針であるガイドラインを,個別具体のテストに応用する際の考慮事項について考察し,作問者にとっての有用性を高めるために取り組むべき研究課題について示唆を得ることを目的として,以下2つの研究課題に取組みました。
本研究では,このような作問の汎用的な指針であるガイドラインを,個別具体のテストに応用する際の考慮事項について考察し,作問者にとっての有用性を高めるために取り組むべき研究課題について示唆を得ることを目的として,以下2つの研究課題に取組みました。
① ガイドラインの実テスト(語彙理解尺度)への応用
芝(1978)の語彙理解尺度を題材(図2)として,国語の項目作成の専門家の協力を得て,表1の汎用的なガイドラインを語彙理解尺度により即した内容になるように具体化しました(図1,右段)。論文では,この語彙版ガイドラインの作成手順を示し,その応用過程において検討すべき事項について考察しました。
図1 選択式項目作成ガイドラインと,語彙版ガイドラインの例
図2 語彙項目の構成要素と,語彙版ガイドライン#1に準拠・非準拠の項目例
② 語彙版ガイドラインに準拠することの,項目の統計的性能への有効性の検証
ガイドラインに準拠することが項目の統計的性質を担保するために有効であるかどうかということが,ガイドラインの有効性を判断する際の基準の一つになります。本研究では,表2の右段に示した3つのガイドライン事項のそれぞれに対して準拠/非準拠の語彙項目のペアを用意し(図2),これらの項目を含む語彙テストを大学生約1000人に受検してもらいました。
項目反応理論(IRT)モデルを用いて,ガイドラインごとに,準拠条件・非準拠条件に属する項目の平均的な困難度パラメタと識別力パラメタを条件間で比較した結果,ガイドライン1「各設問は,一つの主題語について,その意味を理解しているかどうかを問うこと。特に,主題語より難しい,あるいは同等の難しさの語を正答としないこと。」に対して非準拠の項目は,準拠した項目よりも困難度が上昇していることが示されました。この結果は,正答選択枝において主題語と同等以上の難しさの語が用いられた場合,その難しさが一因となって受検者が本来であれば適切に選択できたはずの正答選択枝を選べない可能性があることを示していると考えられます。ガイドライン1から逸脱した語彙項目を利用することは,項目の困難度が本来得られるはずの値と比較して不当に上昇し,正確な困難度の把握(ひいては能力の推定)を妨げるという点で問題があるといえるため,ガイドライン1は基本的に遵守すべき事項であると考えます。
一方でガイドライン1から逸脱することの識別力への影響,および残り2つのガイドラインから逸脱することの影響は認められませんでした。また,トレースラインなどを用いた分析により,ガイドライン逸脱の項目性能への影響の仕方には項目の特徴によって相当のばらつきが生じうることが推測されました。
項目反応理論(IRT)モデルを用いて,ガイドラインごとに,準拠条件・非準拠条件に属する項目の平均的な困難度パラメタと識別力パラメタを条件間で比較した結果,ガイドライン1「各設問は,一つの主題語について,その意味を理解しているかどうかを問うこと。特に,主題語より難しい,あるいは同等の難しさの語を正答としないこと。」に対して非準拠の項目は,準拠した項目よりも困難度が上昇していることが示されました。この結果は,正答選択枝において主題語と同等以上の難しさの語が用いられた場合,その難しさが一因となって受検者が本来であれば適切に選択できたはずの正答選択枝を選べない可能性があることを示していると考えられます。ガイドライン1から逸脱した語彙項目を利用することは,項目の困難度が本来得られるはずの値と比較して不当に上昇し,正確な困難度の把握(ひいては能力の推定)を妨げるという点で問題があるといえるため,ガイドライン1は基本的に遵守すべき事項であると考えます。
一方でガイドライン1から逸脱することの識別力への影響,および残り2つのガイドラインから逸脱することの影響は認められませんでした。また,トレースラインなどを用いた分析により,ガイドライン逸脱の項目性能への影響の仕方には項目の特徴によって相当のばらつきが生じうることが推測されました。
③ まとめ
本研究では,語彙テスト項目作成時に,内容的妥当性と測定学的性能に影響を及ぼしうる項目を改訂・除外する際に参考となる具体的なルールを示すとともに,実テストへの応用と検証プロセス,及びその問題点を示しました。このアプローチは,他の選択式テストにおいてガイドラインを具体化し,検証する際の参考となる情報を提供するものであると考えます。
今日では,(生成)AI技術などを活用して,大量の項目を自動で作成する技術が広まりつつあります。自動で生成された項目が内容的に妥当な項目であるかどうかを確認するためには,項目が満たすべき条件が機械的に判定できるように具体化されている必要があり,項目作成ガイドラインの応用はこのような実テストに合わせた作問条件の精緻化にも資するものであると考えられます。
今日では,(生成)AI技術などを活用して,大量の項目を自動で作成する技術が広まりつつあります。自動で生成された項目が内容的に妥当な項目であるかどうかを確認するためには,項目が満たすべき条件が機械的に判定できるように具体化されている必要があり,項目作成ガイドラインの応用はこのような実テストに合わせた作問条件の精緻化にも資するものであると考えられます。
詳細については,冒頭に記載した論文をご覧ください。
渡邊智也・堂下雄輝・堀一輝・加藤健太郎(2023).語彙理解尺度を題材とした選択式テスト項目作成ガイドラインの応用 行動計量学, 50, 2, 97-115.
https://doi.org/10.2333/jbhmk.50.97
https://doi.org/10.2333/jbhmk.50.97
本ページの研究の内容に関するお問い合わせは,ベネッセ教育総合研究所ホームページhttps://benesse.jp/berd/の画面右上にある「お問い合わせ」からお願いします。