2023/06/08

学会発表報告「語彙理解尺度項目作成ガイドラインの有効性の検討」@日本テスト学会第20回大会

堂下 雄輝

はじめに

ベネッセ教育総合研究所の堂下雄輝,渡邊智也が,2022年8月26日から9月4日にかけて行われた日本テスト学会第20回大会において研究発表を行いました。以下,その内容を簡単にご紹介します。

背景・研究の目的

 テストや教材の問題は「測りたい力を測っている/問いたい力を問うている」必要があります。そういった問題を作る手段の一つとして,テスト作成の研究者たちは,よりよい問題を作成するための「選択式項目作成のためのガイドライン」(以下「ガイドライン」と略記)を提案してきました。いわば「問題作成のためのルールブック」のようなものです。たとえば2013年にHaladyna(ハラダイナ)とRodriguez(ロドリゲス)が,これまでの研究をまとめたガイドラインを発表しました(Haladyna & Rodriguez, 2013)。またこのガイドラインをもととして,名古屋大学の石井秀宗先生たちは,日本のテスト事情を踏まえたガイドラインを提案しています(石井・荒井・坪田・安永・寺尾, 2021)。
 では,そのガイドラインとはどのようなものでしょうか。最も知られている “Haladyna & Rodriguez, 2013” のガイドラインは全部で29個の事項から成り,内容はたとえば以下のようなものです。
 私たちは,このようなガイドラインは「実用」という点において問題があると考えました。なぜなら,非常に抽象的な記述であるからです。たとえば,#1の「ある一つの能力」とは具体的にどのような能力があるのか,#20_dで言及されているような「選択枝の内容から正答を絞り込める」選択枝には「両立しない選択枝」以外にどのようなものがあるのか,#20_fの「等質」とはどういうことか……ガイドラインに汎用性を持たせるために仕方のないことではありますが,実際に作問する際に,抽象的な記述のままでは作問者によって解釈に揺れが生じかねないのです。つまりガイドラインを実用的な物にするには,作問者が共通して了解可能な程度まで具体的に解釈された記述が必要だと考えました。
 そこで私たちは,図1に示すような一般的な語彙問題※1を題材に「語彙問題作成のためのガイドライン」を作成し,そのうちの3つの事項について,これらの事項を守る/守らないことで,結果がどのように変化するかを検証しました。なお,図1でこの研究における語彙問題の要素の説明を示しています。

方法

 検証の対象としたガイドライン事項は表1に示した3つです。それぞれ,一般的なガイドライン(左列)を語彙問題のために具体化しました(右列)。ガイドライン事項1つにつき主題語を8つ用意し,1つの主題語についてガイドライン準拠/非準拠の問題(=ガイドラインを守っている問題と守っていない問題)をそれぞれ1つずつ作成しました。これらの問題を含むテストを大学生約1000人に受検してもらい,準拠問題・非準拠問題の正答率と識別力※2を比較しました。
また,各問題について,どのように考えて解答したのかを尋ねるアンケートも実施しました。アンケート項目の詳細は表2に提示しています。

結果・考察

ガイドライン1 「各設問は,一つの主題語について,その意味を理解しているかどうかを問うこと.特に,主題語より難しい,あるいは同等の難しさの語を正答としないこと.」

 主題語より難しい,あるいは同等の難しさの語を正答とした場合,その語が受検者にとって未知である可能性があるため正答として選ばれづらくなり,正答率・識別力ともに低くなると予測しました。
 結果は,総じて正答率が低くなったものの,識別力はやや上がる傾向にありました。非準拠問題のトレースライン※3から,特に下位層の正答率が低い傾向が見られました。下位層の正答率が低下したことが,非準拠問題において識別力がやや向上した要因の一つと推測しました。図2に提示した問題はその傾向が顕著であり,アンカー得点の最下位層では最上位層と比較して10ポイント強低下していました。さらにアンケートで③(何らかのテスト方略の使用や推測)を選んだ割合が準拠問題に比べ12ポイント高く,受検者の一部は正答枝の意味が分からなかったため,消去法などを用いて解答した可能性があります。
 ここから,主題語より難しい,あるいは同等の難しさの正答枝は,特に下位層にその選択を忌避させ,結果として正答率を押し下げる可能性が示唆されました。また何らかのテスト方略を使う動機づけを高める可能性も示唆されました。

ガイドライン20_d 「選択枝の内容から正答を絞り込めることのないようにすること.ペアとなる選択枝を使用する場合,ペアを複数使用すること.」

 ペアと認識できる選択枝がある場合,受検者はそのペアのどちらかが正答であると予想しがちと思われるため,正答のペアとなる選択枝(以下ペア枝と表記)の選択率と正答率が上がり,識別力は下がると予測しました。
 しかし結果は,総じてペア枝の選択率・正答率・識別力ともに顕著な差がなく,予測に反するものとなりました。ただし図3の問題(主題語「マクロ」)では,非準拠問題において正答枝とペア枝の双方の選択率が高く,予測に従う傾向が見られました。ここでは「巨視的(正答枝)」「微視的(ペア枝)」と,正答枝とペア枝が正反対の表現であり,その選択枝が隣接していました(正答枝②,ペア枝③)。
 一方でその他の問題は,「提案を頑なに断ること(正答枝)」「気軽に提案を受け入れること(ペア枝)」のように(項目1:主題語「固辞」),ペア枝が正反対の表現とは言えず,選択枝の並びも正答枝とペア枝で隣接していませんでした。加えて,本テストはモニターテストへの参加というローステイクスな受検であったため,回答の際,選択枝同士を慎重に見比べて正答を探すことへの動機づけが低かったと考えられます。そのため受検者が選択枝のペアを認識しづらかったことが,全体の条件差が見られなかった要因である可能性があります。逆に,ハイステイクスなテストなどで,ペア枝が正反対の意味であったり,隣接していたりするなどして,明確にペアとして認識しやすいときに,解答傾向に影響が生じる可能性があると推測します。

ガイドライン20_f 「選択枝間で異質なものを排すること.」

 選択枝間で異質なもの(以下「異質枝」と表記)がある場合,その選択枝は誤答と判断されやすくなり,正答率は上がり,識別力は下がると予測しました。
 しかし結果は両指標とも顕著な条件差はなく,予測に反するものとなりました。ただし図4の問題については準拠問題の方が識別力が高いという結果でした。これは,非準拠問題の異質枝の代わりにある準拠問題の誤答枝が,下位層で比較的多く選ばれていたためと考えられます。また非準拠問題の異質枝の選択率は,8つの問題すべてで最も低いという結果でした。
 ここから,異質枝は選択されづらい傾向にあり,異質枝を問題に組み込むことで正常に機能する誤答枝が排除される可能性が示唆されました。

まとめと今後

 今回の検証では,ガイドライン1からの逸脱によって正答率が押し下げられたこと以外は,正答率・識別力に大きな差は見られませんでした。しかし一部の問題のペア枝の選択率の高さや異質枝の選択率の低さからは,ガイドライン逸脱の影響が見られたという結果になりました。今回作ったガイドラインの効果は,限定的ではありますが確認できました。
 今後さらにガイドライン事項を増やして検証していく予定です。また,ガイドラインから逸脱することの影響プロセスを明らかにするために,受検者が「何をどのように考えて問題を解いているのか」をインタビュー調査などから観察することも必要と考えています。

※1 1978年以降,東京大学の芝祐順先生たちが開発した「語彙理解尺度」をベースとしています。
※2 その問題が受検者の能力を弁別できる程度のことで,テストの信頼性を高めるために確認すべき指標の一つです。ここでは,その問題の正誤と,「アンカー問題」として全受検者に共通に出した25問の正答数との相関係数を「識別力」としています。
※3 受検者を「アンカー問題」の正答数でグループ分けし,各グループにおける各選択肢の選択率を縦軸に,そのグループの平均得点を横軸にプロットしたものです。問題の結果の特徴を視覚的に捉えることが可能であり,結果検証に非常に役立ちます。

この記事の引用文献

石井 秀宗・荒井 清佳・坪田 彩乃・安永 和央・寺尾 尚大(2021). テスト問題作成ガイドラインの開発(1)——日本での普及に向けた整理—— 日本テスト学会第19回大会発表論文抄録集, 92-95
Haladyna, T. M., & Rodriguez, M. C. (2013). Developing and validating test items. Routledge.坪田 彩乃・石井 秀宗(2020). 多枝選択式問題作成ガイドラインの実証的検討 日本テスト学会誌, 16, 1-12.