2017/10/02

日本テスト学会第15回大会 発表報告「短答式問題の採点に関する研究」

村田 維沙 堂下 雄輝 野澤 雄樹

開催日

2017年8月19日~20日

会場

東北大学百周年記念会館 川内萩ホール

概要

研究背景と目的

 短答式問題とは、1~3語程度の短い語句を記入する形式の問題である。この形式の問題は、解答がある程度限定されるため、機械による採点支援が可能となる。その具体的な手順は、正答となるパタン(以下「正答パタン」と呼ぶ)を想定できる限り登録し、受検者の答案データ注1 とのパタンマッチングを行って、正答パタンとマッチしたものを正答、それ以外を誤答とする、というものである。実際の答案データに出てくる正答パタンすべてを網羅しているなら、コンピュータだけで完全なパタンマッチングを行うことが可能であり、採点者の負担はほぼない。一方、想定外の正答パタンが出てくる場合、コンピュータだけで採点をしたとすれば、想定外の正答パタンは誤答と判断され、採点の正確さが損なわれてしまう。したがって、正確さを期すなら、採点者が答案データから得られた反応パタン注2 を一件ずつ精査し、想定外の正答パタンをすべて拾いあげる必要があるが、みるべき反応パタンが大量にある場合、採点者の負担は非常に大きくなる。このように、採点の正確さと採点者への負荷はトレードオフの関係にある。この問題を解決するために、ある程度まで反応パタンを精査した段階で、正答パタンを確定し、以降の精査を打ち切るという方法を考える。もし、すべての反応パタンを精査せずに途中で精査を打ち切ったときに、すべての反応パタンを精査したときと同程度の正確さが得られるとともに、採点者への負荷も軽減できる、という段階を見いだすことができれば、トレードオフ問題の一つの解決策になる可能性がある。
 そこで本研究では、実際の調査データをもとに、反応パタンの精査を打ち切る段階によって、採点結果の正確さと採点負荷(ここでは採点にかかる時間とする)がどの程度変化するかを調べ、反応パタン精査の適当な打ち切り段階について検討した。
注1:ここでいう「答案データ」とは、受検者の答案用紙の解答をテキストデータ化したものを指す。
注2:ここでいう「反応パタン」とは、答案データから解答の重複を取り除き、出現する解答の種類をすべて抽出したものを指す。

研究の方法

 2017年2月に小学生156名を対象に行った短答式問題31問の調査データを用いて、ある段階まで反応パタンを精査する場面を想定し、すべての反応パタンを精査した場合(以下「真の採点」と呼ぶ)と、採点の正確さ・採点時間について比較した。
 反応パタンの精査にあたっては、出題した問題ごとに、各反応パタンを出現頻度の高い順に並べ、その順番で見ていくものとした。また、並べた各反応パタンまでの全体に対する比率の合計(以下「累積比率」と呼ぶ)を求め、これを精査を打ち切る基準として用いた。

主な結果と得られた示唆

 採点の正確さについては、精査する反応パタンが多いほど正確さが増し、累積比率90%を満たす反応パタンまでを精査したとき、約95%の答案データが真の採点の結果と一致した。一方、採点時間については、精査する反応パタンが多いほど所要時間は増すが、累積比率90%を満たす反応パタンまでの精査にかかる時間は、真の採点にかかる時間の約30%で済むことがわかった。言い換えると、残り10%分の採点に、全採点時間の70%が当てられていたことになる。さらに、反応パタンの個数と採点時間が対応していることから、累積比率90%を満たすまでの反応パタンが、全反応パタンの約30% に相当することもわかった。ここから、反応パタン精査を打ち切る適当な段階は、答案データの中で、各反応パタンを出現頻度の高い順に並べ、その累積比率が90%を満たすような反応パタンまでと考えられる。
 今後の課題としては、答案の枚数が数百~数千と増えた場合に、累積比率90%を満たすまでの反応パタンを精査することが現実的かを検証することである。

お詫びと訂正

テスト学会当日の質疑応答において誤りがありました。 会場からいただいた「問題の正答率と反応パタンの数に関連があるのでは」とのご質問に対し、当日は「相関がない」とお答えしましたが、これは誤りで、正しくは「相関がある(r=-0.65)」という結果でした。
この場を借りてお詫び申し上げますとともに、訂正させていただきます。