2014/02/14

テスト得点を比較可能にする等化の必要性とその難しさ

研究員　野澤雄樹

　教育再生実行会議が2013年10月31日付で発表した第四次提言で、現行の大学入試センター試験に代わって達成度テスト（正式な名称は未定）を導入することが提言されました。現時点では達成度テストの詳細は明らかではありませんが、年に複数回実施される可能性があることを考えると、テストの難易度に応じて得点を調整する作業——専門用語で等化（equating）と呼びます——をどうするのかが今後議論されると思います。影響力の強い大学入試で等化が行われることになると、これまで等化を行ってこなかったテストでも等化が必要になる可能性があります。このような状況を踏まえて、本稿では、等化の役割について簡単に説明した上で、実際に等化を行う際に問題になると思われる点について述べたいと思います。

　はじめに、次のような例を考えてみましょう。Ａさんは2011年度、Ｂさんは2012年度のセンター試験を受験し、国語のテストでそれぞれ140点、145点だったとします。Ｂさんの得点のほうが5点高かったことになりますが、このことからＢさんの成績のほうが良かったと判断することはできません。2011年度の国語のテストのほうが2012年度の国語のテストよりも10点分難しかったとしたら、Ａさんの成績のほうが5点分良かったことになるからです。一般に、各回のテストは難易度が等しくなるように作成されますが、完全に等しくすることは不可能です。そのため、異なる回のテストから得られた得点を直接比較することはできません。

　現在の入試制度では、異なる年度のセンター試験の得点を比較して選抜が行われることはないので、難易度の違いは大きな問題になりません。これに対し、同年度に複数回実施する試験では、1回目を受験したＣさんの得点と、2回目を受験したＤさんの得点が比較されることになります。もし2回目のテストのほうが1回目のテストよりも難しかった場合に、得点をそのまま比較して選抜が行われてしまうと、Ｄさんのほうが不利になってしまいます。そのため、テストの難易度に応じて得点を調整する作業、等化が必要になります。等化にはさまざまな方法がありますが、ここでは2回目のテストを1回目のテストに等化する場合を考えてみましょう。等化では、2回目のテストの各得点が、1回目のテストの何点に相当するのか、データから推定することになります。例えば、2回目のテストの50点は1回目のテストの53点に相当する、といった対応関係を、2回目のテストの各得点について求めることになります。この対応関係に基づいて2回目のテスト得点を変換したものは、難易度の差が修正されているため、1回目のテスト得点と比較することができます。等化を行うことによって、どの回のテストを受験したかによらず、得点を同じように解釈することができるようになります。

　等化によって得られるこの性質は、入学者選抜だけでなく、学力の伸びを把握したい場合にも重要になります。代表的な英語テストであるTOEFLやGTECでは、前回受験したときに比べて得点が上がったときに、その分だけ英語力が伸びたと解釈することができます。毎回異なるテストを受けるにも関わらず、このような解釈が可能なのは、TOEFLやGTECで報告される得点が等化されているからです。同様に、PISA（OECDによる国際学習到達度調査）などの大規模調査で学力の変化を調べることができるのも、等化が行われているからです。等化されていないテストでは、前回受験したときに比べて学力が上がったにも関わらず、今回のテストのほうが難しかったために得点が下がるということが起こり得ます。

　このように、等化によって得られるメリットは大きく、テストの目的によっては等化が必要不可欠な場合もあります。しかし、等化はそれほど簡単に導入できるものではありません。実際に等化を行おうとすると、さまざまな障害およびリスクに直面することになります。以下では、日本で等化を行う際に障害になる要因と、等化が持つリスクについて述べたいと思います。

　日本で等化を行う際に障害になる要因として、2点挙げることができます。1点目は、等化が、テスト実施後に問題を公開することが多い日本のテスト文化に馴染まないということです。等化を行うためには、テストの難易度を推定するためのデータが必要ですが、多くのデータ収集法は、問題が非公開であることを前提にしています。例えば、代表的なデータ収集法の1つに、過去に出題された問題を等化したいテストに含めておく方法があります。これらの問題の性質（主に難易度）が、過去に出題されたときと同じであると仮定して等化を行うのですが、問題が公開されて対策されてしまうと、この仮定が成り立たなくなってしまいます。その他のデータ収集法も、問題の性質が時間によって変化しないことを暗黙のうちに仮定しています。そのため、過去の問題を使って試験対策を行うことが一般的な日本では、等化のために使用できるデータ収集法が制限されることになります。

　2点目は、日本には心理・教育測定の専門家が少なく、その役割も広く認知されていないということです。この分野で最も先進的な米国では、複数の大学に心理・教育測定の専門プログラムがあり、理論と実践の両方を学ぶことができます。大学院を修了し、博士号を取得した専門家は心理測定家（psychometrician）と呼ばれ、テストに関するさまざまな業務に携わることになります。等化は多くの業務の中でも特に責任が重いため、米国では、複数の心理測定家が協力し、お互いの作業をチェックしながら進めます。しかし、心理測定家が少ない日本では、このような共同作業を行うことは難しいので、1人の心理測定家が過大な負担と責任を負わされる事態が心配されます。また、ミスを発見するためのチェック体制や、ミスが起きたときの対処方法は、組織レベルで事前に定めておく必要がありますが、心理測定家の役割が理解されていない現状では、そのような作業が後回しにされる恐れがあります。

　等化が持つリスクとして、2点挙げることができます。1点目は、等化されているテストはミスに対して脆弱であるということです。等化を行わないテストであれば、仮に10年前のテスト（テストＡとします）に採点ミスがあったと判明しても、現在のテストには直接影響しません。もちろん、そのミスに対して適切に対処する必要はありますが、基本的には過去のことと考えることができます。これに対し、等化されているテストの場合には、テストＡにおける採点ミスは、テストＡに等化されているテストＢ、さらにテストＢに等化されているテストＣにも影響を与えます。等化はテストどうしをネットワークで繋いでいくような作業なので、1つのテストにおけるミスが、次々と他のテストに伝播することになります。そのため、ミスの影響範囲が格段に大きくなり、収拾がつかなくなる可能性があります。組織レベルでのミスのチェック体制と、ミスが起きたときの対処方法が重要なのはこのためです。

　2点目は、一度等化をはじめてしまうと、等化を行わない状態に戻すことは困難だということです。検定試験などでは、等化を行って合格基準を一定に保つことは大きなメリットを持ちます。受験者は常に同じ合格基準で判定されるため、合格者は一定水準以上の能力があると解釈することができます。もし等化をやめてしまうと、合格基準が各回のテストの難易度に左右されてしまうことになり、この解釈が成り立たなくなります。検定試験に限らず、それまで可能だったテスト結果の解釈ができなくなることは、そのテストの信頼や有用性を大きく損ねる原因になります。等化は継続的に行っていくものなので、長期的な負担の大きさに耐えられなくなることがあります。しかし、等化をやめるということは、多くの場合不可能です。

　このように、等化にはメリットだけではなく、さまざまな障害やリスクが伴います。等化を導入する前に、負担に見合うだけのメリットがあるのか、データを継続的に収集できるのか、専門家を確保できるのか、ミスをどのように防ぐのか、ミスが起きたときにどのように対処するのか、といったことについて、しっかりと検討する必要があります。大学入試センター試験に代わって達成度テストが導入され、等化が行われることになると、日本でも等化が標準的になる可能性があります。しかし、上述したように、等化は事前および将来にわたる綿密な計画と組織体制があってはじめて十分に機能するものです。今後の変化に対応できるように、等化に関する準備を早い段階から始めていく必要があると思います。

報告者