2014/04/11
eテスティングとeポートフォリオ :コンテンツからビッグデータ時代へ(第2回)
研究員 中島 功滋
開催日
2014年1月27日
会場
ベネッセコーポレーション東京本部(多摩)
発表者
植野 真臣(電気通信大学大学院 情報システム学研究科 教授)
内容
講演会「eテスティングとeポートフォリオ :コンテンツからビッグデータ時代へ」を開催し、教育分野におけるICT環境の変遷・eテスティングを支えるテスト理論・eポートフォリオの実践例等について植野真臣先生(電気通信大学大学院情報システム学研究科教授)に講演していただきました。講演者の植野先生による内容紹介の2回目です(第1回,第2回,第3回)。
ビッグデータ時代の先端技術eテスティング
社会を変えるeテスティング
前報にて、ビッグデータ時代とは単に大規模データを扱う時代ということではなく、量から質への文化的変換期であることを述べた。つまり、ビッグデータ時代とは、誰もが参入できるインフラ時代から競争力のある技術重視時代への変換期を意味する。教育分野のビッグデータを用いた競争力のある技術のひとつにeテスティングが挙げられる。本稿では、このeテスティングについて紹介しよう。
従来、コンピュータを用いたテスティング技術はCBT(Computer based testing)と呼ばれ、実用化も進んできた。CBT実施における留意点については世界標準規格ISO/IEC23988:2007(日本版はJIS X 7221:2011)が策定されている。しかし、eテスティングはCBTとは異なる概念を含んでいる。CBTは「項目反応理論」(IRT: Item Response Theory)と呼ばれる心理学と統計学の複合領域の数理モデルを基盤としており、受験者の能力をできるかぎり精度高く推定することが主な目的となっている。一方、eテスティングは、項目反応理論を用いるだけでなく、コンピュータサイエンスの最先端技術を駆使して実現される。
eテスティングの特徴は、一回のテストの推定精度を高めるだけでなく、異なるテストを何度受験しても同一尺度上で受験者の能力を精度高く評価できることである。この性質を満たすテストを「複数等質テスト」と呼ぶが、項目(個々のテスト問題)データベースから多数の等質テストを自動的に構成することは非常に難しく、大変競争力のある技術である。この技術により、受験者はいつ何度でもテストセンターにテストを受けに行くことができる。受験者は過去に受験したものとは異なるテストに臨む一方で、等質テストでは個々のテストの信頼性の高さが保証されている。したがって、資格試験や入学試験のようなハイステークステスト(結果が受験者に大きな影響を及ぼす試験)であっても、試験の複数回(随時)実施や同一受験者に対する高い精度の判定が可能となる。等質テスト構成はテストの考え方を一変させる技術であり、資格試験や入試のあり方、社会を大きく革新できる技術である。
従来、コンピュータを用いたテスティング技術はCBT(Computer based testing)と呼ばれ、実用化も進んできた。CBT実施における留意点については世界標準規格ISO/IEC23988:2007(日本版はJIS X 7221:2011)が策定されている。しかし、eテスティングはCBTとは異なる概念を含んでいる。CBTは「項目反応理論」(IRT: Item Response Theory)と呼ばれる心理学と統計学の複合領域の数理モデルを基盤としており、受験者の能力をできるかぎり精度高く推定することが主な目的となっている。一方、eテスティングは、項目反応理論を用いるだけでなく、コンピュータサイエンスの最先端技術を駆使して実現される。
eテスティングの特徴は、一回のテストの推定精度を高めるだけでなく、異なるテストを何度受験しても同一尺度上で受験者の能力を精度高く評価できることである。この性質を満たすテストを「複数等質テスト」と呼ぶが、項目(個々のテスト問題)データベースから多数の等質テストを自動的に構成することは非常に難しく、大変競争力のある技術である。この技術により、受験者はいつ何度でもテストセンターにテストを受けに行くことができる。受験者は過去に受験したものとは異なるテストに臨む一方で、等質テストでは個々のテストの信頼性の高さが保証されている。したがって、資格試験や入学試験のようなハイステークステスト(結果が受験者に大きな影響を及ぼす試験)であっても、試験の複数回(随時)実施や同一受験者に対する高い精度の判定が可能となる。等質テスト構成はテストの考え方を一変させる技術であり、資格試験や入試のあり方、社会を大きく革新できる技術である。
eテスティングの競争的技術
前述のようにCBTでは、項目反応理論という数理モデルを用いなければならない。この数理モデルを使いこなすためにはある程度の学習が必要になり、専門性が必要ではある。しかし、項目反応理論は勉強すれば多くの人が習得できる技術である。一方、eテスティングは、項目反応理論だけでなく、等質テストを構成するために異なるテスト項目の組み合わせを計算する技術が必要になる。この組み合わせ数は、重複などを含めると指数的に増え、数億の数千乗など、まっとうには計算できない数に膨れ上がる。実はこのような計算をほぼ正確にするための技術がビッグデータ分野では急速に発達してきており、まさしくeテスティングはコンピュータサイエンスの最先端技術が必要なマーケットであることがわかる。主な手法については以下のとおりである。
当初、W. van der Lindenは線形計画法を用いた複数等質テスト構成を提案したが、逐次的に等質テストを構成するので構成数が増えるにつれて等質性が成り立たなくなる。Pokpong and Ueno(2011)は準最適性を持つ確率的な複数等質テスト構成法をIEEEのコンピュータサイエンスのトップ国際論文誌に提案している。それまで2-3万程度の項目データベースから数百程度の等質テストしか構成できなかったのに対し、この技術を用いると1000程度の等質テストを構成できるようになり、当時世界一の手法であった。この手法は日本最大の国家試験である情報処理技術者試験のeテスティングに実装され実用化されている。しかし、この手法もテスト構成数を最大化する保証はない。Ishii, Pokpong and Ueno(2013, 2014)はグラフ理論を用いて、テスト構成数が数学的に厳密に最大になるように等質テストを構成する手法を提案し、人工知能のトップカンファレンスAAAI-AIEDにFullPaperとして2013年に発表している。さらに、それを高速化できる手法をIEEEのコンピュータサイエンスのトップ国際論文誌に2014年3月に掲載している。この技術により、2-3万程度の項目データベースから6000程度の等質テストを構成できるようになったのである。
項目反応理論は、異なるテスト項目を受験しても同一尺度上で評価できる手法であるが、同一人物が何度もテストを受けに来ることは想定していない。そのために、同じクオリティを持つテストをいくつも用意しておかなければならないという発想はなかったのである。また、項目反応理論の応用の一つとして、テスト実施中にテストへの反応から受験者の能力を逐次推定し、その能力推定値に対する最大情報量を持つ項目をデータベースから自動的に選択し、次の問題として受験者に提示するという、適応型テスティング(CAT: Computerized Adaptive Testing)が知られている。この手法は、一回のテストに出題する項目数を精度を落とさず減少させることができるので注目されている。しかし、この手法でも同一受験者が複数回受験する場合の対応が取られておらず、結果として同じテスト項目が毎回重複して出題されてしまうという問題が発生する。実は複数等質テストの技術は適応型テストにも応用することができ、同一受験者が何度適応型テストを受けに来ても異なるテスト項目しか出題されないメカニズムが実現できる。これらの技術は、世界トップレベルのコンピュータサイエンスの論文誌に掲載されるほどの高度なものであり、理論的にもプログラミング的にも圧倒的に難しいが、一旦プログラムが完成してしまえば、自動的に複数等質テストが大量に構成されるのである。
eテスティングで必要なことはコンピュータ技術だけでない。如何に質の高い項目データベースを構築するかということが重要である。このためには、テスト項目の作成技術が重要であり、データベース作成のための様々なテクニックが現在も研究されている。このようにして一旦完成した項目データベースは非常に強い競争力を持つことになろう。
現在、eテスティング市場は静かに世界中に広がっており、最盛期のeラーニングの市場を将来的に上回ると推定されている。eラーニングはインフラ時代のツールであったので誰でも参入できたが、eテスティングは競争的技術のある一部の企業の一人勝ちになる可能性もある。しかし、これこそがビッグデータ時代のビジネスの本質といえるかもしれない。
当初、W. van der Lindenは線形計画法を用いた複数等質テスト構成を提案したが、逐次的に等質テストを構成するので構成数が増えるにつれて等質性が成り立たなくなる。Pokpong and Ueno(2011)は準最適性を持つ確率的な複数等質テスト構成法をIEEEのコンピュータサイエンスのトップ国際論文誌に提案している。それまで2-3万程度の項目データベースから数百程度の等質テストしか構成できなかったのに対し、この技術を用いると1000程度の等質テストを構成できるようになり、当時世界一の手法であった。この手法は日本最大の国家試験である情報処理技術者試験のeテスティングに実装され実用化されている。しかし、この手法もテスト構成数を最大化する保証はない。Ishii, Pokpong and Ueno(2013, 2014)はグラフ理論を用いて、テスト構成数が数学的に厳密に最大になるように等質テストを構成する手法を提案し、人工知能のトップカンファレンスAAAI-AIEDにFullPaperとして2013年に発表している。さらに、それを高速化できる手法をIEEEのコンピュータサイエンスのトップ国際論文誌に2014年3月に掲載している。この技術により、2-3万程度の項目データベースから6000程度の等質テストを構成できるようになったのである。
項目反応理論は、異なるテスト項目を受験しても同一尺度上で評価できる手法であるが、同一人物が何度もテストを受けに来ることは想定していない。そのために、同じクオリティを持つテストをいくつも用意しておかなければならないという発想はなかったのである。また、項目反応理論の応用の一つとして、テスト実施中にテストへの反応から受験者の能力を逐次推定し、その能力推定値に対する最大情報量を持つ項目をデータベースから自動的に選択し、次の問題として受験者に提示するという、適応型テスティング(CAT: Computerized Adaptive Testing)が知られている。この手法は、一回のテストに出題する項目数を精度を落とさず減少させることができるので注目されている。しかし、この手法でも同一受験者が複数回受験する場合の対応が取られておらず、結果として同じテスト項目が毎回重複して出題されてしまうという問題が発生する。実は複数等質テストの技術は適応型テストにも応用することができ、同一受験者が何度適応型テストを受けに来ても異なるテスト項目しか出題されないメカニズムが実現できる。これらの技術は、世界トップレベルのコンピュータサイエンスの論文誌に掲載されるほどの高度なものであり、理論的にもプログラミング的にも圧倒的に難しいが、一旦プログラムが完成してしまえば、自動的に複数等質テストが大量に構成されるのである。
eテスティングで必要なことはコンピュータ技術だけでない。如何に質の高い項目データベースを構築するかということが重要である。このためには、テスト項目の作成技術が重要であり、データベース作成のための様々なテクニックが現在も研究されている。このようにして一旦完成した項目データベースは非常に強い競争力を持つことになろう。
現在、eテスティング市場は静かに世界中に広がっており、最盛期のeラーニングの市場を将来的に上回ると推定されている。eラーニングはインフラ時代のツールであったので誰でも参入できたが、eテスティングは競争的技術のある一部の企業の一人勝ちになる可能性もある。しかし、これこそがビッグデータ時代のビジネスの本質といえるかもしれない。
※次回は学習コミュニティSNSにおけるeポートフォリオの予定です。
文献
- Ishii, T., Songmuang, P., & Ueno, M. (2013). Maximum clique algorithm for uniform test forms assembly. In H. C. Lane, K. Yacef, J. Mostow, & P. Pavlik (Eds.), Artificial intelligence in education: 16th international conference, AIED 2013, Memphis, TN, USA, July 2013. Proceedings (pp. 451-462). Berlin, Germany: Springer Berlin-Heidelberg.
- Ishii, T., Songmuang, P., & Ueno, M. (2014). Maximum clique algorithm and its approximation for uniform test form assembly. IEEE Transactions on Learning Technologies, 7(1), 1-13.
- Songmuang, P., & Ueno, M. (2011). Bees algorithm for construction of multiple test forms in e-testing. IEEE Transactions on Learning Technologies, 4(3), 209-221.
報告者
-
ベネッセ教育総合研究所 アセスメント研究開発室 研究員
< 中島 功滋 >