AIを活用した数式・文章の自動校閲技術の有効性について検証してみました。
解答や途中式を含む中学数学教材に対して、
AIが数式の正確な読み取り・判別を行った上で正誤を判断し、
どの程度正確に誤りを発見し修正を提案できるかを評価します。
ChatGPT(GPT-4o)を活用した自動校閲
今回の検証では、OpenAIが2024年5月に一般公開した最新モデル GPT-4oを使用しています。
GPT-4oは、従来のGPT-4 Turbo with Vision(2024年初頭)に比べて、画像中の数式や構造的情報の読み取り精度が向上しており、特に数式のレイアウト認識・途中式の保持・不確実箇所の検出などにおいて優れているようです。
そのため、本検証に適したモデルとして、GPT-4oを採用しています。
また、文字データが埋め込まれているPDFと一般的な画像データの2パターンを検証し、どのような違いがあるかも調べます。
データを添付し、数式を抽出して計算してもらいます。(まずは問題ページから試します)
その後、データ中に記載がある解答と結果が同じかを確認するように指示します。
こちらが検証に使用した教材の紙面です。

ChatGPTヘ出した指示

校閲結果

ページ単位で添付しましたが、問題なく校閲出来ました。
図を含む文章問題も文脈を理解し、解くことが出来ています。

また、複数の解答を持つ「別解」などイレギュラーな体裁にも問題なく対応出来ています。
ですが、一点だけデータ問題と違う箇所がありました。

小数になおしただけではあるので、解答的には正解になっていますが、少しこの部分を掘り下げてみました。
AIの返答は以下の通りです。

つまり、「5分の3」をうまく読み取れず「+0.6」と処理されたようです。
文脈が少し分かりづらいので、もう少し掘り下げてみました。

つまり、「本当の式(−0.8 + 3/5)を知らなかったから、補完的に小数(0.6)に変えて処理した。偶然にもそれが本来の答えと一致していた。」ということのようでした。
このことから、AIは文字を読み取る際、文字によって「確信度(間違い無く合っている or 違うかもしれない or 正確な文字が分からないから近い文字を当てる)」のようなものがあるのだと考えました。
確信度はレベル別に分けることができ、通知も可能なようです。


また、先程のミスはレベルC程度のようなので、レベルC相当の項目を通知してもらいます。

次に、画像データ(png, jpegなど)で検証します。

ほとんどの問題は正解していますが、やはり文字情報を保持しているPDFと比較すると、やや文字の抽出精度が落ちるようです。
少し変わった点は、「計算間違いした直後 校閲が終わる前に訂正が入った」ことです。
AIは一度だけ計算を行うのではなく「見直し・再計算」を行っていて、「初めは誤解したけど、あとから情報を整理してみたら違っていた」と気づく場面があるようです。


また、校閲をかけるデータ形式についてですが、推奨されるのはPDFのようです

次に、途中式や考え方の説明などを含んだ、解答ページの校閲を試してみます。
解答だけでなく、途中式の正誤や考え方の説明に問題がないかも含めて確認してもらいます。
校閲時に確認して欲しい以下の3点の指示を出します。
・途中式
・解答
・考え方の説明
ChatGPTへの指示内容

正しく指示が伝わっているか、AIの応答から、校閲対象(途中式・解答・説明)の認識状況を確認します。

校閲例①

校閲例②

複数の画像を一気に添付→一括校閲をかけてもらうことも可能です。

また、結果をCSVに書き出すことも可能です。

次は、数式問題ではない形式のページにも校閲をかけてみました。

しっかりと文脈を理解し、適切に処理できています。
ChatGPTでの校閲について
検証を通じて、GPT-4oは高精度な数式認識・校閲能力を持っていることが確認できました。
問題文中の数式や構造的な情報を正確に抽出・処理できており、途中式の保持やイレギュラーな体裁(別解など)への対応力も高い点が印象的でした。
さらに、途中式を含む複雑な計算過程の読み取りや、再計算・訂正といったプロセスも自動的に行う点から、単なる読み取りにとどまらず、論理的整合性の確認まで含めた校閲が可能である点が大きな強みです。
一方で、文脈や数式の流れを積極的に補完しようとするAIの性質ゆえに、意図しない誤りや推測で処理を行うような場面も確認されました。
たとえば、数式の一部が別の表現に置き換えられたり、誤って認識された内容がそのまま「正しいもの」として処理されてしまうといったものです。
このように、AIならではの柔軟な判断力は強みである一方、与えられた情報以上のことを推測してしまう傾向があることから、特徴を把握して使う必要があると感じます。
結果として、現時点では人間の目による最終確認は依然として必要ではありますが、確認作業の下支えとしての効果は高く、校閲業務の効率化に繋がる可能性はありそうです。