ChatGPTは数学が苦手で会計学の試験では人間にまだまだ勝てなかった模様

人工知能（AI）は世界を席巻し、これまで想像していなかった様な職業が置き換えられる可能性も出てきている。

史上最も急成長しているテクノロジープラットフォーム「ChatGPT」のリリースをきっかけに、作家、アーティスト、ミュージシャン、コーダーなど、さまざまな人の仕事をAIが奪い始めているという話が出ている。

しかし、ある職業は当分の間、安泰かもしれない。アメリカのブリガムヤング大学（BYU）の研究によると、会計学の試験において、人間の会計士はいまだにChatGPTを凌駕しているようだ。

この研究は、14カ国、186の教育機関から327名の共著者が参加し、総計で25,181問の教室での会計試験問題を提供した。

会計情報システム（AIS）、監査、財務会計、管理会計、税務の問題が出題されました。問題の難易度や種類も様々で、真偽判定、多肢選択式、記述式などがある。

ChatGPTは、過去に法律系の試験にも合格しており、当然のことながら好成績を収めた。全体の平均は47.4％で、11.3％の問題で人間の学生よりも良い結果を出しています。特にAISと監査で好成績を収めた。

しかし、学生たちは全体的にマシンを上回ったのだ。平均得点は76.7％で、税金、財務、経営に関する評価の問題が得意だった。おそらく、ChatGPTが後者のタイプに必要な数学的処理を苦手としていたためだろう。

問題の種類別では、ChatGPTは、真偽を問う問題（68.7％の正解率）と多肢選択問題（59.5％）は得意だったが、短答問題では苦戦した。

ChatGPTの潜在的な利点とは裏腹に、会計学教授が主導した研究では、ChatGPTのいくつかの限界も明らかにされた。このプラットフォームは数学的な処理に苦労しており、ミスが発生したときにそれを隠すためにデータを装飾することが多いことも判明した。

この研究の主執筆者であるBYUの会計学教授David Wood氏は、できるだけ多くの教授を募り、実際の学生に対してAIがどのような結果を出したかを確認し、AI言語モデルが教育にどのように組み込まれるべきかという議論に役立てたいと考えた。

「この技術が登場した当初は、学生がカンニングに使うのではないかと誰もが心配したものです」とWood氏。

「しかし、不正をする機会は常に存在していました。だから私たちは、教員の教育プロセスや学生の学習プロセスを改善するために、これまでできなかったことを、今この技術でできることに集中しようとしているのです。テストしてみると、目からウロコが落ちる思いでした」。

研究者たちは、会計の領域ではまだ課題があるものの、すべての人の教え方、学び方をより良く変えるゲームチェンジャーだと述べている。

「付加価値のある情報を教えているかどうかを考える機会です」と、研究の共同執筆者で同じくBYUの会計学教授であるMelissa Larson氏は述べている。

「これは混乱であり、これからどうするかを見極める必要があります。もちろん、ティーチングアシスタントはまだいますが、これによって、別の方法で使うことを余儀なくされそうです」と述べている。

この研究では、他にもいくつかの興味深い発見があった。例えば、ChatGPTは自分が数学をしていることを必ずしも認識しておらず、引き算の問題で2つの数字を足したり、数字の割り算を間違えたりといった意味不明なミスをする。また、答えが不正解であっても、その答えを装飾して最もらしく見せるとのことだ。

ChatGPTは、OpenAIのGPT3.5ディープラーニング言語モデルで構築されている。OpenAIはその後GPT4をリリースし、その機能はGPT3.5を凌駕している。研究者は、今回の研究で出された会計の質問に対して、この技術が指数関数的に向上することを期待している。

チャットボットは、課題の設計やテスト、あるいはプロジェクトの下書きなど、教育や学習の改善に役立つことが期待されている。

BYUの学生であるJessica Wood氏は、「ChatGPTは完璧ではない。「ChatGPTだけで学ぼうとするのは、愚の骨頂です」と述べています。

論文

American Accounting Association: The ChatGPT Artificial Intelligence Chatbot: How Well Does It Answer Accounting Assessment Questions?

参考文献

SciTechDaily: Humans Reign Supreme: ChatGPT Falls Short on Accounting Exams

研究の要旨

言語学習モデルのチャットボットであるChatGPTは、ユーザーの質問に答える能力で大きな注目を集めています。14カ国、186機関のデータを用いて、会計評価や教科書のテストバンクの28,085問について、ChatGPTと学生の成績を比較します。2023年1月現在、ChatGPTは56.5%の問題に対して正解を提供し、さらに9.4%の問題に対して部分的に正解を提供しています。問題のポイント値を考慮すると、学生の評価平均は76.7%であるのに対し、ChatGPTは部分単位が付与されない場合は47.5%、部分単位が付与される場合は56.5%とChatGPTを大きく上回ります。それでも、ChatGPTは部分単位を含むと、評価の15.8%で学生平均よりも良い結果を出しています。ChatGPTが異なる問題タイプ、会計トピック、クラスレベル、オープン/クローズド評価、テストバンク問題でどのようなパフォーマンスを発揮するかについて、証拠を提供します。また、会計教育や研究への影響についても考察しています。