OpenAIの開発者は、最も高度なAIでさえ誤った帰結を出す傾向があり、不確定な事態に遭遇すると、事実を捏造してしまうことを認めている。こうした問題は通常、何段階にもわたって推論する必要がある場合に発生する。そうした中ではわずか1つでも論理を間違えば、誤った結論が導きだされてしまうからだ。
OpenAIは現在、AIが最終的に出す結論に対して報酬を与えるのではなく、学習プロセスにあるAIに対し、ステップごとに出される推論が正しい場合、それに対して報酬を与えようとしている。研究者らによると、このアプローチは「結果観察」ではなく「プロセス観察」と呼ばれるもので、これによって、AIはより人間に近い「思考」連鎖をたどる論理に近づくため、より理解しやすいAIの到達に近づく。
OpenAIはその研究をアピールするために、AIのトレーニングに用いた80万個のタグからなる付属のデータセットを公開している。
関連ニュース