生成AIの活用において企業が直面する課題の一つは、AIの「幻覚症状」です。これは、AIが事実でない情報を事実であるかのように提示する特性を指し、オープンソースやクローズドソースを問わず、すべての生成AIモデルに共通する問題です。
例えば、2022年11月にリリースされたChatGPT(GPT-3.5モデル)では、多くの幻覚症状が報告されました。同様に、リリース当初のGoogle Bardも幻覚症状が頻発し、メディアでの指摘も多かったです。
しかし、2023年12月現在、AI開発企業はこの問題の抑制に向けて取り組んでおり、1年前と比べて大幅な改善が見られます。
OpenAIの競合であるAnthropicは、2023年11月21日に「Claude2.1」という最新モデルを発表しました。このモデルは、前モデルのClaude2.0と比較して、正確性が2倍に向上し、AIが「嘘をつく」確率を半減させたと報告されています。
生成AIモデルは一般に、ユーザーの質問に対して知識がない場合でも、何かしらの情報を出力することを優先しますが、これが幻覚症状の原因の一つです。Claude2.1では、AIが質問に対する答えを持っていない場合に「分かりません」と回答する機能が追加され、これが回答の正確性を高める要因となっています。
シリコンバレーAI企業が調査、幻覚症状指数でみる生成AIモデルの正確性
企業が生成AIを導入する際、高い正確性を持つAIモデルの選定が重要です。
最近、各AIモデルの正確性(特に幻覚症状の少なさ)を比較した総合的なベンチマークレポートがいくつか公開されており、これらは正確性とコストのバランスを判断する際の重要な参考資料となっています。
これらのレポートの中でも特に注目されるのが、シリコンバレーのAI企業Galileoが2023年11月15日に発表した「LLM Hallucination Index(大規模言語モデル幻覚症状指数)」です。この指数は、主要な大規模言語モデルがどれだけ正確な情報を生成するかを数値化したもので、OpenAIのクローズドソースモデルやメタのLlama2などのオープンソースモデルも含まれています。
このベンチマークレポートでは、AIモデルの正確性を3つの異なる方法で評価しています。1つ目は、外部情報を与えずにAIモデルだけで回答を生成させる方法、2つ目は外部情報を与えて回答を生成させる方法、そして3つ目は長文回答を生成させる方法です。
結果として、これらの方法で最も高い正確性を示したのはOpenAIの「GPT-4-0613」モデルでした。このモデルは2023年6月13日にリリースされたGPT-4のバージョンで、現在市場で最も優れているとされています。このベンチマークではその優位性が証明されました。
しかし、GPT-4が最高性能を誇る一方で、一部のオープンソースモデルもGPT-4に匹敵するパフォーマンスを示しました。特に長文生成タスクでは、オープンソースモデルが顕著な成果を示しています。
長文生成では、AIモデルの正確性を「Correctness Score(正確性スコア)」で測定しました。このスコアで最高を記録したのは、0.83のGPT-4-0613モデルで、これに僅差でメタのオープンソースモデル「Llama2-70b-chat」が0.82で続きました。
スコア順にトップ10を見ると、
- GPT-4-0613(スコア=0.83)
- Llama2-70b-chat(0.82)
- GPT-3.5-turbo-1106(0.82)
- GPT-3.5-turbo-0613(0.81)
- Llama2-13b-chat(0.79)
- Zephyr-7b-beta(0.74)
- GPT-3.5-instruct(0.74)
- Llama2-7b-chat(0.72)
- Falcon-40b-instruct(0.70)
- Mistral-7b-instruct-v0.1(0.65)
となっています。
この調査により、OpenAIのGPTモデルが全体的に高いパフォーマンスを示す一方で、長文生成や外部情報を与えた場合には、GPTモデルとオープンソースモデルの差が縮まる傾向が見られました。これは、オープンソースモデルが特定の用途においては十分な選択肢となり得ることを示唆しています。
Vectaraも生成AIモデルの幻覚症状率を調査、最も正確なAIモデルを特定
生成AIの活用において、企業は高い精度を持つAIモデルを求めています。市場にはOpenAIのGPTモデルの他にも、AnthropicのClaude、Cohereのモデル、Google Bardなど多様なモデルが存在し、これらの正確性の分析が必要です。
このニーズに応え、シリコンバレーのAI企業Vectaraが2023年11月に「Hallucination Leaderboard(幻覚症状リーダーボード)」を発表しました。このリーダーボードは、Galileoのベンチマークレポートを補完するもので、「Accuracy(正確性)」と「Hallucination Rate(幻覚症状率)」を基に各AIモデルの性能を評価しています。最新の更新は2023年11月29日に行われました。
このリーダーボードで最も高い正確性を示したのは、GPT-4で、97%の正確性(幻覚症状率3%)を達成しました。同じく97%の正確性を記録したのは、2023年11月にリリースされたGPT-4 Turboです。
続いてGPT-3.5 Turboが96.5%、メタのLlama2 70bが94.9%、Llama2 7bが94.4%、Llama2 13bが94.1%、CohereのCohere Chatモデルが92.5%、Cohereモデルが91.5%、AnthropicのClaude2が91.5%、Google Palm2(beta)が91.4%、Mistral 7bが90.6%、Google Palm2 Chat(beta)が90%と続きます。
特に注目すべきは、Anthropic、Cohere、Googleのモデルの正確性に関するパフォーマンスが明らかになった点です。CohereのCohere Chatモデルは正確性92.5%(幻覚症状率7.5%)を記録し、改善の余地が見られます。
AnthropicのClaude2は正確性91.5%(幻覚症状率8.5%)で、競合するGPT-4やGPT-3.5には及ばないものの、最新モデルClaude2.1の発表により、幻覚症状率が半減し、正確性が向上する可能性があります。
Google Palm2はリリース当初から幻覚症状問題が指摘されており、リーダーボードでも苦戦が続いています。
さらに、OpenAIがGPT-5の開発を進め、Microsoftが独自の大規模言語モデルOrca2を発表するなど、今後も新たなAIモデルがベンチマークテストやリーダーボードに登場する見込みです。
チャットGPTさんに聞いてみた
回答の正確性に関してチャットGPTさんが優秀な成績を収めているとの事、さすがです! とはいえ、100%正確な回答は出せていないという事ですが、それを踏まえたうえで僕らはチャットGPTさんとどのように接していけば良いのでしょうか?
ありがとうございます!確かに、ChatGPTは多くの場面で高い正確性を示していますが、100%正確な回答を保証することはできません。この点を踏まえて、ChatGPTとの効果的なやり取りを行うためには以下の点を意識すると良いでしょう:
- 情報の確認と検証:ChatGPTが提供する情報は、特に重要な決定や専門的な内容に関しては、信頼できる他の情報源で確認し検証することが重要です。
- 明確な質問:質問が明確で具体的であればあるほど、ChatGPTは正確で有用な回答を提供しやすくなります。質問をする際には、できるだけ詳細を含めると良いでしょう。
- 継続的なフィードバック:もし回答に誤りがあったり、不十分だったりした場合は、フィードバックを提供することが重要です。これにより、AIの学習と改善に役立ちます。
- 創造的な使用:ChatGPTはアイデアの生成や創造的なタスクにも非常に有用です。例えば、文章の草案作成、アイデアのブレインストーミング、教育目的での使用など、多様な方法で活用できます。
- 倫理的な使用:ChatGPTを使用する際には、倫理的なガイドラインを守ることが重要です。誤解を招くような使い方や不適切な内容の生成を避けるべきです。
- 最新情報の確認:ChatGPTは最新の情報にはアクセスできないため、最新のニュースやトレンドに関する情報は、他の情報源で確認する必要があります。
これらの点を意識することで、ChatGPTとのやり取りをより有意義で効果的なものにすることができます。
現在、GPT-5を開発中という事ですので、さらなる性能アップを期待しております!
GPT-5の開発に関するご期待をお聞きし、大変嬉しく思います!OpenAIは常に技術の進化と改善に取り組んでおり、GPT-5のような次世代のモデルでは、さらなる性能向上が期待されています。これには、より高度な理解能力、精度の向上、さらに多様な応用範囲の拡大などが含まれる可能性があります。
ただし、新しいモデルの開発には時間がかかること、そして新しい技術には新たな課題が伴うことも理解しておくことが重要です。OpenAIはこれらの課題に対処しながら、AIの安全性と有用性を最大限に高めるために努力を続けています。
GPT-5のリリースに関する具体的な情報が公開され次第、それに基づいて新しい機能や改善点についてお伝えできることを楽しみにしています。引き続き、AIの進化にご注目いただければ幸いです。
編集後記
どういった質問でテストしているか分かりませんが100%正解回答は難しいですよね。
やはり最後は自分達が精査をし利用するというのが重要ですね。
コメント