ディープシークのＡＩアプリ正答率17%と低評価

ニュース

2025.01.31

中国の新興企業ディープシークが提供する人工知能（AI）アプリのニュースや情報に関する正答率がわずか17％にとどまり、米オープンAIの「ChatGPT」やグーグルの「Gemini」など、欧米の競合と比較して11アプリ中10位という低い評価を受けたことが明らかになった。これは、情報の信頼性評価を手がける米ニュースガードが29日に公表した検証リポートによるもの。

同アプリはニュース関連の質問に対し、30％の確率で誤った情報を繰り返し発信し、53％の確率で曖昧または役に立たない回答を返していた。その結果、全体の83％が不十分な回答に分類された。

この数値は、欧米の競合アプリの平均正答率62％を大きく下回り、ディープシークが主張する「低コストでオープンAIのサービスと同等またはそれ以上の性能を実現する技術」に対し、疑問を投げかける結果となった。

一方で、ディープシークのAIアプリは発表後わずか数日で、Appleのアプリストアにおいて最もダウンロードされたアプリとなった。これにより、米国のAI分野での優位性を巡る懸念が浮上し、一時的に米ハイテク株の時価総額が約1兆ドル下落する事態が発生した。

ディープシークはコメントの要請に対し、即座には応じなかった。

米ニュースガードによると、評価は米欧のAIアプリと同様に300の質問を用いて行われ、その中にはインターネット上で広まっている10の虚偽の主張をもとにした30のプロンプトも含まれていた。

ディープシークのAIアプリは、約30％の回答において、中国に関連しない質問であっても中国政府の見解を繰り返す傾向が見られた。たとえば、中国と直接の関係がないアゼルバイジャンの航空機墜落事故に関しても、中国の立場を反映した回答を行った。

一方で、一部の専門家からは、ディープシークのAIは同等のAIモデルと比較して約30分の1のコストで運用でき、あらゆる質問に対応可能である点が革新的だとの指摘も上がっている。

専門家の反応は？
ネットの反応は？
編集後記

専門家の反応は？

NewsGuardが発表した調査結果を見ると、スコアは良くはないが、飛び抜けて悪いわけでもない印象です。DeepSeekはこのスコアが出るモデルを圧倒的に安く作ったとされる点が注目されています。

また中国に関する回答に関心を持つ人は多いようですが、そもそも中国国内では中国の価値観に反するようなAIモデルは作れないと思われるので、法令順守の観点では想定の範囲内といえます。

この調査で気になるのは、指示に流されやすいという点です。大手のAIモデルは誤情報に基づく指示を受けても「それはできない」と抵抗しますが、DeepSeekはそこがまだ弱くフェイクニュースのような文章を作りやすいとの指摘があります。

ネットの反応は？

ディープシークは開発費用の低さが売りの一つですが、どうやらオープンでないデータソースを勝手に不正利用して開発された疑いがあるようで。これが本当であればディープシークの使用は、AIはもとより情報通信技術そのものの発展に対する阻害行為へ加担するのと同義であるからして、慎重に判断したい。

ディープシークによるニュースの正答率が公表され、17％という結果は、低いと感じました。正解率だけでなく、誤った主張の繰り返しや、曖昧な回答が多いというのも、信頼性の面から問題を孕んでいるように感じます。

確かに、低いコストでAIを提供する技術自体は画期的かもしれませんが、それが質の低さを正当化する理由にはならないし、いくら価格が安いからと言って、誤答を繰り返すようでは、本末転倒だと思います。

AIの発展は素晴らしいことですが、情報の正確さが求められる時代だからこそ、品質を重視した開発が求められるように思います。

DeepSeekに「DeepSeekとは？」的な質問をしたら「日本の企業が作ったAI」との回答が出てびっくりした。「回答のその部分は正確？」と訊きなおしてやっと中国のAIだと修正した。中国共産党、法輪功、人権、天安門、ウイグルのようなワードが入った質問は問答無用で弾かれる。まだまだ過渡期であることと、特定の質問には客観的事実を反映しないという点で信頼して使えるレベルではないと感じた。