1月下旬、DeepSeekは、米国製品と同等でありながら価格がほんの一部に抑えられた2つのLLMモデルをリリースし、世界のテクノロジー界に旋風を巻き起こした。その中でも、オープンソースの推論モデル DeepSeek-R1 は、OpenAI の最も先進的な LLM である o1 と同じ科学的問題の一部を解決できます。

世界が驚いた一方で、国内の研究者らは、この成果は完全に予測可能であり、人工知能(AI)の主導的大国になるという北京の野望と一致していると述べた。

中国科学院コンピュータ科学研究所のコンピュータ科学者、ユンジ・チェン氏は、遅かれ早かれDeepSeekのような企業が中国にも現れるだろうと指摘している。

これは、LLM開発企業に注ぎ込まれる巨額の投資資本と、STEM(科学、技術、工学、数学)分野の博士号取得者の数の増加によるものです。

「DeepSeekがなかったら、他の中国LLMが存在しただろう」とチェン氏は語った。

これは証明された事実です。 DeepSeekの「地震」から数日後、アリババはこれまでで最も先進的なLLMであるQwen2.5-Maxをリリースしました。同社はこれがDeepSeek-V3よりも優れていると主張しています。

Moonshot AIとByteDanceは、いくつかのベンチマークテストでo1を上回るパフォーマンスを発揮できる新しい推論モデル、Kimi 1.5と1.5-proも発表しました。

政府の優先事項

中国政府は2017年、2030年までにAI分野で世界をリードする国になるという意向を発表しました。中国は2025年までにAIにおける大きな進歩を達成し、「技術と応用が世界をリードするレベルに到達する」ことを目指しています。

そのためには、AI人材システムの開発が最優先事項です。ジョージタウン大学のセキュリティおよび新興技術センター(CSET)の報告によると、中国教育部は2022年までに440の大学にAI専攻の提供を許可する予定だ。

コンサルタント会社マクロポロによれば、同年、中国はトップクラスのAI研究者の半数を占め、米国はわずか18%だった。

ディープシーク ブルームバーグ
DeepSeek は、大規模で低コスト、高性能な言語モデルのシリーズで驚かせます。写真:ブルームバーグ

シドニー工科大学の政策科学研究者、マリーナ・チャン氏は、ディープシークは、多数の奨学金、研究助成金、産学連携など、AIの訓練と人材育成に対する政府の投資の恩恵を受けている可能性が高いと述べた。

たとえば、国立深層学習技術・応用研究所のような政府支援の取り組みにより、何千人もの AI 専門家が育成されました。

DeepSeekの従業員数に関する正確な数字を見つけるのは難しいが、創業者のLiang Wenfeng氏によると、同社は国内最大規模の大学の卒業生や博士課程の学生を採用しているという。

張氏は、経営陣の一部のメンバーは35歳未満で、中国がハイテク超大国として台頭する中で成長してきたと語った。 「彼らはイノベーションにおける自立に深く意欲を持っています。」

39歳のウェンフェンさんは浙江大学でコンピューターサイエンスの学位を取得した。彼は約10年前にヘッジファンドHigh-Flyerを共同設立し、2023年にDeepSeekを設立した。

CSETで中国のAI人材を研究するジェイコブ・フェルドゴイス氏によると、AIのモデルエコシステムを促進する国家政策は、ディープシークのような企業が資金と人材の両方を引き付けるのに役立つという。

しかし、大学でのAIコースの増加にもかかわらず、AI関連の学位を取得して卒業する学生がどれくらいいるのか、また、企業が必要とするスキルが教えられているのかどうかについては、フェルドゴイス氏は不明だ。

近年、中国のAI企業は、これらのプログラムの卒業生が期待に応えていないと不満を訴えており、一部の企業は大学と提携して質の向上に取り組んでいる。

「焼き入れ」

科学者らによると、ディープシークの成功の最も印象的な要素は、2022年以来高度なAIコンピューティングチップへのアクセスをブロックしてきた米国政府の輸出規制の状況下で、ディープシーク-R1とJanus-Pro-7Bを開発したことだという。

張氏によると、DeepSeek は多くの制約に直面しながらも効率性を重視した、革新に対する中国独自のアプローチを体現しているという。

ウェンフェン氏のスタートアップは、DeepSeek-V3のトレーニングに約2,000個のNvidia H800チップを使用したと述べている。対照的に、Metaが2024年7月にリリースした高度なLLMであるLlama 3.1 405Bは、16,000個を超えるNvidia H100チップをベースにしています。

9xの才能が中国の李強首相から特別な注目を集める 9xの才能が中国の李強首相から特別な注目を集める

2022年のWeChatの投稿で、High-FlyerはNvidiaの旧型のA100チップを1万個保有していると述べた。 「我々が直面している問題はお金ではなく、ハイエンドチップの禁止だ」と文鋒氏は2024年7月に中国メディアに語った。

DeepSeek はさまざまな方法を使用してモデルの効率を高めます。たとえば、従来の手法よりも少ないパラメータでモデルをより速くトレーニングする機械学習アプローチである Mixture of Experts (MoE) アーキテクチャを実装しています。

シドニー大学のコンピューター科学者チャン・シュー氏によると、これはDeepSeekがより少ないチップでモデルをトレーニングするのに役立つという。

もう 1 つの手法は、マルチヘッド潜在的注意 (MLA) です。これにより、モデルはより少ないメモリでより多くのデータを保存できます。

香港大学の政策科学研究者、ヤンボ・ワン氏は、ディープシークの成果は、AIへの野望を持ちながらも、大規模な法学修士(LLM)を養成するための資金やハードウェア資源が不足している国々にとって「道標」となる可能性があると述べた。

(自然と運命によれば)

出典: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html