我是廣告 請繼續往下閱讀 根據金融時報報導,三位知情人士透露,在今年 1 月推出 R1 模型後,深度求索在中國政府的鼓勵下選擇使用華為昇騰(Ascend)晶片,而不是輝達的晶片。
然而,在使用昇騰晶片進行 R2 訓練過程中,遇到持續的技術問題,最終不得不採用輝達晶片進行訓練,在推理階段才使用華為晶片。報導引述一位熟悉內情的人士表示,上述技術是R2模型預定從5月發布,卻延遲的主要原因。
金融時報強調,訓練是指讓模型透過大量資料集中進行學習;推理則是讓已完成訓練的模型預測或生成回應,例如聊天機器人回答用戶提問。DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後美國對手,也凸顯中國在實現科技自主上面臨挑戰。
金融時報本週稍早曾報導,中國政府要求中國科技公司對採購輝達H20晶片訂單說明理由,目的在鼓勵這些公司使用華為與寒武紀等公司生產的替代品,但業內人士表示,中國晶片存在穩定性不足、晶片間連接速度較慢以及軟體劣於 Nvidia 產品等問題。
據兩位知情人士透露,華為曾派出一支工程師團隊到DeepSeek辦公室協助該公司使用其 AI 晶片開發 R2 模型,依然無法在昇騰晶片上成功完成一次訓練,DeepSeek仍在與華為合作,力求讓該模型在推理階段可與昇騰晶片相容。
加州大學柏克萊分校(University of California, Berkeley)AI研究員古普塔(Ritwik Gupta)表示,模型本身就是可以輕易更換的商品。現在許多開發者都在使用阿裏巴巴的「通義千問3」(Qwen3),功能強大又具彈性。
古普塔指出,通義千問3採用了DeepSeek的核心理念,例如能讓模型具備推理能力的訓練演算法,但在使用效率上做得更好。但他仍研判,雖然現在沒看到頂尖模型使用華為晶片訓練,不代表未來不會發生。
- DeepSeek
- 深度求索
- 華為
- 華為晶片
- 昇騰晶片
- 輝達
標題:DeepSeek新模型延後發布 被爆因用華為晶片棄輝達釀災情
地址:https://www.twetclubs.com/post/113568.html