在人工智能技術飛速發(fā)展的今天,AI 大模型的計算需求正以前所未有的速度增長。深度求索最新發(fā)布的 Deepseek R1,作為一款能夠與業(yè)界最強的 ChatGPT 正面抗衡的強大模型,對計算平臺的高性能、穩(wěn)定性和高效性提出了極高要求。為此,安擎計算機信息股份有限公司(以下簡稱“安擎”),憑借深厚的技術積累和行業(yè)強大的硬件研發(fā)實力,為客戶提供了一系列高效能算力解決方案,確保 Deepseek R1 模型的流暢運行。
本文將詳細介紹 Deepseek R1 的算力需求、硬件選擇及網(wǎng)絡互聯(lián)方案,幫助您在本地環(huán)境中快速部署運行真滿血版 Deepseek R1,擺脫官方服務超載帶來的困擾。
一、深度算力需求下的挑戰(zhàn)與機遇
1.1 模型版本及應用場景
Deepseek R1 模型面向自然語言處理(NLP)、代碼生成、內(nèi)容理解、數(shù)據(jù)分析等多個應用場景,對服務器的計算能力、存儲性能、數(shù)據(jù)吞吐量及穩(wěn)定性均提出了極高要求。目前,該模型主要分為兩大類別,共計八個版本:
· 滿血原版:
o Deepseek-R1-Zero(671B)
o Deepseek-R1(671B)
· 蒸餾版:
o DeepSeek-R1-Distill-Qwen-1.5B
o DeepSeek-R1-Distill-Qwen-7B
o DeepSeek-R1-Distill-Llama-8B
o DeepSeek-R1-Distill-Qwen-14B
o DeepSeek-R1-Distill-Qwen-32B
o DeepSeek-R1-Distill-Llama-70B
需要特別說明的是,只有 Deepseek-R1(671B) 具備與 ChatGPT 正面抗衡、在大部分指標上實現(xiàn)超越的能力,而蒸餾版雖然經(jīng)過 Deepseek 調(diào)優(yōu)和參數(shù)蒸餾后性能有所提升,但仍無法與滿血版媲美。因此,對于追求頂尖 AI 能力的用戶來說,如何在本地部署真滿血版 Deepseek R1顯得尤為關鍵。
1.2 本地部署的必要性
當前市場上不少第三方服務商宣稱提供 Deepseek 相關服務,或發(fā)布本地化運行教程,但實際上多數(shù)基于蒸餾版模型,容易混淆視聽。而在 Deepseek 官方服務因超載而頻繁失去響應的背景下,借助安擎多年的服務器研發(fā)經(jīng)驗和靈活定制化服務,打造一套專為真滿血 Deepseek R1 設計的高性能計算平臺,成為了確保業(yè)務連續(xù)性與數(shù)據(jù)安全的理想選擇。
二、安擎 AI 服務器:Deepseek R1 理想運行環(huán)境
為了滿足 Deepseek R1 671B 模型在實際業(yè)務中的高并發(fā)、高效率和穩(wěn)定運行需求,安擎為您量身定制了從硬件選型到互聯(lián)網(wǎng)絡方案的整體解決方案,下面詳細介紹各項關鍵技術指標及設備選型。
2.1 需求理解與顯存計算
Deepseek R1 為 671B 模型,單次激活專家參數(shù)量為 37B。該模型主要采用 FP8 訓練,同時輔以 BF16 模式。根據(jù)以下公式計算模型運行所需顯存:
MoE 模型運行所需顯存 = 模型參數(shù)量 × 精度系數(shù) + 激活參數(shù)量 × 精度系數(shù) + 10%~20% 其他消耗
其中:
· 模型參數(shù)量:671
· 激活參數(shù)量:37
· FP8 精度系數(shù):1
· BF16 精度系數(shù):2
代入數(shù)據(jù)可得:
· 最小需求:671×1 + 37×1 + (671+37)×10% = 778.8G
· 最大需求:671×2 + 37×2 + (671×2+37×2)×20% = 1699.2G
考慮到在 128K 上下文情況下可能超過最大值,為確保運行可靠,我們以最大需求 1699.2G 為參考,提供充足的顯存余量。
2.2 算力卡選擇方案
根據(jù)顯存需求,系統(tǒng)需提供超過 1700G 緩存才能保證 Deepseek R1 的穩(wěn)定運行。針對不同硬件平臺,安擎提供以下幾種合理的算力卡組合方案:
Nvidia H20 141G HBM3e: 每卡 141G,兩臺共 16 卡,總顯存 2256G
可適配機型:EG8628G4
Nvidia L20/5880ADA: 每卡 48G,6 臺共 48 卡,總顯存 2304G
可適配機型:EG8421G4
昇騰 910B3/910B4: 每卡 64G,4 臺共 32 卡,總顯存 2048G
可適配機型:EG940A-G30
海光 K100AI: 每卡 64G,4 臺共 32 卡,總顯存 2048G
可適配機型:EG8828H4
2.3 互聯(lián)網(wǎng)絡方案
在多機多卡并行計算的環(huán)境下,高速網(wǎng)絡互聯(lián)是關鍵。針對不同算力卡平臺,安擎提出了兩種網(wǎng)絡配置方案:
√ Hopper 系列算力卡(基于 HGX 技術):
每臺服務器配備 8 個 400G 端口,整體端口需求低于 64 個。推薦使用 MQM9790 交換機,該設備擁有 64 個 400G 端口,并具備未來擴展能力,從而確保所有算力卡間實現(xiàn) 400G 的高速互聯(lián)。
√ 基于 PCIe 架構的中端算力卡:
由于平臺無法為每個算力卡單獨配置高速網(wǎng)卡,同時卡的算力能力無法充分飽和 400G 帶寬,每臺服務器建議配置 2 個 200G IB 端口。此時,可選用 MQM8790 交換機,其配備 40 個 200G 端口,同樣支持未來擴展,并確保所有卡間達到 400G 的多機互聯(lián)帶寬。
對于昇騰 910 系列和 K100AI 服務器,安擎會根據(jù)具體需求靈活配置最優(yōu)網(wǎng)絡方案。
2.4 安擎的增值服務
基于上述硬件方案,安擎可為企業(yè)和機構提供一整套定制化服務,包括:
√ 設備供貨與定制化: 根據(jù)客戶需求精準匹配硬件配置;
√ 本地私有化部署: 在客戶自有數(shù)據(jù)中心搭建專屬 Deepseek R1 運行環(huán)境,確保數(shù)據(jù)安全;
√ 混合云/本地算力融合方案: 結合云計算與本地計算資源,實現(xiàn)成本與算力的最佳平衡;
√ 專用優(yōu)化服務: 針對 Deepseek R1 的特定應用場景,提供軟硬件深度優(yōu)化,全面提升系統(tǒng)性能。
三、行業(yè)認可與未來展望
自成立以來,安擎始終堅持自主研發(fā),在人工智能、互聯(lián)網(wǎng)、云計算、安防、交通、金融、醫(yī)療等多個行業(yè)中取得了廣泛應用。憑借 60 余項自主專利和強大的本土研發(fā)實力,安擎在中國 AI 服務器市場中占據(jù)了重要地位,特別是在交通、服務與公共事業(yè)等領域處于市場領先地位(IDC 數(shù)據(jù))。
面向未來,安擎將繼續(xù)深耕人工智能領域,為客戶提供更加高效、靈活和安全的 AI 算力解決方案。通過推動 Deepseek R1 等大模型的廣泛落地應用,安擎致力于為中國乃至全球的智能化轉型提供堅實的計算力支撐。
安擎,您的 AI 計算力專家——為 Deepseek R1 賦能,助力 AI 創(chuàng)新加速!
返回列表