发布日期:2025-03-10 21:04 点击次数:173
DeepSeek又有大音讯。
3月1日,DeepSeek发表题为《DeepSeek-V3/R1推理系统概览》的著作,全面揭晓V3/R1推理系统背后的要津高深。
最为引东谈主细致标是,著作初度清晰了DeepSeek的表面资本和利润率等要津信息。据先容,假设GPU租出资本为2好意思元/小时,总资本为87072好意思元/天;要是通盘tokens通盘按照DeepSeek R1的订价策动,表面上一天的总收入为562027好意思元/天,资本利润率为545%。
凭据DeepSeek官方清晰,DeepSeek V3和R1的通盘工作均使用H800GPU,使用和考研一致的精度,即矩阵策动和dispatch传输选拔和考研一致的FP8措施,core-attention策动和combine传输选拔和考研一致的BF16,最猛进度保证了工作扫尾。
另外,由于白日的工作负荷高,晚上的工作负荷低,因此DeepSeek已毕了一套机制,在白日负荷高的期间,用通盘节点部署推理工作。晚上负荷低的期间,减少推理节点,以用来作念商议和考研。
在最近24小时(2025年2月27日12:00至28日12:00)的统计周期内:GPU租出资本按2好意思元/小时策动,日均资本为87072好意思元;若通盘输入/输出token按R1订价(输入1元/百万token、输出16元/百万token)策动,单日收入可达562027好意思元,资本利润率高达545%。
不外,DeepSeek官方坦言,推行上莫得这样多收入,因为V3的订价更低,同期收费工作只占了一部分,另外夜间还会有扣头。
DeepSeek的高利润率源于其翻新的推理系统筹划,中枢包括大范围跨节点众人并行(EP)、策动通讯访佛与负载平衡优化三大工夫维持:众人并行(EP)教会浑沌与反应速率,针对模子稀薄性(每层仅激活8/256个众人),选拔EP计策推广总体批措置范围(batch size),确保每个众人得到迷漫的策动负载,权臣教会GPU讹诈率;部署单位动态出动(如Prefill阶段4节点、Decode阶段18节点),平衡资源分拨与任务需求。
策动与通讯访佛荫藏蔓延,Prefill阶段通过“双batch交错”已毕策动与通讯并行,Decode阶段拆分attention为多级活水线,最大圆寂笼罩通讯支出。
全局负载平衡幸免资源浮滥,针对不同并行样貌(数据并行DP、众人并行EP)筹划动态负载平衡器,确保各GPU的策动量、通讯量及KVCache占用平衡,幸免节点空转。
粗浅来说,EP就像是“多东谈主配合”,把模子中的“众人”漫步到多张GPU上进行策动,大幅教会Batch Size,榨干GPU算力,同期众人漫步,裁汰内存压力,更快反应。
DeepSeek在工程层面进一步压缩资本。日夜资源调配:白日岑岭时段全力支握推理工作,夜间闲置节点转用于研发考研,最大化硬件讹诈率;缓存掷中率达56.3%:通过KVCache硬盘缓存减少重复策动,在输入token中,有3420亿个(56.3%)平直掷中缓存,大幅裁汰算力耗尽。
概括自券商中国欧洲杯体育