发布日期:2024-09-22 03:55 点击次数:135
快科技9月20日讯息,中国电信告示,天翼云自研的国内首个单集群万卡国产化全功能预实际云劳动平台,依然细密发布上线,基于华为昇腾芯片,并完成了万卡限度Llama3.1-405B大模子实际。
Llama3.1-405B四肢4000亿参数限度的大模子,在息壤训推劳动平台的支柱下,经过多轮优化,MFU(算力应用率)达到国内越过水平。
另外,700亿参数大模子Llama2-70B在万卡限度下完成实际,MFU也处于业界越过水平。
据悉,天翼云的这套平台具备万卡纳管和并行实际才智,基于HPFS PB级并行文献系统、CTCCL RDMA高速卡间互联期间、Gang战略与拓扑感知的智算容器调遣,以及慧聚自研散播式实际框架TeleFormers和平台,终了万卡资源纳管、万卡限度并行实际。
其中,天翼云自研了AI框架Teleformers,对算子、通讯、数据处理进行优化,还有并行战略的自适合调理,显耀晋升了大模子实际的实际成果。
在当今业内最大参数限度开源单体粘稠模子Llama3.1-405B大模子实际测试中,性能推崇达到海外同等水平。
算子优化方面,针对昇腾芯片的特质,在采聚首构层濒临诸多高频算子进行了定制化改良,构建了高性能算子集。
比如matmul算子,应用昇腾芯片的计较亲和性,将算子输入padding到特定的维度,大幅晋升实行成果,从而显然裁减了实际时候。
数据处理和活水线方面,通过树立合理的数据分片战略和HPFS条带化优化,调和数据预取与数据下千里期间,大幅晋升数据流的处理成果和踏实性;对预处理后的数据集进行了二次分片并提供就近缓存才智,减少GPU优游时候。
自适吞并行战略方面,基于对3D并行中各样计较单位的分析,天翼云计算了多种自适合的3D并行战略,依据模子限度和硬件资源的不同不错自动遴选适合的并行战略,充分应用计较资源和显存资源,裁减模子实际中每轮的迭代时候。
天翼云国产化万卡智算中心还有多项期间冲突——
天翼云息壤实际劳动平台基于软硬件协同计算,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调遣和模子编译缓存等系统,将万卡限度故障发现和科罚问题裁减到业内前沿的分钟级,大幅晋升灵验实际时候。
自动断点续训系统:
树立丰富的故障库,基于此构建了多维故障感知系统,好像快速主动感知关系故障事件和潜在的故障风险;
通过精确的故障遏制和调遣技能,快速遏制处理故障节点并重新调遣新节点接办任务接续实际,终了无东说念骨骚动式断点续训,灵验减少GPU闲置时候。
高速多级CheckPoint系统:
天翼云计算基于多级存储的高速CheckPoint系统,通过两阶段异步存储,终了高速写入内存,并最终异步写入远端系统;
针对断点还原场景,提供程度级故障原地快恢和远端快速还原才智,最终终了对CheckPoint的秒级读写才智,大幅禁止断点还原时候、晋升实际成果。
全链路检测器用链:
天翼云开发了全链路故障监控器用链,好像基于主动感知终了全链路的故障监控和定位。
该器用链不错主动发现拓荒故障,并禁止实际中断的频次,确保实际进程的运动性和踏实性。
【本文截止】如需转载请务必注明出处:快科技
包袱剪辑:上方文Q世博体育(中国)官方网站
著述骨子举报]article_adlist--> 声明:新浪网独家稿件,未经授权扼制转载。 -->