中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
快科技9月20日消息,
Llama3.1-405B作为4000亿参数规模(mó)的大模型,在息壤训推(tuī)服务平台(tái)的支持(chí)下,经过多(duō)轮优化,MFU(算力利用率)达到国(guó)内领先水平。
另外,700亿参数大模型Llama2-70B在万(wàn)卡规模下完成 训练,MFU也处于业界领先水平。
据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系(xì)统、CTCCL RDMA高速卡间互联技术、Gang策略与(yǔ)拓(tuò)扑(pū)感(gǎn)知的智算容器调度,以及慧聚自研(yán)分布式训练框架TeleFormers和平台,实(shí)现万(wàn)卡资源纳管、万卡规模并行(xíng)训练。
其中,天翼云自研了AI框(kuāng)架(jià)Teleformers,对算子、通(tōng)信、数据处(chù)理进行优化,还有并行策略的自适应调整,显(xiǎn)著提升了大(dà)模型训练(liàn)的训(xùn)练效率。
在目前业内最大参数规(guī)模(mó)开源(yuán)单(dān)体稠密(mì)模型Llama3.1-405B大模型训练测试中,性(xìng)能表现(xiàn)达(dá)到国际同等水平。
算子优 化方面,针对昇腾芯片的特性(xìng),在网络结构层面对诸多高频算子进行(xíng)了定(dìng)制化(huà)改造,构建了高性能算子集。
比如(rú)matmul算 子,利用昇腾芯片(piàn)的计算(suàn)亲和性(xìng),将(jiāng)算子输入padding到(dào)特定的维度,大幅提升(shēng)执行效率,从而明显缩短了(le)训练时间。
数据(jù)处理和流(liú)水线方 面,通(tōng)过设(shè)置(zhì)合理的数据分片策略(lüè)和HPFS条带化优化,结合数据预取(qǔ)与数据下沉技术,大幅提升 数据流的(de)处理效率和稳定性;对预处理后的数(shù)据集进行了(le)二次分片并提供就(jiù)近缓存能(néng)力,减少GPU空闲时(shí)间。
自(zì)适(shì)应并(bìng)行策略方面,基于(yú)对3D并行中各类计算单元的分析(xī),天翼云设计了多(duō)种自适应的3D并行(xíng)策略,依据模型规模和硬件资源的(de)不同可以自动选择(zé)合(hé)适的并行策略,充分利用计算资(zī)源和显存资源,缩短模型(xíng)训练中(zhōng)每轮(lún)的迭代时间。
天翼云国产化(huà)万卡智算中心中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先还有多项技术突破(pò)——
天翼云(yún)息(xī)壤训(xùn)练服务(wù)平台(tái)基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒(miǎo)级多级高速存储系统、容错优雅调度(dù)和模型编(biān)译缓(huǎn)存等系统,将万卡规模 故障发现和(hé)解决问题缩短到业内前沿的(de)分钟级,大幅提升有效训练时间。
自动断点续训系统:
建设丰富的故障库,基于(yú)此(cǐ)构建了(le)多(duō)维故障感(gǎn)知系(xì)统,能够(gòu)快速主动(dòng)感知相关故障事件和潜在的故障风险;
通(tōng)过精准的故障隔离和调度手段(duàn),快速隔离处理故障(zhàng)节点并重新调度新节点接(jiē)手任务继续训(xùn)练,实现无人干预式断点(diǎn)续训,有效减少GPU闲置时间(jiān)。
高速多(duō)级CheckPoint系(xì)统:
天翼云设计基于多(duō)级存储的高速CheckPoint系统,通过两阶段(duàn)异步存储,实现高速写入内存,并最终异步(bù)写入远端(duān)系统;
针对断点恢复场景,提供(gōng)进程级故障(zhàng)原地快恢和(hé)远端快(kuài)速恢复 能力(lì),最终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。
全链路检测工具(jù)链:
天(tiān)翼云开发了全链(liàn)路故障监控工具链,能够基于主动感(gǎn)知实(shí)现全链路的故(gù)障(zhàng)监(jiān)控和(hé)定位。
该(gāi)工具链可(kě)以主动发现(xiàn)设备故障,并降低训练(liàn)中(zhōng)断的频次 ,确保训练过程的连续性和稳定性(xìng)。
【本(běn)文结束(shù)】如需转载请务必注明出(chū)处:快科技
责任编辑:上方文Q
未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了