中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
快科技(jì)9月20日消息,中国电信宣布,天翼云自研的(de)国内首个单集群(qún)万卡国产化全功能预训练云服务平台,已经正式发布上(shàng)线,基于华为昇(shēng)腾芯(xīn)片,并完成了万卡规模Llama3.1-405B大(dà)模型训练。
Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服(fú)务(wù)平台的支持下(xià),经过多轮优化,MFU(算力利用率)达到国内领(lǐng)先水平。
另外,700亿参数大(dà)模型Llama2-70B在万卡规模下完成 训练,MFU也处于业界领先水平。
据悉,天翼云的这套平台具备万卡纳管和(hé)并(bìng)行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高(gāo)速卡(kǎ)间互联(lián)技(jì)术、Gang策略与拓扑感知(zhī)的智算容器调度,以及慧聚自(zì)研分布(bù)式训练框架TeleFormers和(hé)平台,实现(xiàn)万卡资(zī)源纳管、万卡规模并行(xíng)训练(liàn)。
其中,天翼云自研了(le)AI框(kuāng)架Teleformers,对算子(zi)、通信、数据处理进行优化,还有并行策略(lüè)的自适应调整(zhěng),显著提升了大模型训练的训练效率(lǜ)。
在目前业内最大(dà)参数规(guī)模开源单体稠密(mì)模型Llama3.1-405B大模型训练(liàn)测试中(zhōng),性能表(biǎo)现达到国际同(tóng)等水平。
算子优化方(fāng)面,针(zhēn)对昇腾芯片的特性,在网(wǎng)络结(jié)构层面对诸多高频算子进行了定制(zhì)化(huà)改造,构建了高性能(néng)算子集(jí)。
比如matmul算(suàn)子,利(lì)用昇腾(téng)芯片的计算亲和性,将算(suàn)子(zi)输入padding到特定的维度,大幅提升执(zhí)行效率,从而明显(xiǎn)缩短了训练时间。
数据处理和流水线方面,通过设置(zhì)合理的数据(jù)分片策略 和HPFS条(tiáo)带化(huà)优化,结合数(shù)据预取(qǔ)与数据下沉技术,大幅提(tí)升(shēng)数据流的处理效(xiào)率和稳定性;对预处理后的数据集(jí)进行了二次(cì)分片并提供就近缓存能(néng)力,减少(shǎo)GPU空闲时间(jiān)。
自适应 并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模(mó)型规模和硬件资(zī)源的不同可以自动选(xuǎn)择合适的并行策略(lüè),充分利(lì)用计算资源和显存资源,缩短模型训练中每轮的迭代时(shí)间。
天翼云国产(chǎn)化万卡智算中心还有多项技术(shù)突破——
天翼云息壤训(xùn)练(liàn)服务平台基于软硬件协同设(shè)计(jì),提供全链路故障监控、基于主动(dòng)感知(zhī)的全链路故障监控和定(dìng)位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等(děng)系统,将万卡规模故障发现和解决问题缩短到业内(nèi)前(qián)沿的分钟级,大幅提升(shēng)有效训(xùn)练时间。
自动断点续训系统:
建设丰富的故障库,基于此构(gòu)建了多(duō)维故障感知系统,能够快速主(zhǔ)动感(gǎn)知相关故障事件和潜在(zài)的故障风险;
通(tōng)过精准的(de)故障隔离和调度手(shǒu)段,快速隔离处理故障节点并重新调度(dù)新节点接手任务继续训练,实现(xiàn)无人干预(yù)式断点续训,有效减少GPU闲置时间(jiān)。
高速多级CheckPoint系(xì)统:
天翼云设(shè)计基(jī)于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存(cún),并最终异步写入远端系统;
针对(duì)断点恢复场景,提供进程级故障原地快 恢和远端快速恢复能力,最终实(shí)现(xiàn)对CheckP中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型oint的秒级读写能(néng)力,大幅降低断点恢复时间、提升训练效率。
全链路检测工(gōng)具链:
天(tiān)翼云开发了全链路故(gù)障监(jiān)控工具链,能(néng)够基于主(zhǔ)动感知实现全链路的故障监控和定位(wèi)。
该工具链可以主动(dòng)发现设备故障,并降低训练中断的频次(cì),确保训练(liàn)过 程的连续性(xìng)和稳定性。
【本文结束】如需转载请务必(bì)注明出处:快科技
责任编(biān)辑(jí):上(shàng)方文Q
未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了