图解分布式训练(八)——ZeRO学习来自:AiGC面试宝典宁静致远2023年09月29日12:03一、什么是3D并行?3D并行可以让大型模型以非常有效的方...
图解分布式训练(七)——accelerate分布式训练详细解析来自:AiGC面试宝典宁静致远2023年09月29日11:58一、为什么需要accelerate分布式训...
图解分布式训练(六)——Pytorch的DeepSpeed详细解析来自:AiGC面试宝典宁静致远2023年12月24日00:39•图解分布式训练(六)——Pytorch的...
图解分布式训练(五)——AMP混合精度训练详细解析来自:AiGC面试宝典宁静致远2023年09月29日11:36为什么需要AMP混合精度训练?PyTorch1.6...
图解分布式训练(四)——torch.multiprocessing详细解析来自:AiGC面试宝典宁静致远2023年09月29日11:27一、torch.multiprocessing函数介...
图解分布式训练(三)——nn.parallel.DistributedDataParallel来自:AiGC面试宝典宁静致远2023年09月29日11:22为什么需要nn.parallel.Dist...
图解分布式训练(二)——nn.DataParallel篇来自:AiGC面试宝典宁静致远2023年09月29日11:14为什么需要nn.DataParallel?多GPU并行训练的原...
图解分布式训练(一)——流水线并行(PipelineParallelism)来自:AiGC面试宝典宁静致远2023年09月29日11:02为什么需要流水线并行(Pipeli...
大模型(LLMs)分布式训练面来自:AiGC面试宝典宁静致远2023年09月29日10:371.理论篇1.1训练大语言模型存在问题?即使目前显存最大的GPU也...
大模型(LLMs)训练集面来自:AiGC面试宝典宁静致远2023年12月24日00:331.SFT(有监督微调)的数据集格式?一问一答2.RM(奖励模型)的数据...
基于lora的llama2二次预训练来自:AiGC面试宝典宁静致远2024年01月27日20:47一、为什么需要对llama2做基于lora的二次预训练?加入中文训练语...
增量预训练(Pretrain)样本拼接篇来自:AiGC面试宝典宁静致远2024年01月27日20:47一、Pretrain阶段,为什么需要拼接拼接?为了提高pretrai...
大模型(LLMs)增量预训练篇来自:AiGC面试宝典宁静致远2024年01月27日20:471.为什么要增量预训练?有一种观点,预训练学知识,指令微调学...
LLMs训练经验帖来自:AiGC面试宝典宁静致远2023年09月28日22:03分布式训练框架选择?多用DeepSpeed,少用Pytorch原生的torchrun。在节点数...
LARGELANGUAGEMODEL'STRAININGDATAWHITEPAPER专家委员会安筱鹏阿里云智能副总裁袁媛阿里研究院执行副院长宋志刚数字中国研究院(福建)院长编...
1四(上)全册句子专项练习(可下载)一、选词填空。居然果然仍然当然偶然一天,我和姐姐上街买书,在路上(﹞看到一个卖杨梅的,我嚷着姐...
三年级语文上册句子专项训练一、我会选一选。1.和例句句意不同的一句是()。例句:你没有看见他们怎样地急着要到那儿去吗?A.你没有看见...
1基础巩固一、照样子,写一写二(上)全册句子专项练习。束一束束一束束美丽的花。只颗把二、读句子,再用带点的词语写句子。1.官员们一边...