Meta训练Llama 3遭遇频繁故障：16384块H100 GPU训练集群每3小时「罢工」一次

Android社区发表于 2024-07-30T01:55:19Z 收藏文章

7月28日消息，Meta发布的一份研究报告显示，其用于训练4050亿参数模型Llama 3的16384个英伟达H100显卡集群在54天内出现了419次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。

由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。

尽管如此，Meta团队还是保持了90%以上的有效训练时间。在为期54天的预训练中，共出现了466次工作中断，其中47次是计划中断，419次是意外中断。

计划内的中断是由于自动化维护造成的，而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因，占意外中断的58.7%。其中只有三起事件需要大量人工干预，其余的由自动化管理。

丽珠集团回应“涉及违规支出公关费用” ：内部正在调查，费用占比是行业正常水平

发布于：2023-08-08T01:20:42Z | 262次阅读 | 详细内容 »

美国芯片巨头英特尔与中方合作！将在深圳新建芯片创新中心

发布于：2023-08-03T01:48:25Z | 233次阅读 | 详细内容 »

工信部要求开展 App 备案，微信小程序完成备案后才可上架

发布于：2023-08-10T01:36:02Z | 213次阅读 | 详细内容 »

微信要做“小绿书”？知情人士：小范围内测，优化视频号图文发布及呈现

发布于：2023-08-03T01:46:26Z | 212次阅读 | 详细内容 »

X、马斯克寻求驳回有关前推特员工遣散费的诉讼

发布于：2023-08-03T01:54:03Z | 210次阅读 | 详细内容 »

家乐福被裁员工曝未拿到补偿金，此前通知补偿金打6折一次性发和全款分12期之间二选一

发布于：2023-08-01T01:18:01Z | 205次阅读 | 详细内容 »

OpenAI已注册GPT5商标

发布于：2023-08-03T01:55:09Z | 202次阅读 | 详细内容 »

特斯拉收购德国无线充电技术公司，未来或将投放相关产品

发布于：2023-08-03T01:54:41Z | 196次阅读 | 详细内容 »

全球勒索软件攻击创历史新高，美国是全球勒索软件攻击首要目标

发布于：2023-08-08T01:30:21Z | 194次阅读 | 详细内容 »

美交管局对特斯拉部分车型展开调查，特斯拉部分车型被曝转向失灵

发布于：2023-08-03T01:53:35Z | 193次阅读 | 详细内容 »

相关标签

所有标签

相关文章

王慧文病休53天，旗下OneFlow团队重新创业 1年以前 | 1次阅读

智己CEO现场怒怼！不满LS6和小鹏G6当对手 1年以前 | 1次阅读

董明珠回应落榜世界500强：总比爆雷的世界500强好 1年以前 | 1次阅读

阿里云上线 AI 视频生成工具 Live Portait：可一键让照片开口说话 1年以前 | 78次阅读

妙鸭相机将并入神力视界，阿里大文娱CTO郑勇：不是“搬家”是“回家” 1年以前 | 85次阅读

特斯拉上海超级工厂约40秒下线一台车，零部件本土化率超95% 1年以前 | 69次阅读

宁德时代发布神行超充电池，可实现充电10分钟行驶800里 1年以前 | 71次阅读

中科院博士被骗到缅甸已一年！女友：他负债几万，家里条件一般，以为去当翻译 1年以前 | 85次阅读

小鹏汽车否认收购玛莎拉蒂传闻：系谣言 1年以前 | 63次阅读

联想二季度净利润猛降66%，股价应声跳水 1年以前 | 80次阅读

业内人士：视觉中国对不同侵权主体采用差异化策略，老客由销售沟通新客发律师函 1年以前 | 70次阅读

恒大集团在美国申请破产保护 1年以前 | 56次阅读

劳斯莱斯首款纯电轿跑将在北美亮相 1年以前 | 89次阅读

realme印度前CEO确认加盟荣耀，即将推出手机新品 1年以前 | 88次阅读

OpenAI正在测试内容审核系统，一天可以完成六个月的工作 1年以前 | 80次阅读

谷歌百人“复仇者联盟”出击，将发对标GPT-4的大模型，26位研发主管名单流出 1年以前 | 77次阅读

OpenAI收购数字产品公司Global Illumination，为创立以来首笔公开收购 1年以前 | 80次阅读

海口规定：电动汽车充电服务费不得超过0.65元每度 1年以前 | 80次阅读

波音任命柳青为波音中国总裁 1年以前 | 88次阅读

业内人士谈图片复杂代理链：图片代理商越多摄影师分成越少 1年以前 | 67次阅读

扫一扫

在手机上阅读