英特尔详细介绍Ponte Vecchio 性能可达英伟达A100平台的2.5倍

Android社区发表于 2022-08-23T10:14:35Z 收藏文章

（via WCCFTech）

从单一 OAM、到配备 Xe Links 的 x4 子系统，Ponte Vecchio GPU 不仅能够单独运行、也可部署于 Sapphire Rapids 双路服务器平台之上。

其中 OAM 支持 4 GPU 和 8 GPU 平台的 all-to-all 拓扑，辅以英特尔 oneAPI 软件堆栈。

作为一个零级（Level Zero）API，其为跨架构编程支持提供了低层级的硬件接口。

oneAPI 主要特性如下：

● 提供面向其它工具和加速器设备的接口；

● 支持精细的增益控制、以及低延迟的加速器特性；

● 具有多线程设计；

● 将 GPU 作为驱动程序的一部分而提供。

性能指标方面，2-Stack Ponte Vecchio GPU 配置（如单一 OAM 上的配置），可提供高达 52 TFLOP 的 FP64 / FP32 算力。

另有 419 TFLOP 的 TF32（XMX Float 32）、839 TFLOP 的 BF16 / FP16，以及 1678 TFLOPs 的 INT8 算力。

英特尔还详细说明了 Ponte Vecchio 的缓存大小 / 峰值带宽 —— 比如 GPU 上的寄存器为 64 MB，提供 419 TB/s 的带宽。

L1 缓存也为 64 MB，带宽 105 TB/s（4:1）。L2 缓存为 408 MB，带宽 13 TB/s（8:1）。HBM 内存池高达 128 GB，辅以 4.2 TB/s（4:1）的带宽。

以下是英特尔为 Ponte Vecchio 配备的系列计算效率（compute efficiency）技术。

Register File（寄存器文件）：

● Register Caching（寄存器缓存）

● Accumulators（累加器）

L1 / L2 Cache：

● Write Through（直写）

● Write Back（回写）

● Write Streaming（流式写入）

● Uncached（不缓存）

Prefetch（预取）：

● 支持 L1 和（或）L2 缓存的软件（指令）预取；

● 支持到 L2 获取指令和数据的 Command Streamer 预取。

英特尔解释称，更大的 L2 缓存，可为 2D-FFT 和 DNN 等工作负载带来巨大的效益，并且分享了完整 Ponte Vecchio GPU 和 80 / 32 MB 模块之间的一些性能比较。

此外英特尔搬出了运行 CUDA 和 SYCL 的英伟达 Ampere A100，与使用 SYCL 的 Ponte Vecchio GPU 平台展开了性能横比。

在 miniBUDE（一种可预测配体与目标结合能的计算工作负载）中，Ponte Vecchio GPU 模拟测试结果的速度，更是 Ampere A100 的 2 倍。

另外在 ExaSMR 核反应堆设计仿真设计中，英特尔 Ponte Vecchio GPU 也以 1.5 倍领先于英伟达竞品方案。

不过需要指出的是，英伟达早已向市场投放了性能更加强悍的 Hopper H100，所以英特尔这里拿 Ampere A100 进行比较还是相当投机取巧的。

言归正传，英特尔概述了 Ponte Vecchio 旗舰数据中心 GPU 的一些关键特性，例如 128 个 Xe 内核、128 个光追（RT）单元、HBM2e 显存、以及连接到一起的 8 个 Xe-HPC GPU 。

该芯片在两个独立的堆栈中提供了高达 408 MB 的 L2 缓存、之间通过 EMIB 互连，且各部分芯片混用了 Intel 7 和台积电 N7 / N5 等多个工艺节点。

由两块（2 Tiles）组成的每个堆栈有 16 裸片，最大的 active die 尺寸为 41 m㎡、Compute Tile 则是 650 m㎡。

以下是 Ponte Vecchio GPU 的完整小芯片 / 工艺节点描述：

● 英特尔 7nm

● 台积电 7nm

● Foveros 3D 封装

● EMIB 互连

● 10nm 增强型 Super Fin

● Rambo Cache

● HBM2 高带宽显存

以下是英特尔 Ponte Vecchio 芯片的 47 块（Tiles）组成：

● 16 个 Xe HPC（内/外部）

● 8 个 Rambo Cache（内部）

● 2 个 Xe Base（内部）

● 11 个 EMIB（内部）

● 2 个 Xe Link（外部）

● 8 个 HBM（外部）

Ponte Vecchio GPU 使用了 8 个 HBM 8-Hi 堆栈，总共包含 11 个 EMIB 互连，完整封装尺寸为 4843.75 m㎡。

设计中还提到了高密度 3D Forveos 封装的 Meteor Lake CPU，可知其 bump pitch 的间距为 36u 。

【总结】Ponte Vecchio GPU 不是一个单独的芯片，而是由 47 个不同工艺制程的小芯片“组合”得来。

遗憾的是，受英特尔多次跳票的影响，使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超级计算机项目也被迫推迟。

即便如此，英特尔还是透露了下一代 Rialto Bridge GPU 。可知作为 Ponte Vecchio GPU 的继任者，其有望于 2023 年开始提供样品。

丽珠集团回应“涉及违规支出公关费用” ：内部正在调查，费用占比是行业正常水平

发布于：2023-08-08T01:20:42Z | 262次阅读 | 详细内容 »

美国芯片巨头英特尔与中方合作！将在深圳新建芯片创新中心

发布于：2023-08-03T01:48:25Z | 233次阅读 | 详细内容 »

工信部要求开展 App 备案，微信小程序完成备案后才可上架

发布于：2023-08-10T01:36:02Z | 213次阅读 | 详细内容 »

微信要做“小绿书”？知情人士：小范围内测，优化视频号图文发布及呈现

发布于：2023-08-03T01:46:26Z | 212次阅读 | 详细内容 »

X、马斯克寻求驳回有关前推特员工遣散费的诉讼

发布于：2023-08-03T01:54:03Z | 210次阅读 | 详细内容 »

家乐福被裁员工曝未拿到补偿金，此前通知补偿金打6折一次性发和全款分12期之间二选一

发布于：2023-08-01T01:18:01Z | 205次阅读 | 详细内容 »

OpenAI已注册GPT5商标

发布于：2023-08-03T01:55:09Z | 202次阅读 | 详细内容 »

特斯拉收购德国无线充电技术公司，未来或将投放相关产品

发布于：2023-08-03T01:54:41Z | 196次阅读 | 详细内容 »

全球勒索软件攻击创历史新高，美国是全球勒索软件攻击首要目标

发布于：2023-08-08T01:30:21Z | 194次阅读 | 详细内容 »

美交管局对特斯拉部分车型展开调查，特斯拉部分车型被曝转向失灵

发布于：2023-08-03T01:53:35Z | 193次阅读 | 详细内容 »

相关标签

所有标签

相关文章

王慧文病休53天，旗下OneFlow团队重新创业 10月以前 | 1次阅读

智己CEO现场怒怼！不满LS6和小鹏G6当对手 10月以前 | 1次阅读

董明珠回应落榜世界500强：总比爆雷的世界500强好 10月以前 | 1次阅读

阿里云上线 AI 视频生成工具 Live Portait：可一键让照片开口说话 10月以前 | 78次阅读

妙鸭相机将并入神力视界，阿里大文娱CTO郑勇：不是“搬家”是“回家” 10月以前 | 85次阅读

特斯拉上海超级工厂约40秒下线一台车，零部件本土化率超95% 10月以前 | 69次阅读

宁德时代发布神行超充电池，可实现充电10分钟行驶800里 10月以前 | 71次阅读

中科院博士被骗到缅甸已一年！女友：他负债几万，家里条件一般，以为去当翻译 10月以前 | 85次阅读

小鹏汽车否认收购玛莎拉蒂传闻：系谣言 10月以前 | 63次阅读

联想二季度净利润猛降66%，股价应声跳水 10月以前 | 80次阅读

业内人士：视觉中国对不同侵权主体采用差异化策略，老客由销售沟通新客发律师函 10月以前 | 70次阅读

恒大集团在美国申请破产保护 10月以前 | 56次阅读

劳斯莱斯首款纯电轿跑将在北美亮相 10月以前 | 89次阅读

realme印度前CEO确认加盟荣耀，即将推出手机新品 10月以前 | 88次阅读

OpenAI正在测试内容审核系统，一天可以完成六个月的工作 10月以前 | 80次阅读

谷歌百人“复仇者联盟”出击，将发对标GPT-4的大模型，26位研发主管名单流出 10月以前 | 77次阅读

OpenAI收购数字产品公司Global Illumination，为创立以来首笔公开收购 10月以前 | 80次阅读

海口规定：电动汽车充电服务费不得超过0.65元每度 10月以前 | 80次阅读

波音任命柳青为波音中国总裁 10月以前 | 88次阅读

业内人士谈图片复杂代理链：图片代理商越多摄影师分成越少 10月以前 | 67次阅读

扫一扫

在手机上阅读