770亿晶体管的中国第一算力通用GPU芯片 壁仞科技BR100亮相海外

Android社区 收藏文章

会上,壁仞科技联合创始人、CTO洪洲与壁仞科技联合创始人、总裁徐凌杰进行了题为“Biren BR100 GPGPU: Accelerating Datacenter Scale AI Computing”的主题演讲,为来自全球的专业听众介绍了BR100芯片的特点与原创芯片架构的细节。

根据介绍,作为主要用于加速数据中心规模通用计算的GPGPU芯片,BR100具有极高的算力密度,单卡16位浮点算力达到PFLOPS级别,并具备高速片上与片外互连带宽。

BR100采用7nm制程工艺、Chiplet小芯片设计和CoWoS 2.5D封装技术,以OAM模组形态部署,能够在通用UBB主板上形成8卡点对点全互连拓扑。

为了支持强大的算力,BR100配备了超过300MB的片上高速缓存,用于数据的暂存和重用,以及64GB的HBM2E高速内存。

它的核心计算单元由大量通用流式处理器组成,具备通用计算和2.5D GEMM架构的专用张量加速算力。

在原创架构层面,壁仞科技按照深度学习等通用负载的计算特点,提供一系列针对数据流的增强特性,包括特殊的C-Warp协同并发模式、张量数据存取加速器TDA、NUMA/UMA访存模式、近存储计算等。这些特性是BR100能够在算力和能效比上达到全球领先水准的关键。

此外,壁仞科技还介绍了一种新的TF32+数据类型,具备比TF32数据类型更高的精度。

在软件方面,壁仞科技还介绍了BIRENSUPATM软件栈,其核心编程模型具有C/C++编程接口和运行时API,风格与主流的GPGPU开发语言和编程范式类似。

它能够使开发者在BR100上非常容易地进行编程开发,同时大幅降低代码迁移工作量,实现从主流编程环境向BIRENSUPA平台的无缝迁移。

资料显示,壁仞科技BR100集成了多达770亿晶体管,规模上堪比人类大脑神经细胞,已经非常接近800亿个晶体管的NVIDIA GH100计算核心,而且BR100系列芯片一次就点亮成功了!

性能方面,INT8整数计算2048 Tops(每秒2048万亿次)、BF16浮点计算1024 TFlops(每秒1024万亿次)、TF32+浮点计算512 TFlops(每秒512万亿次)、FP32双精度浮点256 TFlops(每秒256万亿次)。

此外,它的外部IO带宽达2.3TB/s,支持64路编码、512路解码,还支持PCIe 5.0、CXL互连协议。

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 10月以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 10月以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 10月以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 10月以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 10月以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 10月以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 10月以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 10月以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 10月以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 10月以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 10月以前  |  70次阅读
恒大集团在美国申请破产保护 10月以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 10月以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 10月以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 10月以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 10月以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 10月以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 10月以前  |  80次阅读
波音任命柳青为波音中国总裁 10月以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 10月以前  |  67次阅读

扫一扫

在手机上阅读