研究人员尝试用稳定扩散方法压缩图像 结果竟然优于JPEG

Android社区 收藏文章

1.jpg

用锯齿彩块来描绘的图像压缩概念(via ArsTechnica

AI 模型通过研究从互联网上提取的数百万张图像来学习这种能力,在训练过程中,模型在图像和相关词之间建立了统计关联。

然后对每张图像的关键信息添加更小的“表示”和赋予“权重”,后者代表了 AI 图像模型所掌握的数学值。

当稳定扩散分析、并将图像“压缩”为权重形式时,它们就处在了所谓的“潜在空间”中 —— 它们以一种模糊潜力的形式存在,且能够在解码时于图像中复现。

这项研究中用到的 Stable Diffusion 1.4,其权重文件大小约为 4GB —— 代表了该 AI 模型掌握的数亿张图像的知识。

2.jpg

使用稳定扩散压缩图像的示例

尽管大多数人使用了带文本提示的稳定扩散,但 Bühlmann 还是斩断了文本编码器、而是强制通过稳定扩散图像编码器来处理。

该过程将低精度的 512×512 图像、转换为更高精度的 64×64 潜在图像空间表示。此时图像存在的数据量较原始文件小得多,但仍可将之解码扩展回 512×512 图像、并获得相当良好的结果。

测试期间,Bühlmann 发现使用稳定扩散压缩的新图像,可在更高的压缩比(更小的文件大小)下,主观上看起来较 JPEG 或 WebP 更佳。

以这张美洲鸵的照片为例,其原始文件大小为 768 KB 。尽管 JPEG / WebP 格式分别可压缩到 5.68 和 5.71 KB,但稳定扩散方法可进一步压缩到 4.98 KB 。

3.jpg

与对照的图像压缩格式相比,稳定扩散似乎具有更多可分辨的细节、以及明显更少的压缩伪影。

不过 Bühlmann 也指出了现阶段的一个很大局限性 —— 它不太适合面容或文本,且在某些情况下会让解码图像中的细节特征产生“幻象”。

这些特征可能在源图像中并不存在,更别提解码需要动用高达 4GB 的稳定扩散权重文件、以及额外的解码时间。

即便如此,这种非常规稳定扩散用例,还是较实际的解决方案更加有趣,甚至有望开辟图像合成模型的未来新用途。

感兴趣的朋友,可移步至 Google Colab 查看 Bühlmann 的示例代码,或在有关 Towards AI 的帖子中找到实验中的更多技术细节。

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 1年以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 1年以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 1年以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 1年以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 1年以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 1年以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 1年以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 1年以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 1年以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 1年以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 1年以前  |  70次阅读
恒大集团在美国申请破产保护 1年以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 1年以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 1年以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 1年以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 1年以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 1年以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 1年以前  |  80次阅读
波音任命柳青为波音中国总裁 1年以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 1年以前  |  67次阅读

扫一扫

在手机上阅读