研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG

用锯齿彩块来描绘的图像压缩概念（via ArsTechnica）

AI 模型通过研究从互联网上提取的数百万张图像来学习这种能力，在训练过程中，模型在图像和相关词之间建立了统计关联。

然后对每张图像的关键信息添加更小的“表示”和赋予“权重”，后者代表了 AI 图像模型所掌握的数学值。

当稳定扩散分析、并将图像“压缩”为权重形式时，它们就处在了所谓的“潜在空间”中 —— 它们以一种模糊潜力的形式存在，且能够在解码时于图像中复现。

这项研究中用到的 Stable Diffusion 1.4，其权重文件大小约为 4GB —— 代表了该 AI 模型掌握的数亿张图像的知识。

使用稳定扩散压缩图像的示例

尽管大多数人使用了带文本提示的稳定扩散，但 Bühlmann 还是斩断了文本编码器、而是强制通过稳定扩散图像编码器来处理。

该过程将低精度的 512×512 图像、转换为更高精度的 64×64 潜在图像空间表示。此时图像存在的数据量较原始文件小得多，但仍可将之解码扩展回 512×512 图像、并获得相当良好的结果。

测试期间，Bühlmann 发现使用稳定扩散压缩的新图像，可在更高的压缩比（更小的文件大小）下，主观上看起来较 JPEG 或 WebP 更佳。

以这张美洲鸵的照片为例，其原始文件大小为 768 KB 。尽管 JPEG / WebP 格式分别可压缩到 5.68 和 5.71 KB，但稳定扩散方法可进一步压缩到 4.98 KB 。

与对照的图像压缩格式相比，稳定扩散似乎具有更多可分辨的细节、以及明显更少的压缩伪影。

不过 Bühlmann 也指出了现阶段的一个很大局限性 —— 它不太适合面容或文本，且在某些情况下会让解码图像中的细节特征产生“幻象”。

这些特征可能在源图像中并不存在，更别提解码需要动用高达 4GB 的稳定扩散权重文件、以及额外的解码时间。

即便如此，这种非常规稳定扩散用例，还是较实际的解决方案更加有趣，甚至有望开辟图像合成模型的未来新用途。

感兴趣的朋友，可移步至 Google Colab 查看 Bühlmann 的示例代码，或在有关 Towards AI 的帖子中找到实验中的更多技术细节。

家乐福被裁员工曝未拿到补偿金，此前通知补偿金打6折一次性发和全款分12期之间二选一

发布于：2023-08-01T01:18:01Z | 205次阅读 | 详细内容 »

发布于：2023-08-03T01:55:09Z | 202次阅读 | 详细内容 »