Image Coding for Machines with Omnipotent（全能的） Feature Learning

Abstract

Image Coding for Machines (ICM)，目标是为下游的AI任务分析来压缩。

目的：general, compact

提出学习通用特征的框架：Omni-ICM。

将SSL（自监督学习）与压缩任务继承到Omni-ICM框架中学习全能特征(omnipotent feature)

难点：将SSL中的语义建模和压缩中的冗余除去协调起来并非易事 -> 设计一个新的信息过滤（IF）模块，通过实例区分和熵最小化的协同优化，自适应地丢弃与AI任务弱相关的信息。

Intro

以人的感知为导向的度量和AI任务的度量之间的差异使得ICM和已经存在的范式之间有所不同。

这类面向下游任务的方法之前主要有两种：

1.(a) 图像的重构会带来更多的计算负担，语义完整性和纹理精准性之间存在新的tradeoff

1.(b) 一个提取的特征只能用于一个特定的下游任务。

提出了新的ICM框架来探索不同AI任务的common knowledge.

已有的idea中对比学习能够学习到general and transferable visual presentation，但是直接压缩从对比目标（函数）来的特征与直接压缩原图相比没有优势，原因在于特征通常会保持许多非相关的、冗余的信息，如果在信息熵熵没有精准的限制的话

为了解决这个问题，进一步设计了Information Filtering（IF）模块，来在压缩前智能的抛弃掉冗余信息。

IF模块 = Encoder + Decoder + Entropy Estimation Model

优化方式：对比损失和熵最小化限制

ICM with Omnipotent Feature Learning

Overview of Omni-ICM Pipeline

IF模块：为了协调保留的语义信息和抛弃的语义不相关冗余

Stage 1: Omnipotent Feature Learning

Basic Network Archtecture

采用$4\times$下采样因子来提取Omniponent Feature $f$，以保证内容结构和布局空间的完整性。

backbone: 以ResNet-50为例，Head = Layer 1; Tail = Layer 2 + Layer 3 + Layer 4

Data Augmentation and Feature Extraction in Backbone Head

\[H_q\times W_q \rightarrow \frac{H_q}{4}\times\frac{W_q}{4}\times C\]

Information Filtering Module

E: $8\times$下采样，$y_q$：$\frac{H_q}{32}\times\frac{W_q}{32}\times C_y$

全分解熵模型：$$p_{\tilde y_q

\phi_o}(\tilde y_q

\phi_o)=(\prod_ip_{\tilde y_q

\phi_o}(\phi_o)*\mathcal U(-\frac{1}{2},\frac{1}{2}))(\tilde y_q)$$

熵损失：$$\mathcal L_e=\mathbb E[-\log_2(p_{\tilde y

\phi_o}(\tilde y_q

\phi_o))]$$

D: 恢复到与IF module的输入一致

Backbone Tail and Projection Layer

用来map the feature to the space where contrastive loss is applied.

projection layer是具有一层隐藏层的MLP：

\[q=W^{(2)}\sigma(W^{(1)}(T(D(\tilde y_q))))\]

$\sigma$是Relu激活层，W是全连接层

Generation of Keys

同query的生成

Total Optimization Objectives

InfoNCE：

\[\mathcal L_q=-\log\frac{\exp(q\cdot k_+/\tau)}{\exp(q\cdot k_+/\tau)+\sum_{k_-}\exp(q\cdot k_-/\tau)}\]

总的优化函数：

\[\mathcal L=\mathcal L_q+\alpha\mathcal L_e\]

Stage 2: Learning-based Feature Compression

和有损图像压缩一样，优化$R+\lambda D_C$

\[\mathcal L_{rd}=\mathbb E[-\log_2(p_{\hat y|\psi}(\hat y|\psi))]+\lambda \frac{1}{WH}\sum_{x=1}^{W}\sum_{y=1}^{H}(f_{x,y}-\hat f_{x,y})^2\]

更多的，因为压缩的特征是用来更好的处理下游任务，我们进一步在更深的特征层次保护语义保真性。（计算更深层次的特征表示，即backbone tail中的每一层）

\[\mathcal L_f=\sum_{i=2}^4\lambda_i\frac{1}{W_iH_i}\sum_{x=1}^{W_i}\sum_{y=1}^{H_i}(\phi_if_{x,y}-\phi_i\hat f_{x,y})^2\]

$\phi_i$表示一个可微函数

总的损失函数：

\[\mathcal L_{com}=\mathcal L_{rd}+\mathcal L_f\]

Stage 3: Feature Deployment and Task Supporting

在训练好的omnipotent features上训练task models。

形式上，只对主干尾部进行微调来支持下游任务

Experiments

Datasets

Training: ImageNet

Evaluate: PASCAL VOC, MS COCO, Cityscapes

Conclusion

提出了新的框架Omni-ICM

SOTA

文档信息

本文作者：Yimin Zhou
本文链接：https://yimchow.github.io/fragment/Image%20Coding%20for%20Machines%20with%20Omnipotent%EF%BC%88%E5%85%A8%E8%83%BD%E7%9A%84%EF%BC%89%20Feature%20Learning/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

一文的博客

Image Coding for Machines with Omnipotent Feature Learning