灵感实验室

Glint-RefSeg是我们基于“灵感”训练的引用表达分割模型，它将MVT v1.1（MLCD）作为视觉编码器，同时结合大语言模型和SAM解码器，可以根据用户指令给出图像中对应物体的分割掩膜。普通的分割模型需要在构建模型前定义出需要分割物体的类别，采集对应数据进行训练。而Glint-RefSeg利用大模型的能力可以分割任何类别的物体而无需特别搜集训练。相比其他RES任务的模型，Glint-RefSeg取得了当前的SOTA (最好结果)。

用户给出一张图和一个描述，模型就可以根据描述给出对应分割掩膜。

Glint-RefSeg

普通分割模型

RefCOCO Segmentation Evaluation Results

RefCOCO是一个RES数据集，测试指标Overall Intersection-over-Union (oIoU)，计算的预测掩膜与真值掩膜交集面积与总并集面积的比值。

DATASET	Split	Glint-RefSeg	EVF-SAM	GLaMM	VisionLLM v2	LISA
RefCOCO	val	83.6	82.4	79.5	79.2	74.9
RefCOCO+	testA	82.9	80.0	78.7	75.8	70.8
RefCOCOg	test	80.5	78.3	74.9	74.8	70.6

基于灵感，可以让你的下游任务更强大

MVT-VLM

在开源VLM框架LLaVA-NeXT中使用MVT-VLM作为图像编码器，Qwen作为大语言模型，可以取得比其他图像编码器更好的结果，相关代码已经合并到LLaVA-NeXT工程中。

DATASET	MVT v1.5	MVT v1.1	CLIP	SigLIP	AIMv2
ChartQA	78.08	67.84	66.52	69.28	72.72
DocVQA	87.38	76.46	75.21	76.71	77.19
InfoVQA	53.15	43.48	38.88	41.38	35.44
OCRBench	607.00	531.00	525.00	554.00	572.00

MVT-feat

将Glint-MVT直接用于图像特征提取即可提升图片检索能力，在Inshop数据集上，Glint-MVT-feat的首位召回率超过最好的其他方法。

DATASET	MVTv1	STIR	MGA	Hyp-ViT	Hyp-DINO	CCL
InShop	96.7	95	94.3	92.5	92.4	92.31

MVT-det

应用Glint-MVT做主干网络，训练检测或分割模型，检测平均精度在学术界通用测试集COCO和LVIS上相比其他主干网络有7%的提升。

DATASET	MVT v1.5	MVT v1.1	DINOv2	SigLIP
COCO检测	38.9	35.6	31.6	35.0
COCO分割	31.5	28.6	24.3	28.1
LVIS检测	26.5	22.1	18.7	21.8
LVIS分割	21.4	17.8	14.1	17.3

MVT-cls

应用Glint-MVT做主干网络，训练分类模型，可以提升分类准确率。在全参数微调设置下，Glint-MVT-cls在ImageNet 1K分类测试集达到了87.1%的准确率。

Method	MVT v1.1	DINOv2	CLIP	OPENCLIP
Linear Probe	87.1	86	85.4	84.85

灵感

由来

搜索在广告电商等场景应用广泛，过去一般只在同一模态中进行搜索，如文搜文、图搜图。随着CLIP的提出，各种多模态表征的方法相继提出，我们也跟进相关的方法，同时针对在实际应用中各种短板进行提升，形成了灵感图文多模态表征模型系列 (Glint-ME)。

特点

灵感图文多模态表征模型可以将文本和图片表达到同一特征空间，可以应用在图文互搜等场景中。针对现实应用场景中全局效果和否定词、组分缺失、属性、数量、关系等针对性的问题，我们提出了一系列优化算法和数据集，并已开源。

多模态表征系列

UniME

UniME是一个面向MLLMs的两阶段统一多模态表征学习框架。在文本判别知识蒸馏阶段，UniME借助强大的教师模型来增强MLLM中LLM语言组件的嵌入能力。在困难负样本增强指令微调阶段，我们减轻错误负例的污染的同时在每个批次中采样多个困难负样本来引导模型关注更具挑战性的样本。

	UniME	LLaVE-7B	VLM2Vec-7B	MMRet-7B
Classification	66.8	65.7	63.5	56
VQA	66.6	65.4	61.1	57.4
IND	74.6	75	69.7	68
OOD	65.8	64.4	61.0	59.1

DeGLA

DeGLA是一个为了保证CLIP原始通用性能的前提下增强其组合理解能力的框架。我们在全局对齐过程中整合了自我蒸馏机制来保留模型原始的通用能力。此外，我们引入基于图像和文本的局部对比损失来提高模型的组合理解能力。

	DeGLA	CE-CLIP	Structure-CLIP	NegCLIP
VALSE Avg	74.1	72.2	69.1	71.7
ARO Avg	86.1	81.2	82	82.1
Zero-shot Classification	58.7	45.7	43.8	58.1
Linear Probe Avg	79.9	77.6	72.7	79.5

RealSyn

RealSyn数据集是基于互联网爬取的图文交错文档构建的包含真实和合成文本的大规模图文数据集。RealSyn有三个规模：15M，30M，和100M。每一个图片同时配有一个合成描述文本以及3个检索得到的真实描述文本。

	RealSyn 100M	RealSyn 15M	LAION 100M	LAION 15M
Linear Probe	75.8	71.4	74.4	69.8
Zero-shot Classification	56.2	47.9	53.9	42.7
Zero-shot Robustness	42.7	31.5	39.9	27.2

RWKV-CLIP

RWKV-CLIP是第一个由 RWKV 驱动的视觉语言表征学习模型，它将 Transformer 的有效并行训练与 RNN 的有效推理相结合。

	RWKV-CLIP	ALIP	DeCLIP	CLIP
Linear Probe	74.1	72.2	68.7	63.0
Zero-shot Classification	44.4	41.7	41.3	31.8
MSCOCOR@1	42.2	38.1	23.4	16.9

ALIP

ALIP是一种自适应语言-图像预训练框架，它整合了来自原始文本和合成描述的监督。ALIP引入语言一致性门和描述一致性门在训练过程中动态调整样本的权重。同时引入自适应对比损失来降低噪声数据的影响，并提高预训练数据的效率。

	ALIP	HiCLIP	DeCLIP	CLIP
Linear Probe	72.2	67.2	68.7	63.0
Zero-shot Classification	41.7	41.8	41.3	31.8
MSCOCOR@1	38.1	27.4	23.4	16.9