Glint-MVT
Glint-ME
深瞳灵感
MVT
由来
CNN结构主要用于各种专业视觉模型,一般需要从头搜集专业数据训练,搜集各种专业数据费时费力。随着大模型兴起,研究人员发现通过大量多样化数据训练的预训练模型可以容易地泛化到各种专业任务。因此我们设计了MVT(Margin-based pretrained Vision Transformer),我们将该模型命名为“深瞳灵感”,该模型通过大量图像数据训练具备了较好的泛化性,并在各种专业下游任务中取得比基于CNN模型更好的结果。
优势

“深瞳灵感”模型使用大量图像数据预训练,使得模型对图像具有很好的表达能力和泛化性,因此它能被使用到各种下游的视觉任务中提升下游模型的效果。作为视觉基础模型,可以通过线性探测或下游任务的效果表征视觉基础模型的效果。线性探测(LinearProbing)是一种用于评估预训练模型性能的方法,通过替换模型的最后一层为线性层并保持其余部分不变。在此过程中,仅训练这个线性层,以测试模型的表征学习能力。

我们对比了CLIP和OpenCLIP在26个分类测试集中线性探测的结果,同等模型下我们平均准确率比OpenCLIP高2.3%,比CLIP高1.1%。

DATASETGlint-MVTCLIPOPNCLIP
CIFAR10092.087.587.9
VOC200792.589.691.7
EuroSAT99.198.297.1
KITTI78.264.777.5
好用的引用分割模型

Glint-RefSeg NO.1

Glint-RefSeg是我们基于“深瞳灵感”训练的引用表达分割模型,它将MVT v1.1(MLCD)作为视觉编码器,同时结合大语言模型和SAM解码器,可以根据用户指令给出图像中对应物体的分割掩膜。普通的分割模型需要在构建模型前定义出需要分割物体的类别,采集对应数据进行训练。而Glint-RefSeg利用大模型的能力可以分割任何类别的物体而无需特别搜集训练。相比其他RES任务的模型,Glint-RefSeg取得了当前的SOTA (最好结果)。

用户给出一张图和一个描述,模型就可以根据描述给出对应分割掩膜。

Glint-RefSeg
Original Fish
普通分割模型
Refined Fish

RefCOCO Segmentation Evaluation Results

RefCOCO是一个RES数据集,测试指标Overall Intersection-over-Union (oIoU),计算的预测掩膜与真值掩膜交集面积与总并集面积的比值。

DATASETSplitGlint-RefSegEVF-SAMGLaMMVisionLLM v2LISA
RefCOCOval83.682.479.579.274.9
RefCOCO+testA82.980.078.775.870.8
RefCOCOgtest80.578.374.974.870.6
基于深瞳灵感,可以让你的下游任务更强大

在开源VLM框架LLaVA-NeXT中使用MVT-VLM作为图像编码器,Qwen作为大语言模型,可以取得比其他图像编码器更好的结果,相关代码已经合并到LLaVA-NeXT工程中。

DATASETMVT-VLMCLIPSigLIPDFN5B
ChartQA73.866.5269.2864.36
DocVQA83.3475.2176.7170.87
InfoVQA46.5938.8841.3838.59
OCRBench582.00525.00554.00473.00

将Glint-MVT直接用于图像特征提取即可提升图片检索能力,在Inshop数据集上,Glint-MVT-feat的首位召回率超过最好的其他方法。

DATASETMVTv1STIRMGAHyp-ViTHyp-DINOCCL
InShop96.79594.392.592.492.31

MVT-det

应用Glint-MVT做主干网络,训练检测或分割模型,检测平均精度在学术界通用测试集COCO和LVIS上相比其他主干网络有7%的提升。

DATASETMVT-det/segDINOv2SigLIP
COCO检测38.931.635.0
COCO分割31.524.328.1
LVIS检测26.518.721.8
LVIS分割21.414.117.3

MVT-cls

应用Glint-MVT做主干网络,训练分类模型,可以提升分类准确率。在全参数微调设置下,Glint-MVT-cls在ImageNet 1K分类测试集达到了87.1%的准确率。

MethodMVTv1.1DINOv2CLIPOPENCLIP
Linear Probe87.18685.484.85
深瞳灵感
ME
由来
搜索在广告电商等场景应用广泛,过去一般只在同一模态中进行搜索,如文搜文、图搜图。随着CLIP的提出,各种多模态表征的方法相继提出,我们也跟进相关的方法,同时针对在实际应用中各种短板进行提升,形成了灵感图文多模态表征模型系列 (Glint-ME)。
特点

灵感图文多模态表征模型可以将文本和图片表达到同一特征空间,可以应用在图文互搜等场景中。针对现实应用场景中全局效果和否定词、组分缺失、属性、数量、关系等针对性的问题,我们提出了一系列优化算法和数据集,并已开源。

多模态表征系列

UniME是一个面向MLLMs的两阶段统一多模态表征学习框架。在文本判别知识蒸馏阶段,UniME借助强大的教师模型来增强MLLM中LLM语言组件的嵌入能力。在困难负样本增强指令微调阶段,我们减轻错误负例的污染的同时在每个批次中采样多个困难负样本来引导模型关注更具挑战性的样本。

UniMELLaVE-7BVLM2Vec-7BMMRet-7B
Classification66.865.763.556
VQA66.665.461.157.4
IND74.67569.768
OOD65.864.461.059.1

DeGLA是一个为了保证CLIP原始通用性能的前提下增强其组合理解能力的框架。我们在全局对齐过程中整合了自我蒸馏机制来保留模型原始的通用能力。此外,我们引入基于图像和文本的局部对比损失来提高模型的组合理解能力。

DeGLACE-CLIPStructure-CLIPNegCLIP
VALSE Avg74.172.269.171.7
ARO Avg86.181.28282.1
Zero-shot Classification58.745.743.858.1
Linear Probe Avg79.977.672.779.5

RealSyn数据集是基于互联网爬取的图文交错文档构建的包含真实和合成文本的大规模图文数据集。RealSyn有三个规模:15M,30M,和100M。每一个图片同时配有一个合成描述文本以及3个检索得到的真实描述文本。

RealSyn 100MRealSyn 15MLAION 100MLAION 15M
Linear Probe75.871.474.469.8
Zero-shot Classification56.247.953.942.7
Zero-shot Robustness42.731.539.927.2

RWKV-CLIP是第一个由 RWKV 驱动的视觉语言表征学习模型,它将 Transformer 的有效并行训练与 RNN 的有效推理相结合。

RWKV-CLIPALIPDeCLIPCLIP
Linear Probe74.172.268.763.0
Zero-shot Classification44.441.741.331.8
MSCOCOR@142.238.123.416.9

ALIP是一种自适应语言-图像预训练框架,它整合了来自原始文本和合成描述的监督。ALIP引入语言一致性门和描述一致性门在训练过程中动态调整样本的权重。同时引入自适应对比损失来降低噪声数据的影响,并提高预训练数据的效率。

ALIPHiCLIPDeCLIPCLIP
Linear Probe72.267.268.763.0
Zero-shot Classification41.741.841.331.8
MSCOCOR@138.127.423.416.9
灵感团队

冯子勇

主要研究机器学习、深度学习、计算机视觉。现深瞳灵感系列模型负责人,带领团队完成深瞳灵感Glint-MVT系列模型研发。研究表征学习理论并将其应用于深瞳灵感模型中。个人日常爱吃美食和探索新事物。

王雨濛

拥有15年行业经验,专注于人工智能技术的研究与应用。在灵感大模型研发过程中主导了训练工程,开发了大部分的训练算法以及数据清洗流程。擅长设计各类算法解决实际问题,乐于分析和解决各类复杂Bug。喜欢健身、研究百科、喜欢古典音乐。

安 翔

专注于计算机视觉领域的算法开发与前沿研究,是知名开源人脸识别框架 InsightFace 的贡献者之一。在深瞳灵感研发中,主要负责视觉基座模型的训练,主攻分布式训练加速和视觉基座表征优化。业余时间,热爱游泳,享受运动带来的乐趣与放松。

赵永乐

主攻图像识别、多模态大模型与强化学习算法。在深瞳灵感研发中负责算法方向把握与模型方案设计,偏好通用图像理解与智能体任务规划,最爱喝拿铁,看足球比赛偶尔踢球放松。

谢 尹

单线程worker,负责在深瞳灵感VLM中将视觉与语言进行高效连接,促使视觉和语言部件在有限数据下实现相互融合与理解。擅长利用大规模算力集群和海量数据进行模型预训练研究。平日爱好读书与黑咖。

闫梓祯

拥有多年AI工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于AI Infra方向,负责灵感模型的训推优化与应用落地工作。日常喜欢“调戏”大模型,沉迷提示词改写无法自拔。

于 杰

专注“折腾”AI领域“30年”,特别是深度学习工程化,对LLM、VLM等大规模模型和传统CV的小规模模型落地工程化有较为深入的研究,在灵感中负责工程化落地的相关工作,在折腾AI之余也会抽出时间来对各类游戏进行鉴赏。

杨铠成

主要研究多模态表征学习、面向Foundation Model的知识蒸馏、海量数据构建与清洗等方向。主导Glint-ME系列模型探索与训练。日常化身无情的论文阅读机,喜爱各类美食以及睡大觉。

典型案例
K 罗

K 罗

我们从4年前开始在银行网点实现了数十种算法试图解决室内场景下各种行为判断、物体识别,但做到一定程度就很难再提高召回率和准确率,客户开始抱怨,规模化落地遇到了很大困难,23年我们尝试了深瞳灵感预训练视觉模型,在灵感团队的帮助下,我们重构了整个训练架构,重新训练了我们的多种“瓶颈”算法,结果非常惊喜!在我们训练集不变的情况下(甚至只用了原来一半还少的数据),整个算法的效果终于得到了突破性的进展,最终让我们在24年达成了30万路镜头下数十个算法高召回、高准确的运行!感谢灵感模型,感谢灵感团队。

老胡

老胡

灵感大模型联手低代码建模引擎,直接把技战法的上线速度拉到了“即时响应”的档位。在某项目现场,客户临时抛出一个高要求:“手持鲜花、拿手机拍照的行为需要立即预警。”换作以前,这种需求少说也得几天才能上线。而这一次,我们只用了两个小时,从建模到部署,全流程搞定,现场直接上屏,零磨合上线。靠的是灵感大模型在Zero-Shot下就能精准命中的理解力,加上低代码引擎对业务场景的灵活适配。不调参、不改代码,真正把算法交付的“重工程”变成了“快反应”,把传统AI的“人工+智能”变成实战中的闪击。