你的位置:网赌游戏软件有哪些(网赌游戏)-登录入口 > 新闻中心 > 赌钱赚钱官方登录其中包含多种本领粒度的视频特殊标注-网赌游戏软件有哪些(网赌游戏)-登录入口

赌钱赚钱官方登录其中包含多种本领粒度的视频特殊标注-网赌游戏软件有哪些(网赌游戏)-登录入口

时间:2025-08-22 13:39:19 点击:73 次

赌钱赚钱官方登录其中包含多种本领粒度的视频特殊标注-网赌游戏软件有哪些(网赌游戏)-登录入口

多模态视频特殊麇集雇务,又有新毁坏!

"特殊麇集"是指在视频监控、自动驾驶等场景中,附近模子发现视频中的特殊内容,从而预判危境,以便实时作念出有缱绻。

来自华中科大等机构的磋议东说念主员,建议了新的视频特殊麇集模子 Holmes-VAU,以及关系数据集。

与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频特殊麇集上都展现出显赫上风。

为了完了洞开全国的多模态视频特殊麇集(VAU),已有的 VAU benchmark 只好短视频的 caption 标注或长视频的 instruction 标注,忽略了视频特殊事件的时序复杂性。

为同期促进模子对短视频的感知才智和对长视频的推理才智,作家建议了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频特殊麇集雇务的多时序圭臬指示数据。

同期作家建议了一种基于特殊分数的时序采样器,从长视频中动态稀疏采样关节帧到后续多模态大模子中,显赫提高了特殊分析的准确性和推理效果。

多层级视频特殊麇集指示数据集

针对视频特殊麇集雇务 ( Video Anomaly Understanding ) ,以往的一些特殊视频指示数据集主要有两方面问题:

数据麇集的视频时长较短,导致模子虚浮对长视频的特殊麇集才智;

即便包含长视频,也虚浮对长视频的细粒度和结构化的标注,导致模子的特殊麇集空间难以对皆。

为此,作家建议了一个大型多模态指示数据集 HIVAU-70k,其中包含多种本领粒度的视频特殊标注,由粗到细诀别为:

video-level:未剪辑长视频,包括视频中系数特殊事件的文本形色分析;

event-level:从长视频中剪辑出的特殊事件片断,包括单个特殊事件的文本形色分析;

clip-level:从 event 中进一步剪辑出的视频片断,包括视频片断的文本形色。

HIVAU-70k 中的指示数据包括视频形色、特殊判断、特殊形色和特殊分析等任务,为视频特殊麇集多模态大模子提供了丰富各种的数据起头。

这么的多层级指示数据集是如何构造的呢?从一个未剪辑的长视频运行,需要次序经由以下三个要领:

分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的特殊事件标注并剪辑出来,获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频;

分层解放文本注目(Hierarchical Free-text Annotation):关于 clip-level 视频,使用东说念主工或 caption model 获取 clip caption;关于 event-level 视频,谀媚所包含的 clip-level caption 和特殊类别,指示 LLM 获取事件纪念;关于 video-level 视频,谀媚所包含的事件纪念和特殊类别,指示 LLM 获取视频纪念;

端倪化指示数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频很是文本标注,想象不同的任务,构造任务关系的问题并与文本注目组合,获取最终的指示数据。

与其他关系的数据集比拟,HIVAU-70k 不仅极度量上的上风,还提供了多粒度的文本标注以实时序上的特殊规模标注。

动态稀疏采样的视频特殊麇集模子

长视频特殊麇集在使用大型讲话模子(LLMs)或视觉讲话模子(VLMs)时,常因帧冗余问题而受到截至,导致特殊检测的准确性变得复杂。

以往的 VAU(视频特殊麇集)措施难以聚焦特殊。

举例,密集窗口采样措施会加多大批冗余帧的计较量,而均匀帧采样措施时常错过关节特殊帧,使其应用范畴局限于短视频。

为此,作家建议了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指示微调,构建了 Holmes-VAU 模子。

特殊帧时常比平常帧包含更多信息,并进展出更大的变化,基于这一不雅察,作家想象了一种采样政策,在特殊分数较高的区域采样更多帧,同期在分数较低的区域减少采样。

为完了非均匀采样,作家建议了一种"密度感知采样器"(density-aware sampler),用于从所有 T 个输入帧中选拔 N 个帧。

具体来说,作家将特殊分数 S 视为概率质料函数,并领先沿本领维度积蓄它们,获取积蓄散播函数(CDF),记为 S_cumsum:

接着,在积蓄轴上均匀采样 N 个点,并将这些点映射到积蓄散播 S_cumsum 上。相应的本领轴上的 N 个本领戳会被映射到最接近的帧索引,最终变成采样的帧索引聚合 G。

△Holmes-VAU 模子框架图

下入展示了测试集上的特殊分数和采样帧的可视化收尾。这些收尾标明了 ATS 的准确特殊检测才智,最终输入到多模态大模子的采样帧也麇集于特殊区域。

△Anomly-focused Temporal Sampler ( ATS ) 特殊分数及采样帧默示图执行收尾特殊推感性能评估

作家在 HIVAU-70k 的测试集上,将模子输出的推理文本与注目的真确文本进行比较,计较了包括 BLEU、CIDEr、METEOR 和 ROUGE 等缱绻来意想模子输出的特殊麇集文实质料。

与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频特殊麇集上都展现出显赫上风。

在多层级标注中,对不同层级指示数据集的组合,不错不雅察发现,单一层级的标注只可提高单一层级任务的性能。

不同层级的标注组合不错相互补充,完了从 clip-level 的基础视觉感知 , 到 event-level 单一特殊事件的分析,再到 video-level 的永劫序特殊纪念和推理等方面的全面提高,达到更细粒度和完竣的多模态特殊空间对皆。

关于非均匀采样器的作用,作家也对比了不同帧采样方法,包括本文建议的 ATS、之前列法用的 Top-K 采样和 Uniform 采样。

收尾标明在辩论的采样帧数下,ATS 展现出更优厚的长视频特殊麇集才智,这是由于 Top-K 采样过于麇集在特殊帧,忽略了视频高下文的参考,Uniform 采样则容易忽略关节的特殊帧。

而作家建议的 ATS 则有用谀媚了这两者的上风,温暖特殊帧的同期,简略保留部分高下文帧的采样。

定性比较

下图对比了 Holmes-VAU 和其他 MLLM 输出的特殊分析文本,Holmes-VAU 进展出更准确的特殊判断和分析才智,同期对长视频也进展出更完竣的特殊纪念才智。

△Holmes-VAU 和其他 MLLM 的特殊分析文实质料对比

论文:

https://arxiv.org/abs/2412.06171

代码:

https://github.com/pipixin321/HolmesVAU

一键三连「点赞」「转发」「提神心」

宽饶在指摘区留住你的思法!

—  完  —

学术投稿请于使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 方法主页络续,以及磋议方法哦

咱们会(尽量)实时修起你

� � 点亮星标 � �

科技前沿进展逐日见赌钱赚钱官方登录

服务热线
官方网站:www.bright-foods.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:10086
官网:http://www.bright-foods.com/
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号

Powered by 网赌游戏软件有哪些(网赌游戏)-登录入口 RSS地图 HTML地图