比特派app下载安装官网|vot

作者: 比特派app下载安装官网
2024-03-07 21:52:33

单目标跟踪(VOT)经典算法简介 - 知乎

单目标跟踪(VOT)经典算法简介 - 知乎切换模式写文章登录/注册单目标跟踪(VOT)经典算法简介MaWBFree Man参考:● Visual Object Tracking | Papers With Code● Multiple Object Tracking | Papers With Code在CV领域,Visual Object Tracking(VOT)和Multiple Object Tracking(MOT)虽然都属于目标跟踪,通常都和Object Detection一起使用,但其中还是有一些本质上的区别:● VOT又被称为SOT(Single Object Tracking),其跟踪给定的初始单个目标,然后在新的帧上找到和跟踪目标最匹配的区域(类似于模板匹配),就为目标新的位置;● MOT则是跟踪多个目标,相比于VOT,除了要找到跟踪的目标外,还要能够区分跟踪目标属于初始目标中的哪一个(相当于VOT的检测之后,做进一步识别)。1. 概述为了实现实时的跟踪效果,通常会由检测器(Object Detector)先检测出待跟踪对象,再通过Tracking算法对对象进行跟踪。大体流程如下:这样做的原因有两点:● 只跟踪OoI(Object of Interest,类似于RoI,如果跟踪对象区域由矩形框表示,则就是RoI),减少其他对象的干扰(单纯用OD做不到这一点);● 一些传统VOT算法拥有比OD高的性能(通常有一个量级的优势)。为了达到以上两点目标,需要:● VOT算法能够准确提取不同对象(即使同一类型)的特征,从而在不同的图像上正确定位到跟踪对象(这里有些ReID的味了);● VOT算法的速度必须比OD算法的性能有明显的优势。下面放上Visual Tracking Paper List梳理的图镇楼:2. 传统VOT算法参考:● NIUBILITY的相关滤波框架详解 - 知乎 (zhihu.com)● 基于相关滤波的跟踪算法,数学公式总结分析(MOSSE,CSK,KCF,DCF) - 知乎 (zhihu.com)● 基于相关滤波的目标跟踪算法 - 知乎 (zhihu.com)● HOG特征的提取及代码实现 - 知乎 (zhihu.com)● 浅入浅出核方法 (Kernel Method) - 知乎 (zhihu.com)传统VOT算法主要介绍基于CF(Correlation filter:相关滤波)的算法。其中MOOSE算是第一个引入CF做跟踪的,后续的CSK、KCF都是这一类的方法。CN算法则是引入多通道的概念。传统方法整体的性能都很高,如下所示:MOSSE(615FPS),CSK(362FPS),KCF(172FPS),CN(152FPS)CF方法的大致流程如下图:加上FFT(快速傅里叶变换)后:下面就按照时间轴的顺序介绍CF相关的跟踪算法。2.1 MOSSE(2010)参考:● Visual Object Tracking using Adaptive Correlation FiltersMOSSE(Minimum Output Sum of Squared Error)提出了一种最小输出平方误差和作为目标函数,结合相关滤波,来做跟踪。2.2 CSK(2012)参考:● 目标跟踪学习过程(2):CSK算法 - 知乎 (zhihu.com)● Exploiting the Circulant Structure of Tracking-by-detection with KernelsCSK:Circulant Structure of Tracking-by-detection with Kernels(核检测跟踪的循环结构)Using the well-established theory of Circulant matrices, we provide a link to Fourier analysis that opens up the possibility of extremely fast learning and detection with the Fast Fourier Transform.Google翻译:使用完善的循环矩阵理论,我们提供了傅立叶分析的链接,该分析开辟了使用快速傅立叶变换进行极快学习和检测的可能性。相比于MOSSE的改进:● 岭回归:求解滤波模板的目标函数增加了正则项;● 循环移位:使用循环位移产生训练样本的循环矩阵,循环矩阵可以通过傅里叶变换进行对角化,进一步减少计算运算量。● 核方法2.3 CN(2014)参考:● Adaptive Color Attributes for Real-Time Visual TrackingCN:Color Names/Color Attributes2.4 KCF&&DCF(2015)参考:● KCF学习笔记 【目标跟踪】 - 知乎 (zhihu.com)● High-Speed Tracking with Kernelized Correlation Filters● KCF跟踪算法原理 入门详解 - Jerry_Jin - 博客园 (cnblogs.com)● https://github.com/LCorleone/KCF_py3KCF:Kernelized Correlation Filters(核相关滤波器)DCF:Dual Correlation Filter(双相关滤波器)KCF在实际场景中使用较多,考虑到速度和精度,其是一款优秀的跟踪器。相比于CSK的改进:KCF的整体流程(参考:KCF_py3)和CF方法的流程基本相同:其中:● Extract Features部分使用了HOG特征,并通过PCA进行降维;● Correlation Filter部分增加了Gaussian核。2.5 小结以上介绍的VOT算法,主要包括以下几个方面:名称作用相关滤波(Correlation Filters)核心,计算Template和Target的相似性循环矩阵获取更多的训练样本,并且可以通过FFT进行对角化快速傅里叶变换(FFT)减少Correlation Filters的计算量滤波核函数:高斯核、线性核、多项式核将特征从低维空间映射到高维空间使用岭回归优化目标函数增加滤波器的泛化能力特征提取:灰度图像单通道特征提取、CN颜色空间多通道特征提取、HOG特征提取提取特征PCA(Principal Component Analysis)降维,减少特征复杂度其中,最重要的是特征提取部分,如NIUBILITY的相关滤波框架详解 - 知乎 (zhihu.com)中所说:最后,放一张MFFSKCF(multi-feature fast scale kernelized correlation filter)的图(HOG和CN特征融合成为标配):3. 基于DL的VOT算法深度学习(Deep Learning,简称DL)算法在CV的Image Classification、Object Detection领域取得了令人惊叹的成就,将DL用于VOT是一件非常自然的事情,一些最新的方法在GPU上的性能也达到了100+的FPS(和传统算法只需要跑在CPU上就有100+FPS的性能,还是有所差距)。参考:● 深度学习中的目标追踪概述(VOT in DeepLearning) - 简书 (jianshu.com)● ECCV视觉目标跟踪之DaSiamRPN - 知乎 (zhihu.com)● 目标跟踪之Siamese网络 - 知乎 (zhihu.com)3.1 Siamese(2016)参考:● Paper:Siamese Instance Search for Tracking● Siamese Instance Search for Tracking (SINT)Siamese deep neural network:孪生深度神经网络结构如下图右边所示,在跟踪中,初始化的跟踪目标和当前帧通过同样(使用一套网络参数)的处理后,计算Contrastive Loss来预测跟踪对象位置。Loss:其中,D是模型两部分算出来的特征的欧式距离。跟踪最终是一个回归问题,因此使用类似于MSE的回归损失函数是常规的逻辑,也可以使用余弦相似度计算损失函数。3.2 SiamRPN(2018)参考:● Paper:High performance visual tracking with siamese region proposal network● Code:https://github.com/foolwood/DaSiamRPNSiamRPN(Siamese region proposal network):孪生区域提案网络网络说明:● 使用Siamese Network用于模板(待跟踪对象)和当前frame的特征提取;● Region Proposal Network(RPN)负责对提取的特征进行correlation(相关性)操作,生成一组17*17*2k向量用来做分类(前景还是背景),另一组17*17*4k向量用来做回归(对proposal进行调整)。(类似于Object Detection中的分类和回归)Loss:● cls部分使用Cross Entropy Loss;● reg部分使用smoothL1 Loss。3.3 DaSiamRPN(2018)参考:● Paper:Distractor-aware Siamese Networks for Visual Object Tracking● Code:https://github.com/foolwood/DaSiamRPNDaSiamRPN(Distractor-aware Siamese region proposal network):干扰感知孪生区域提案网络。DaSiamRPN的网络结构与SiamRPN一致,其思想是对SiamRPN的补充。主要是通过对训练样本进行特定样本的添加解决SiamRPN网络中分类不准的问题。添加的样本有两类:Loss:同SiamRPN。3.4 小结以上介绍了三种深度学习的VOT方法,主要基于Siamese思想。整体而言,DL方法提取的特征依赖于训练样本分布,如果在Tracking任务对象是明确的(比如:只跟踪人、车),那么DL方法可以有比较好的效果,但对于Tracking对象不确定时,DL的效果就会下降很多(类似于异物入侵,当异物能够被准确列举的时候,DL检测器就可以发挥很好的效果,但当异物无法列举的时候,往往传统的方法效果更好)。编辑于 2023-03-16 16:30・IP 属地江苏目标跟踪深度学习(Deep Learning)计算机视觉​赞同 24​​添加评论​分享​喜欢​收藏​申请

闲聊 VOT、韵律和音系 - 知乎

闲聊 VOT、韵律和音系 - 知乎首发于油条爱发音切换模式写文章登录/注册闲聊 VOT、韵律和音系Articulatum​​纽约州立大学布法罗分校 语言学博士VOT, Voice Onset Time, 又叫“发声起始时间”,是语音学里一个非常重要的概念。VOT 从声学角度描述了传统语文学/语言学对于所谓清浊的区分(以下为方便打字,我都使用VOT)。其定义非常简单,就是声带震动起始时间与口腔除阻时间的差。VOT = T_{voice}-T_{release} 如果 VOT 是负值,那么声带先于口腔除阻,意味着辅音成阻过程中有声带震动产生的低频能量。如果 VOT 是正值但小于 20ms 的话,人的听觉系统会将声带震动起始和除阻识别为同时事件,成阻其间没有低频能量,除阻瞬间声带震动产生周期震动。如果 VOT 是正值但大于20ms的话,人类的听觉系统会将除阻和震动识别为一先一后两个事件,口腔除阻前后都没有声带震动产生的能量。这个关系大致可以描述为下图[1]:VOT 为负值的话反应在听觉上就是所谓的带声辅音,或浊音,如果 VOT 为正的话就是不带声辅音,或清音。VOT 如果长至20ms以上被描述为不仅不带声而且还送气。这种从声学和物理角度给出的关于传统所谓音系清浊的定义会给人一种错觉,好像人类语言对于口腔成阻和声带震动的“语言架构上”的安排只有这三种可能性。可正如我之前在这篇回答(什么是实验语音学?其与语音学、语言学以及应用语言学的关系是怎样的?)里提到的一样,即使在上面三个范畴内部,不同语言也会对 VOT 有不同的安排,甚至会出现有些语言音系上的所谓送气音与别的语言的所谓不送气音 VOT 相当的情况。影响 VOT 值的不仅仅是各语言不同的音系,或“语音语法知识”[2]。众所周知,语言虽然是一个具有静态结构且相对稳定的复杂系统,但是落实到话语层面,这些相对稳态的结构是需要被我们的调音器官(调音器官包括口腔内各器官和手势)执行并且输出成语音或手势(手语)信号的。调音器官的具体执行落实到生理或物理层面会受到诸多因素影响,这些因素也影响 VOT 。在这篇文章里我想带大家简单了解一下哪些语言上的因素会左右实际观测到的 VOT 值。1. 韵律语言学上所说的韵律 (prosody) 并不只包括声调、语调、音高等超音段 (suprasegmental) 特征。超音段特征只是韵律实现的一个方面,韵律还包括了短句的构成 (phrasing) 这类结构性特征。因为人的生理结构限制,说话过程中需要调整呼吸,所以语言单位的产出计划 (speech planning) 必须进行一定程度的切分。有时候这种切分就带有不仅仅是生理意义,而是语言意义。比如我之前在想法里问过怎么区分:(2\times3)^2 和 2\times3^2 。如果考虑我们只有下面这个音段序列的话,er cheng yi san de ping fang区分就只能通过在哪里插入一个暂停来体现:er cheng yi san || de pingfanger || cheng yi san de pingfang这样的暂停的不同安排会导致语音产出细节上非常大的变化。下图显示的是我自己用普通话读上面这两个句子产生的频谱图和基频图。可以看出不仅仅暂停变换了位置,两个模式下音节“二”和“三”的产出模式也非常不一样。在“二乘以三,的平方”中,“二”大概是 195 ms,“三”是大约 378ms。而在“二,乘以三的平方”中,“二”达到了 278ms,而“三”变成了 285 ms。“二”和“三”各自增减了大约 90ms 的时长。暂停在声调模式上也有一定影响。“二”的四声在“二乘以三,的平方”中只下降到了大概 125hz 附近,在“二,乘以三的平方”中下降到了100hz出头,而他们的起始点都是差不多的频率。“三”的一声在下图中略带拱形,而在上图中则非常平。在汉语这样音高 (pitch) 的声调 (tone) 功能比语调 (intonation) 功能显著的语言中,这样的韵律边界的调整可能主要依赖于插入暂停来实现。而在英语这样语调显著的语言中韵律边界还可以通过各种各样的语调来区分[3]:图中展示的是下面两个句子的区别:When danger threatens, your children call the police.When danger threatens your children, call the police.当暂停在 threatens 后插入时,边界调 (boundary tone) H% 粘合在了 threatens 词尾,当暂停出现在 children 后时,边界调粘合在 children 词尾。韵律不仅仅是关于在哪里插入边界(暂停),还包括哪些句中要素比别的要素更加凸显的问题 (prominence)。比如,Who went to school?James went to school。Where did James go?James went to school。当焦点在 James 上时,核心音高 (nuclear pitch) H*出现在 James 上。而当 school 成为焦点时,H* 就出现在 school 上:音系学的一个分支语调音系学 (intonational phonology) 就是研究人们说话的时候是怎样对一段长语音流进行切割,这样的切割安排与其他的语言要素比如句法和音系等等有什么联系的学问。一般而言从语言结构角度来说,音系学认为韵律主要有两个功能:分界功能 delimitative function凸显功能 culminative function[4]分界功能即刚才提到的在什么地方划分怎样的合适的边界。不同的边界的“强度 (strength)”也会不一样,比如英语中一般认为可以划分三个层次的边界:语调短语边界 (intonational phrase boundary),中间短语边界 (intermediate phrase boundary) 和韵律词边界 (prosodic word boundary)。这样一来我们就可以从韵律角度将 When danger threatens your children, call the police 分拆成下面这样的结构[5]:在这个韵律层级的最底层是音段,依次往上是音节、韵律词、中间短语和语调短语。凸显功能就决定在每个这样的韵律短语,或韵律域中,哪个语言单位比其他语言单位在韵律层面更突显。反映在上面这幅图中就是,哪个词获得 L+H* 这个核心音高。在第一个语调短语 (IP) 中是 danger,在第二个 IP 中是 police。2. 韵律与VOT那么接下来我们要问的问题就是,这个性质和 VOT 有什么关系呢?语音学家通过研究发现韵律边界对处于韵律边界附近的语音单位的产出模式有着微小但又显著的影响,比如边界前的音节普遍会被拉长[6][7]。那 VOT 会怎样随着韵律结构的不同而变化呢?一个显而易见但却不一定正确的猜想是“VOT在韵律边界会被拉长”。这个答案对又不对。对是因为 VOT 随着韵律边界的强度的增长而变长确实是重复观察到的现象。比如韩语的送气音的 VOT 在其他条件不变的情况下,就很明显的随着韵律边界的强度提升而变长[8]。Ui 代表发话起始位置,IPi 代表语调短语起始位置,APi 表示音高短语起始位置,Wi表示词首,Si 代表音节首,韵律边界强度从左到右递减。英语中也观察到了类似现象[9]:Ui 代表发话起始,Um代表发话中部但是,这只针对清送气音而言。清不送气或者浊音的 VOT 所受到的影响很小。比如在英语的 /sC/ 复辅音序列中,研究发现在 sC 前方的韵律边界强度对辅音 C 的 VOT 并没有什么影响[10]:IP 是词调短语,Wd 是词这有可能是因为清不送气音在词首出现时 VOT 出现的天花板效应。一方面英语的音系上的浊音在词首清化了,所以 VOT 必须大于0。而另一方面 VOT 又不能很长,因为长 VOT 区段还有清送气音占着,如果继续增长的话词首的送气对立就消失了,会导致音系信息丢失。有趣的是,荷兰语中的清音甚至还呈现出相反的性质:随着韵律边界强度的上声 VOT 值反而下降[11]:y 轴上每格代表 25ms看起来虽然荷兰语和英语一样在词首都只区分清送气和不送气,但是清送气音的语音性质却相当不一样。所以 Cho 在论文中认为这是因为荷兰语中这个清送气音带的语音特征是 [-spread glottis],而英语中则是 [+spread glottis] 的缘故。因为一个取值为负,一个取值为正,所以在辅音处在强韵律位置时强化的方向是相反的。更加有趣的是,不论在刚才的英语还是荷兰语的数据中都出现了韵律边界和凸显度之间有趣的交互作用。比如在英语数据中,Cho 和 McQueen 发现,如果辅音前紧跟着韵律边界而不是s(即s#C),并且单词本身并没有接受核心音高 (nuclear pitch accent,参见刚才 James went to school 的例子) 的话,韵律边界强度越高则 VOT 也越长:比较第三组柱和其他三组,特别是第四组。白色是词调短语边界,深色是词边界上图中左边两组数据显示当音节被核心音高所标记的时候,韵律边界的强度对 VOT 是没有影响的。当核心音高消失以后,边界首位的 C 的 VOT 随着强度上升而上升,而紧跟在边界首位的 s 后边的 C 却 VOT 随着强度上声而下降。荷兰语中也呈现出非常类似的效应。即边界强度效应只在目标音节不被词重音标记时才显现出来:BG = bigger phrase,SM = smaller phrase,WD = word。y 轴上每格代表 5ms那是什么原因导致的这一行为呢?语音学家猜测这是因为 VOT 的扩张应该是有一个上限的,而韵律的分界功能和凸显功能就会在这里呈现此消彼长的竞争性关系:如果 VOT 随着凸显功能(重音或者核心音高)变化的话,那么就没有多少空间再留给边界强化功能发挥作用了。是另外一种天花板效应。从调音的角度来看,VOT 其实携带的是元音的一部分信息。我在这篇回答里写过如何看待音节首末位不同的调音动作的时间组织:元音的调音动作与辅音的调音动作在音节首是几乎同时发生的,并不因为声门的状态而改变。可是因为VOT的存在,元音调音动作的一部分可能并没有完全反映到周期性乐音音信号上。所以从调音语音学角度来说,对清辅音而言,与其说 VOT 是辅音的性质,倒不如说它是和元音的调音同时发生的事件。因此韵律的凸显功能在进行韵律强化时延长元音的同时也延长了与元音的调音同时进行的 VOT,也就是声门打开这个动作。而强化不是无休止地加进各种可能要素进行扩张,于是形成了天花板效应。如果韵律的凸显功能强化了 VOT 的话,韵律的分界功能就没有操作空间了。VOT 可以说是语音学中最基础的几个概念之一了,语音学家已经对其进行了将近 60 年研究。可正如我们在上面看到的,从理论角度出发,可以说 VOT 的本质还并不是完全清楚。对于一个小小的参数的深入研究依然可以给我们带来许许多多有关语言和语言结构到底是什么的有趣的观察和思考。参考^https://www.researchgate.net/publication/317958353_Learning_and_teaching_of_foreign_language_pronunciation_in_multilingual_settings_A_questionnaire_study_with_teachers_of_English_French_Italian_and_Spanish/figures?lo=1^Kingston, J., & Diehl, R. L. (1994). Phonetic knowledge. Language, 70(3), 419-454.^Cho, T. (2016). Prosodic boundary strengthening in the phonetics–prosody interface. Language and Linguistics Compass, 10(3), 120-141.^国内有翻译作“达顶性”。我觉得这个词虽然是基于 culminative 这个词的词汇义翻译,但是用于描述韵律结构有点不明所以,所以私译为“凸显”。^同注 3^Gussenhoven, C., & Rietveld, A. C. (1992). Intonation contours, prosodic structure and preboundary lengthening. Journal of Phonetics, 20(3), 283-303.^Berkovits, R. (1993). Utterance-final lengthening and the duration of final-stop closures. Journal of Phonetics, 21(4), 479-489.^T. Cho and P. A. Keating, “Articulatory and acoustic studies on domain-initial strengthening in Korean,” Journal of Phonetics, vol. 29, no. 2, pp. 155–190, 2001, doi: 10.1006/jpho.2001.0131.^T. Cho and P. Keating, “Effects of initial position versus prominence in English,” Journal of Phonetics, vol. 37, no. 4, pp. 466–485, Oct. 2009, doi: 10.1016/j.wocn.2009.08.001.^T. Cho, Y. Lee, and S. Kim, “Prosodic strengthening on the /s/-stop cluster and the phonetic implementation of an allophonic rule in English,” Journal of Phonetics, vol. 46, no. 1, pp. 128–146, Sep. 2014, doi: 10.1016/j.wocn.2014.06.003.^T. Cho and J. M. McQueen, “Prosodic influences on consonant production in Dutch: Effects of prosodic boundaries, phrasal accent and lexical stress,” Journal of Phonetics, vol. 33, no. 2, pp. 121–157, 2005, doi: 10.1016/j.wocn.2005.01.001.编辑于 2021-09-13 04:28语音学语言学实验语音学​赞同 163​​14 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录油条爱发音吃不到油条,所以来

视觉跟踪比赛VOT评价指标的计算 - 知乎

视觉跟踪比赛VOT评价指标的计算 - 知乎首发于Visual Tracking 123切换模式写文章登录/注册视觉跟踪比赛VOT评价指标的计算昌硕计算机视觉本文主要记录一下单目标跟踪算法中VOT的三个主要评价指标的计算:EAO, A, R首先我们定义几个基本概念:1 预测框与真实框之间的accuracy计算方式如下[1]:其中ground truth代表目标物的真是位置,而predicted代表算法预测的输出位置,等式左边代表当前视频帧的accuracy,其实本质上来说,这个accuracy就是目标检测中经常提到的IOU。2 鲁棒性的计算[1]:记录在算法在一个视频序列中出现跟踪失败的次数,这里失败的定义是:单帧accuracy的值低于设定的阈值判定算法跟踪失败。其中算法失败后,将进行重新初始化,在失败帧接着进行二次跟踪。但是这种方式存在一个问题:跟踪算法在某一帧失败后,如果从失败帧重新初始化,有可能再次失败。所以为了缓解这个问题,VOT官方规定5帧之后再进行初始化。3 多次测量[1]在一个视频帧上算法会进行多次的重复测量,有的算法由于含有随机性每次测量的结果会有不同。评价指标计算:1 视频的平均准确率 (Average accuracy over sequence): 定义每一帧的平均准确率(Per-frame averaged accuracy) 按照上面的公式对视频序列中的每一帧计算后可以得到: 则视频的平均准确率:2 视频的平均鲁棒性(Average robustness per sequence) 定义函数 F(i,k) 为跟踪失败次数,在第 k 次算法重复测量过程中。那么视频的平均鲁棒性计算如下:3 EAO (expected average overlap):首先我们定义视频帧中第 N_s 的平均帧覆盖率(average of per-frame overlaps)\Phi_{N_s} :其中的 \Phi(i) 为预测框与真实框之间的accuracy(详情请参考前面的公式以及示意图)。基于平均覆盖率公式我们可以得到如下图:随着视频帧序号的增加,平均覆盖率值会降低。因为 \Phi(i)\leq1 。而EAO计算如下:他是平均覆盖率值在视频帧间隔内的积分(注意这里我的说法不是很严谨)除以正则化项。实际计算这个值VOT进行了一些别的操作,详细请参考[2][3][4]。总结:本篇文章给出了几个指标的关键定义,但是实际计算会有更多其它的细节,这里不再做讨论,后续我会试着分析代码详细介绍每一个指标生成的过程参考:[1] http://www.votchallenge.net/vot2013/Download/vot_2013_presentation.pdf[2] http://data.votchallenge.net/vot2015/presentations/vot_2015_paper.pdf[3] https://blog.csdn.net/sinat_27318881/article/details/84350288[4] http://data.votchallenge.net/vot2015/presentations/vot_2015_presentation.pdf发布于 2019-09-20 11:11目标跟踪目标跟踪(target tracking)​赞同 23​​5 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录Visual Tracking 123视觉追踪学

VOT 2018 长时跟踪第一名算法 - 知乎

VOT 2018 长时跟踪第一名算法 - 知乎首发于人体目标分析与理解切换模式写文章登录/注册VOT 2018 长时跟踪第一名算法YunhuaZhang1217深度学习 目标跟踪大家好,在今年德国慕尼黑召开的ECCV Visual Object Tracking Workshop上,我们的算法有幸在SiameseRPN的巨大压力下,获得了Long-term Challenge的冠军。代码已开源在xiaobai1217/MBMD,训练和测试代码未来将在VOT2018官方网站上发布。Visual-Object-Tracking Challenge (VOT) 是当前国际上在线目标跟踪领域最权威的测评平台,由伯明翰大学、卢布尔雅那大学、布拉格捷克技术大学、奥地利科技学院联合创办,旨在评测在复杂场景下单目标跟踪的算法性能。今年的VOT2018比赛中引入了Long-term Challenge:每个视频在2000帧至2万帧左右,被跟踪目标频繁离开视野,然后再次出现。因此,要求跟踪算法必须具有判断目标是否在当前帧出现和全图搜索目标的能力。Long-term比赛有两个任务,分别是长时跟踪(Long-term Tracking)和全图检测(Re-detection Experiment)。方案简介:Motivation: 匹配网络通过预训练能够适应在线跟踪时目标外观的变化,但是对干扰物区分度不够;分类网络能够很好地区分出干扰物,却很难适应目标外观的变化。如果用单一网络(匹配或分类),很难通过网络输出判断目标是否出现在当前帧,并执行全图搜索。如下图:Algorithm: 如下图所示,我们的算法由两部分组成,一个基于匹配的回归网络和一个基于分类的验证网络。算法框架回归网络有两个输入,分别是局部搜索区域和目标图像块。局部搜索区域以上一帧目标位置为中心,四倍目标大小在当前帧裁得。在每一帧,回归网络在搜索区域内提出一些和目标相似的候选框,每个候选框都有一个描述相似度的分值。验证网络在线学习一个分类器,它首先检验和目标最像的候选框是否是目标,若是,则此目标框为当前帧跟踪结果。如果最像的候选框被验证网络分为背景,则验证网络将从候选框中选择一个分类为前景的作为当前帧跟踪结果。如果两个网络均找不到一个候选框既与目标相似又被分类为前景,那么Tracker将开启全图搜索模式,即从图片左上角开始,裁出一个局部搜索区域,依次搜索全图,横向步长为目标长的一半,纵向步长为目标宽的一半。匹配网络通过离线训练而具备在一个区域内定位相似物体的能力。它采用SSD检测框架和MobileNets结构作为特征提取部分,使用了ILSVRC2014 Object Localization Dataset 和ILSVRC2015 Video Object Detection Dataset两个数据集。预训练时不使用任何类别标签信息。上支路输入为局部搜索区域,输出两种尺寸的特征图(19*19和10*10)。我们采用两种尺度来处理目标大小剧烈变化。下支路输入目标图像块(第一帧给定的待追踪目标),输出一个特征向量。两路的特征图经过融合得到的特征图输入到后面的候选区域生成网络(Region Proposal Network,RPN),并由RPN模块输出编码了候选框信息的特征图,随后送入到非极大值抑制模块(Non-Maximum-Suppression)得到最终候选框。融合过程如下图所示(以19*19尺寸为例):验证网络和MDNet的结构相似(VGGM结构),输入一个107*107的图片块,输出一个二维向量,分别是前景和背景的概率。我们加载VGGM在ImageNet Classification任务中预训练的参数,而不额外在Video数据集上训练。为了有效地滤掉干扰物,在线跟踪过程中,我们更新网络后三层来训练一个强分类器。Performance: 在VOT2018 长时跟踪任务中,我们的F-score为0.61,AUC为0.81。欢迎大家交流和cite:@inproceedings{LRVNT, title={Learning regression and verification networks for long-term visual tracking}, author={Yunhua Zhang, Dong Wang, Lijun Wang, Jinqing Qi, Huchuan Lu}, booktitle={arXiv preprint arXiv:1809.04320}, year={2018}}与会发表PPT详见:技术细节详见:Group主页:编辑于 2018-09-17 20:47计算机视觉目标跟踪目标跟踪(target tracking)​赞同 184​​43 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录人体目标分析与理解专注图像和视频中的人体目标分析

90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)-阿里云开发者社区

90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)-阿里云开发者社区

产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云售前咨询 95187-1 在线服务售后咨询 4008013260 在线服务其他服务 我要建议 我要投诉更多联系方式备案控制台开发者社区首页探索云世界探索云世界云上快速入门,热门云上应用快速查找了解更多问产品动手实践考认证TIANCHI大赛活动广场活动广场丰富的线上&线下活动,深入探索云世界任务中心做任务,得社区积分和周边高校计划让每位学生受益于普惠算力训练营资深技术专家手把手带教话题畅聊无限,分享你的技术见解开发者评测最真实的开发者用云体验乘风者计划让创作激发创新阿里云MVP遇见技术追梦人直播技术交流,直击现场下载下载海量开发者使用工具、手册,免费下载镜像站极速、全面、稳定、安全的开源镜像技术资料开发手册、白皮书、案例集等实战精华插件为开发者定制的Chrome浏览器插件探索云世界新手上云云上应用构建云上数据管理云上探索人工智能云计算弹性计算无影存储网络倚天云原生容器serverless中间件微服务可观测消息队列数据库关系型数据库NoSQL数据库数据仓库数据管理工具PolarDB开源向量数据库热门Modelscope模型即服务弹性计算云原生数据库物联网云效DevOps龙蜥操作系统平头哥钉钉开放平台大数据大数据计算实时数仓Hologres实时计算FlinkE-MapReduceDataWorksElasticsearch机器学习平台PAI智能搜索推荐人工智能机器学习平台PAI视觉智能开放平台智能语音交互自然语言处理多模态模型pythonsdk通用模型开发与运维云效DevOps钉钉宜搭支持服务镜像站码上公益

开发者社区

人工智能

文章

正文

90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)

2023-01-18

647

版权

版权声明:

本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《

阿里云开发者社区用户服务协议》和

《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写

侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

简介:

视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。

游客iigf2m33ba53k

目录

热门文章

最新文章

为什么选择阿里云什么是云计算全球基础设施技术领先稳定可靠安全合规分析师报告产品和定价全部产品免费试用产品动态产品定价价格计算器云上成本管理解决方案技术解决方案文档与社区文档开发者社区天池大赛培训与认证权益中心免费试用高校计划企业扶持计划推荐返现计划支持与服务基础服务企业增值服务迁云服务官网公告健康看板信任中心关注阿里云关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务售前咨询:95187-1售后服务:400-80-13260法律声明及隐私权政策Cookies政策廉正举报安全举报联系我们加入我们阿里巴巴集团淘宝网天猫全球速卖通阿里巴巴国际交易市场1688阿里妈妈飞猪阿里云计算AliOS万网高德UC友盟优酷钉钉支付宝达摩院淘宝海外阿里云盘饿了么© 2009-2024 Aliyun.com 版权所有 增值电信业务经营许可证: 浙B2-20080101 域名注册服务机构许可: 浙D3-20210002 京D3-20220015浙公网安备 33010602009975号浙B2-20080101-4

深度学习中的目标追踪概述(VOT in DeepLearning) - 简书

中的目标追踪概述(VOT in DeepLearning) - 简书登录注册写文章首页下载APP会员IT技术深度学习中的目标追踪概述(VOT in DeepLearning)零维_BUPT关注赞赏支持深度学习中的目标追踪概述(VOT in DeepLearning)什么是目标追踪(Visual Object Tracking)?

跟踪就是在连续的视频帧中定位某一物体。

• 跟踪VS检测

1.跟踪速度比检测快

当你跟踪在上一帧中检测到的对象时,你会非常了解目标的外观。你也知道在前一帧中的位置和它的运动的方向和速度。因此,在下一帧中,可以使用所有这些信息来预测下一帧中目标的位置,并对对象的预期位置进行小范围搜索,以准确定位目标。因此,在设计高效的系统时,通常在每n帧上运行对象检测,而在其间的n-1帧中采用跟踪算法。

2.当检测失败时跟踪来帮助

3.跟踪保留身份信息

目标检测的输出是包含目标的矩形数组。 但是,没有标识附加到对象。

• 几大难点外观变形,光照变化,快速运动和运动模糊,背景相似干扰:

平面外旋转,平面内旋转,尺度变化,遮挡和出视野等情况:

• 数据集• OTB50 & OTB100  (2013)涉及到灰度图像和彩色图像,均可以免费下载,涉及到目标跟踪的11个属性,包括光照变化、尺度变化、遮挡、形变、运动模糊、快速运动、平面内旋转、平面外旋转、出视野、背景干扰、低像素。

OTB 50数据集

• VOT2013 - VOT2018 (竞赛数据集,Each Year)每年公开的60个序列,官方会对公开序列的前10名在隐藏数据集上测试,从而选出最终的winner,难度高于OTB。

VOT竞赛数据集

• 评价指标

1、平均重叠期望(EAO)是对每个跟踪器在一个短时图像序列上的非重置重叠的期望值,是VOT评估跟踪算法精度的最重要指标。

2、准确率(Accuracy)是指跟踪器在单个测试序列下的平均重叠率(两矩形框的相交部分面积除以两矩形框的相并部分的面积。(MeanIOU)

3、鲁棒性(Robustness)是指单个测试序列下的跟踪器失败次数,当重叠率为0时即可判定为失败。

具体看一下这张图就能明白:

EAO的含义

目标追踪的算法分类(Common Methods)• 生成(generative)模型方法生成类方法,在当前帧对目标区域建模,下一帧寻找与模型最相似的区域就是预测位置,比较著名的有卡尔曼滤波,粒子滤波,mean-shift等。举个例子,从当前帧知道了目标区域80%是红色,20%是绿色,然后在下一帧,搜索算法到处去找最符合这个颜色比例的区域。算法效果并不理想,因此现在用的很少。•判别(discriminative)模型方法

OTB50里面的大部分方法都是这一类,经典套路,图像特征+机器学习。

当前帧以目标区域为正样本,背景区域为负样本,机器学习训练分类器,下一帧用训练好的分类器找最优区域。

与生成类方法最大的区别,是分类器训练过程中用到了背景信息,这样分类器专注区分前景和背景,判别类方法普遍都比生成类好。

  经典判别类方法有Struck和TLD(Performace well in long-term task)。 判别类方法的最新发展就是相关滤波类方法,correlation filter简称CF,或discriminative correlation filter简称DCF,和深度学习(Deep ConvNet based)类方法,而DCF+CNN的做法成为最近VOT刷榜的标配。2018年的VOT,基于全卷积孪生网络(SiamNet)的方法大崛起,凭借超越DCF方法的准确度和端到端训练的优势,成为目标追踪新的研究方向。

CF算法示意图

下图是GitHub上发布的2018VOT系统分支结构,上述算法都含在其中了。

北京飞搜科技&北京邮电大学代表队提交的结果(CFWCR)获得VOT 2017竞赛公开的60个评测序列中第二名。方法基于业界流行的相关滤波的框架,使用了单CNN特征的多尺度追踪方案。现有很多追踪器融合了CNN特征和传统的机器学习特征,如hog特征,CN颜色特征等。在他们的实验中,发现CNN的浅层特征具有物体轮廓的信息,高层的深度特征具有物体的语义信息,将CNN的浅层和高层特征进行融合,能使追踪器具有很好的性能。

VOT 2018 内测结果

· 相关滤波算法(CF)Correlation Filter 最早应用于信号处理,用来描述两个信号之间的相关性,或者说相似性,对于两个数据 f 和g,则两个信号的相关性为:

其中 f∗表示 f 的复共轭,这是和卷积的区别(相关性 与 卷积 类似,区别就在于里面的共轭)。对于图像来讲,问题描述为要找到一个 滤波模版 h,与输入图像 f 求相关性,得到相关图 g。

模板与图形的相关运算

为了加快计算速度,这里引入了傅里叶变换,根据卷积定理(correlation版本)可知,函数互相关的傅里叶变换等于函数傅里叶变换的乘积:

CF的流程图

· HCF(CF+CNN,Since 2015)2015开始,深度学习开始进军跟踪领域,使用深度学习可以更好的提取目标的特征,对目标进行更好的表达。低层特征有较高的分辨率能够对目标进行精准的定位,高层特征包含更多的语义信息,能够处理较大的目标变化和防止跟踪器漂移,能够对目标进行范围定位。但是深度学习的缺点就在于网络的训练和速度,即使如HCF等使用离线的训练速度仍然慢。

深度学习+CF

· SiamFC(Pure CNN)

SiamFC的结构

上面一支可以看做是一个模板。其中z是第一帧所给出的目标框,φ 表示一种特征提取方法,SiamFC提取的是深度特征,经过全卷积网络后得到一个6X6X128的feature map φ(z)。

下面一支x可以看为当前帧的搜索区域,同样提取了深度特征之后得到一个22X22X128的feature map φ(x)。

两支的交汇是一个互相关层,可以看成是φ(z)在φ(x)上滑动搜索,最后得到一个响应图,图上最大值对应的点就是算法认为的目标中心所在位置。

· FlowTrack《End-to-end Flow Correlation Tracking with Spatial-temporal Attention》(2018CVPR,商汤)阅读笔记

背景:

①DCF方法很火(KCF、SAMF、LCT、MUSTer、SRDCF、CACF),但是  应用人工设定的特征使得这一类算法精度鲁棒性都较差;

② 受深度学习影响,很多结合CNN的算法(DeepSRDCF、HCF、SiamFC)出现,它们都只应用到当前帧的信息而很少关注帧间存在的互信息,并  且CNN的机制导致了tracker在目标遇到运动模糊或者部分遮挡的时候,  性能只能依靠离线train的特征的质量,鲁棒性很难保证。

③ 尽管一些追踪器用到了光流特征,但是这些模型是离线的,非端到端  的,所以结果是非最理想的。

  本文提出FlowTrack网络,应用到flow information和appearance features,有机结合到端对端的网络中,在VOT2015和VOT2016任务中,EAO属性排名第一,速度为12FPS。

FlowTrack的网络架构

结构是一个基于Siamese的双流训练网络。分为historical branch和current branch. 在historical branch里面,进行Flow的提取和warp操作融合阶段,作者设计了一种spatial-temporal attention的机制。 在current branch,只提取feature. Siamese结构两支出来的feature送进DCF layer, 得到相应输出。 总结来说,他们把Flow提取,warp操作,特征提取和融合,CF tracking都做成了网络的layer,端到端地训练它们。其中需要注意的是,wrap是指的是一种点到点的映射关系,实现flownet出来的光流图到高阶特征的映射。在从t-1到t-n的特征融合阶段,设计了一种spatial-temporal attention的机制。在spatial attention中,是对空间位置上每一个待融合的点分配权重,具体采用余弦距离衡量,结果就是和当前帧越相似分配的权重越大,反之越小;这么做的问题是当前帧的权重永远最大,所以本文借鉴SENet的思想进而设计了temporal attention,即把每一帧看做一个channel,设计一个质量判断网络。(1)跟踪使用的特征由Feature CNN提取;Feature CNN:由三个卷积层构成(3x3x128, 3x3x128, 3x3x96)。

特征提取

(2)光流信息由FlowNet提取;FlowNet:2015年被提出,是用来提取光流场的深度网络,9层卷积。

FlowNet的9层光流提取模型

 (3) Warp操作按特征通道进行:

其中m表示通道,p表示原始图像上点的坐标,δp表示点的光流,q表示特征图上点的坐标,K是双线性插值核。

 (4)Spatial-temporal attention给各通道特征赋予权值;                           Spatial attention + Temporal attention                                      空间             +            时间

时空提取attention模块

Spatial 的提取:

计算Spatial attention,并融合特征。其中上标e表示通过Bottleneck结构(降维到特定空间)找到的嵌入层特征,p表示原始Feature map上的点坐标。总的来说,这个部分的物理意义是,对与t-1帧特征不相似的特征赋予低权重,反之,与其相似的赋予高权重。

temporal的加入:Spatial Attention的问题是当前帧的权重永远最大,解决方法引入Temporal 机制,设计一个质量判断网络:从Spatial attention输出来的权重map,输入Temporal attention结构,经过一个类似SE-Net(ImageNet Classification Champion,2017,Momenta)的结构,得到通道重要性权值,可以看作是对Spatial attention的二次调整。

实验结果

多策略的对比

VOT 2016 1st

VOT 2017 2rd

可以看出提升效果相对于传统的CF还是很明显的,虽然2018年rank不到top 5,但是提供了我们一种新颖的思路,以后可以多多学习一波。 ©著作权归作者所有,转载或内容合作请联系作者 人面猴序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...沈念sama阅读 145,261评论 1赞 308死咒序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...沈念sama阅读 62,177评论 1赞 259救了他两次的神仙让他今天三更去死文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...开封第一讲书人阅读 96,329评论 0赞 214道士缉凶录:失踪的卖姜人 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...开封第一讲书人阅读 41,490评论 0赞 184港岛之恋(遗憾婚礼)正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...茶点故事阅读 49,353评论 1赞 262恶毒庶女顶嫁案:这布局不是一般人想出来的文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...开封第一讲书人阅读 39,028评论 1赞 179城市分裂传说那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...沈念sama阅读 30,611评论 2赞 276双鸳鸯连环套:你想象不到人心有多黑文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...开封第一讲书人阅读 29,383评论 0赞 171万荣杀人案实录序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...沈念sama阅读 32,749评论 0赞 215护林员之死正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...茶点故事阅读 29,460评论 2赞 219白月光启示录正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...茶点故事阅读 30,814评论 1赞 232活死人序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...沈念sama阅读 27,255评论 2赞 215日本核电站爆炸内幕正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...茶点故事阅读 31,752评论 3赞 214男人毒药:我在死后第九天来索命文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...开封第一讲书人阅读 25,685评论 0赞 9一桩弑父案,背后竟有这般阴谋文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...开封第一讲书人阅读 26,114评论 0赞 170情欲美人皮我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...沈念sama阅读 33,747评论 2赞 234代替公主和亲正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...茶点故事阅读 33,901评论 2赞 238推荐阅读更多精彩内容Faster R-CNN论文翻译——中英文对照文章作者:Tyan博客:noahsnail.com | CSDN | 简书 声明:作者翻译论文仅为学习,如有侵权请...SnailTyan阅读 8,784评论 0赞 16【科普】Deep Learning回顾:之基于深度学习的目标检测`来源:机器人2025 作者:程序猿研究团队 引言 普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类...Major术业阅读 4,962评论 0赞 18Deformable Convolutional Networks论文翻译——中英文对照文章作者:Tyan博客:noahsnail.com | CSDN | 简书 声明:作者翻译论文仅为学习,如有侵权请...SnailTyan阅读 4,910评论 1赞 3【深度学习】视频行为检测&分类方案整理主流几类方案 Two-stream [2014] Large-scale Video Classification...bit_teng阅读 24,392评论 6赞 14薛皓中的自我介绍大家好,我叫薛皓中,九岁已有余,十岁尚不足。我是一个热心开朗的大男孩! 打枪--这是我的一个爱好,我的枪法非常准,...素馨花薛皓中阅读 664评论 1赞 1评论1赞55赞6赞赞赏更

实验室团队获 ECCV 2022 视觉目标跟踪竞赛(VOT 2022)两个赛道冠军-- 智能信息处理重点实验室网站

实验室团队获 ECCV 2022 视觉目标跟踪竞赛(VOT 2022)两个赛道冠军--

智能信息处理重点实验室网站

中国科学院

所主站

网站首页

实验室概况

实验室简介

实验室领导

学术委员会

研究团队

实验室风貌

地理位置

新闻动态

科研动态

学术活动

实验室新闻

研究团队

机器学习与数据挖掘研究组

大规模知识处理研究组

跨媒体计算课题组

生物信息学研究组

视觉信息处理与学习研究组

图形学与可视化研究组

医疗影像、机器人与分析计算(MIRACLE奇迹)研究组

知识网格研究组

智能科学研究组

自然语言处理研究组

人才队伍

人员

人员介绍

研究员

客座研究员

副研究员

助理研究员

博士后

工程师

行政助理

曾任职人员

荣誉

科研成果

专利

获奖

软件著作权

论文发表

2023

会议

期刊

2022

会议

期刊

2021

会议

期刊

2020

会议

期刊

2019

会议

期刊

2018

会议

期刊

2017

会议

期刊

2016

会议

期刊

2015

会议

期刊

2014

会议

期刊

2013

会议

期刊

2012

2011

2010

2009

2008

2007

2006

2005

2004以前

研究生培养

招生信息

导师

博士生导师

硕士生导师

学生

在读博士生

在读硕士生

毕业生

荣誉及奖励

导师获奖

学生获奖(所外)

学生获奖(所内)

您当前的位置:

首页 >

新闻动态 > 科研动态

新闻动态

科研动态

学术活动

实验室新闻

科研动态

实验室团队获 ECCV 2022 视觉目标跟踪竞赛(VOT 2022)两个赛道冠军

发布时间: 2022-11-02

【 

 】

2022年10月24日,在ECCV 2022会议上,实验室团队获得视觉目标跟踪竞赛(VOT 2022)两个赛道的冠军。VOT竞赛是视觉目标领域最有影响力的竞赛,自2013年起每年在国际会议ICCV或ECCV上举办,持续推动视觉目标跟踪领域的发展。目前竞赛包括短时跟踪(矩形框及分割掩膜标注)、实时跟踪、长时跟踪等多个不同赛道。任务的目标是在视频第一帧给定需要跟踪的物体,算法在后续视频每一帧中找到对应目标。实验室团队(硕士生叶博涛、常虹研究员、马丙鹏副教授、山世光研究员、陈熙霖研究员)参加了该竞赛,在他们发表在ECCV 2022的跟踪模型OSTrack的基础上添加额外的时序信息,在保证实时性的前提下,进一步提升了模型应对干扰物的能力。最终,团队获得了矩形框标注下实时跟踪(RTb)和矩形框标注下短时跟踪(STb)两个赛道的冠军。   团队获奖证书

附件:

上一篇:

实验室2篇论文被AAAI 2023接收

下一篇:

实验室8篇论文被EMNLP 2022接收

版权所有©2022 智能信息处理重点实验室 京ICP备05002829号-1 京公网安备1101080060号

地址:北京市海淀区中关村科学院南路6号

电话:86-10-62601166 邮箱:ictoffice@ict.ac.cn

VOT Challenge

ChallengeHomeChallengesSupportPublicationsThe VOT challenges provide the visual tracking community with a precisely defined and repeatable way of comparing short-term trackers as well as a common platform for discussing the evaluation and advancements made in the field of visual tracking.

The goal of the challenges is to build up a repository of considerable benchmarks and to organize workshops or similar events in order to push forward research in visual tracking.

Challenges

Challenges and workshops that we have organized or are organizing.

To commemorate 10 years of VOT challenges, the VOT Innitiative has set up a short online exhibition.

Support

A collection of documentation and tutorials on various topics.

News

Announcing VOTS2024!

We are pleased to announce that the activities for VOTS2024 are well underway! The following three challenges are planned:

VOTS2024 challenge - Continuation of the VOTS2023 challenge. The task is to track one or more general targets over short-term or long-term sequences by segmentation. The VOTS evaluation server will be used for submission.

VOTSt2024 challenge - A new challenge this year considers general objects undergoing a topological transformation, such as vegetables cut into pieces, machines disassembled, etc. It will be based on the recent VOST dataset and will use the same evaluation methodology as VOTS2024. The VOTS evaluation server will be used for submission.

VOTS-GenArt2024 challenge - Continuation of the VOTS-GenArt2023 challenge aimed at showcasing creativity and artistic flair of the tracking community in the era of generative computer vision. The task is to generate VOTS-related images or short video clips using generative models. Submissions on the VOT X/Twitter channel.

Important dates

13th of May, 2024 - All challenges open

23rd of June, 2024 - VOTS2024 & VOTSt2024 results submission deadline

13th of July, 2024 - VOTS2024 & VOTSt2024 winners announcement

8th of August, 2024 - VOTS-GenArt2024 closes

30th of September, 2024 - VOTS2024 workshop (pending acceptance of the WS proposal)

Contacts

X/Twitter: https://twitter.com/votchallenge

Mailing list: subscribe by sending an empty email.

Citing VOT Challenge

When using any of VOT benchmarks in your paper, please cite the VOT journal paper as well as the relevant VOT workshop paper describing the relevant benchmark.

@article {VOT_TPAMI,

author = {Matej Kristan and Jiri Matas and Ale\v{s} Leonardis and Tomas Vojir and Roman Pflugfelder and Gustavo Fernandez and Georg Nebehay and Fatih Porikli and Luka \v{C}ehovin},

journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},

title={A Novel Performance Evaluation Methodology for Single-Target Trackers},

year={2016}, month={Nov}, volume={38}, number={11}, pages={2137-2155},

doi={10.1109/TPAMI.2016.2516982}, ISSN={0162-8828}

}

Do you want to stay informed?

If you want to stay informed about the future VOT activities you can subscribe to our news mailing list or follow us on

Twitter. If you are interested in the toolkit and technical aspects, subscribe to VOT support forum.

 The website of the VOT challenges is hosted on the servers of the Academic and Research Network of Slovenia (ARNES).VOT Challenge. © 2013-2023. All rights reserv

VOT_百度百科

百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心收藏查看我的收藏0有用+10VOT播报讨论上传视频语言术语本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!VOT,英文全称为voice onset time,中文有“嗓音起始时间”、“浊音起始时间”、“发声起始时间”、“声带震动起始时间”等各色缤纷的译法,大抵翻译仅襄阐释不做正名,称呼提举处多直引字母缩略形VOT。VOT的具体含义也不完全与字面吻合,其实际所指为:某一辅音从除阻的一刻到声带开始震动,中间所经过的时间。元音后的塞音也可以计算 VOT(voice offset time)。中文名嗓音起始时间外文名voice onset time简    称VOT含    义辅音从除阻到声带震动的时间目录1语种差别2类型3差别实例语种差别播报编辑嗓音起始时间通常是指破裂音除阻到声带振动起始点之间经历的时间。普通话不送气清塞音的 VOT 约 0~5、6 毫秒,送气清塞音的 VOT 约 50 毫秒。典型的浊塞音声带振动起始时间在破裂之前,用负值表示,例如俄语约 -100 毫秒。上海话所谓浊辅音的 VOT 大约等于 0 。英语浊辅音跟上海话差不了多少,绝对值比俄语短多了。朝鲜语塞音不但有送气不送气,而且还有紧辅音,VOT 有三个等级。英语 speak 与 peak 中 p 的差别也是 VOT 的差别。俄语清塞音的 VOT 比较自由,在相当于汉语不送气与送气范围之间游移,它一般都要比汉语不送气的多送一点“气”(它不是肺部呼出气流,只是声门闭合、辅音闭合部为打开前,口腔内部压力大于唇部外大气压力,然后除阻造成的气流)。各语种的人可能有不同的范畴感觉。类型播报编辑三种主要的塞音发声类型可以从VOT角度进行分析:1.单纯的不送气的无声(非响音的)塞音,有时也称作无声爆破音——中文习称为全清音。其VOT长度等于或近似于零,也就是说几乎在除阻的同时,后接的响音(比如元音)即开始发音。(好比塞音[t],如果其消退时间为15ms,或者如塞音[k],30ms,则认为它们是无声爆破音)2.后接响音的送气塞音,其VOT比全清音的要长,称作爆破VOT。爆破VOT的长度是衡量送气程度的实用指标:VOT越长,送气就越强。比如,在强送气的纳瓦霍语中,送气的持续时间是英语的两倍:[kʰ]的VOT值两者分别为160ms 和 80ms,而英语不送气[k]的VOT却只有45ms。另一些语言中也有比英语更弱的送气音。概括地说,以软颚塞为例,不送气[k]的典型VOT在20-30 ms之间,弱送气的的参考值为50~60ms,中等送气[kʰ]平均约为80~90ms,而拥有超过100ms甚至更长VOT的音则视作强送气音。呼吸音,通常也称作送气浊音,为了将VOT用作分析浊送气音的指标,须将VOT中的O——Onset(起始)——理解为开始发呼吸浊音[ɦ]的一刹那。当然,送气辅音不一定都有后续的响音,但VOT是以响音的起始来定义的,就是说在这种情况下送气的强度是不能用VOT来衡量的。3.浊塞音的出奇之处在于它拥有小于0的VOT值,VOT的负值意味着声带在除阻之前就开始了震动。术语完全浊塞音是指声带恰好在成阻的一刹那开始震动,而不完全浊塞音则是指在持阻阶段中的某一时刻声带开始震动。由于送气和有声(声带震动)都不是绝对的概念,允许有不同程度的中间值存在,所以我们常常会用相对的术语“强”(fortis)和“弱”(lenis)来描述呈二元对立的两个辅音系列。将VOT高的界定为“强辅音”,将VOT低的界定为“弱辅音”。当然,强弱都是相对而言的,不同的语言里强弱的涵盖可以迥乎不同。清浊对立可以应用于所有类型的辅音,而送气却是塞音和塞擦音才有的特征。差别实例播报编辑强送气:特领吉语,纳瓦霍语,朝鲜语。(强)中等送气:英语,粤语,泰语,亚美尼亚语。弱送气:纳瓦霍语,朝鲜语。不送气:粤语,特领吉语,朝鲜语,西班牙语,南部日语,泰语,亚美尼亚语↓。不完全浊音:吴语,英语(弱)。完全浊音:西班牙语,南部日语,北部日语,泰语,亚美尼亚语。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

如何将跟踪算法在vot上测试? - 知乎

如何将跟踪算法在vot上测试? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册计算机视觉如何将跟踪算法在vot上测试?学习了kcf算法,但是不知道该如何使用vot数据库来测试它的各个性能指标?关注者13被浏览7,715关注问题​写回答​邀请回答​好问题​添加评论​分享​4 个回答默认排序邹同学​ 关注把下面这些教程整合一下,就差不多了。发布于 2019-12-03 20:00​赞同 4​​3 条评论​分享​收藏​喜欢收起​吴晗视频图像处理​ 关注我用vot-2016ir加载跟踪器,但是在trax那里跑不通了,这个trax是环境配置的时候用到的,不知道为什么总是通不过,大家有遇到过这个问题吗?“错误使用 traxclientDid not receiveresponse.”发布于 2017-09-17 10:17​赞同 3​​7 条评论​分享​收藏​喜欢收起​​