1 动作识别Action Recognition最重要的问题

引用一下Human Action Recognition and Prediction: A Survey中一段话,我觉得总结的比较到位。

The first and the foremost important problem in action recognition is how to represent an action in a video. Human actions appearing in videos differ in their motion speed, camera view, appearance and pose variations, etc, making action representation a really challenging problem. A successful action representation method should be efficient to compute, effective to characterize actions, and can maximize the discrepancy between actions, in order to minimize the classification error.
One of the major challenges in action recognition is large appearance and pose variations in one action category, making the recognition task difficult. The goal of action representation is to convert an action video into a feature vector, extract representative and discriminative information of human actions, and minimize the variations, thereby improving the recognition performance.

动作识别中的首要的也是最重要的问题是如何表示视频中的动作。视频中出现的人类动作在运动速度、摄像机角度、外观和姿势变化等方面有所不同,这使得动作表示成为一个极具挑战性的问题。一个成功的动作表示方法应该能够高效地计算、有效地描述动作,并且能够最大化动作之间的差异,以最小化分类误差。
动作识别的主要挑战之一是一个动作类别中的诸多外观和姿态变化,这使得识别任务变得困难。动作表示的目标是将动作视频转换为特征向量,提取人类动作的代表性和区分性信息,并最小化变化,从而提高识别性能。

确实,与视频对应的多媒体数据就是语音了,语音识别在特征提取上进行了诸多的研究,直到出现被大家都接受的MFCC和Fbank特征提取方法,这种符合语音数据特征提取方法使得语音识别深度学习模型端到端训练成为可能,并成功实现了语音识别工业化以及产品应用落地,并日渐影响我们的日常生活。

所以对于近几年新兴的Video Recognition、Action Recognition任务,如何从多变背景的视频准确提取人物背景特征,对实现识别任务的高准确率非常重要。希望通过不断的研究可以出现类似于语音识别比较公认的快速并准确的视频运动特征提取方法。