计算机视觉中几种典型的物体表达理论

发布时间：2020-7-18
分类：行业技术
阅读：2,951

几种典型的物体表达理论（Object representation theories）

正像前面所述，物体表达是计算机视觉的一个核心科学问题。这里，“物体表达理论”与“物体表达模型”需要加以区别。“表达理论”是指文献中大家比较认可的方法。“表达模型”容易误解为“数学上对物体的某种描述”。计算机视觉领域，比较有名的物体表达理论有以下三种：

1）马尔的三维物体表达

前面已经介绍过，马尔视觉计算理论认为物体的表达是物体坐标系下的三维表达

2）基于二维图像的物体表达（View-basedobject representation）

尽管理论上一个三维物体可以成像为无限多不同的二维图像，但人的视觉系统仅仅可以识别“有限个图像”。鉴于神经科学对于猴子腹部通道（ventral pathway）(注：腹部通道认为是物体识别通道)的研究进展，T. Poggio 等提出了基于图像的物体表达（Poggio & Bizzi, 2004），即对一个三维物体的表达是该物体的一组典型的二维图像（view）。目前，也有人认为 Poggio等的”view”不能狭义地理解为二维图像，也包含以观测者为坐标系下的三维表示，即马尔的2.5维表示（Anzai & DeAngelis，2010）。

3）逆生成模型表达（Inversegenerative model representation ）

长期以来，人们认为物体识别模型为“鉴别模型”（ discriminative model），而不是“生成模型”（ generative model ）。近期对猴子腹部通道的物体识别研究表明，猴子大脑皮层的IT 区（ Inferior Temporal: 物体表达区域）可能在于编码物体及其成像参数（如光照和姿态，几何形状，纹理等）（Yildirim et al. 2015）（Yamins &DiCarlo，2016b.）。由于已知这些参数就可以生成对应图像，所以对这些参数的编码可以认为是逆生成模型表达。逆生成模型表达可以解释为什么深度学习中的Encoder-decoder 网络结( Badrinarayanan et al. 2015) 可以取得比较好的效果，因为Encoder本质上就是图像的逆生成模型。另外，深度学习中提出的“逆图形学”概念（ Inverse Graphic）( Kulkarniet al. 2015),从原理上也是一种逆生成模型。逆图形学是指先从图像学习到图像生成参数，然后把同一物体在不同参数下的图像归类为同一物体，通过这种“等变物体识别”(Equivariant recognition) 来达到最终的“不变物体识别”（invariantrecognition）。

总之，本文对计算机视觉的理论、现状和未来发展趋势进行了一些总结和展望，希望能给读者了解该领域提供一些帮助。特别需要指出的是，这里很多内容也仅仅是笔者的一些“个人观点”和“个人偏好”下总结的一些内容，以期对读者有所帮助但不引起误导。另外，笔者始终认为，任何一门学科的核心关键文献并不多，为了读者阅读方便，所以本文也仅仅给出了一些必要的代表性文献。（来源：网络）

行业技术

计算机视觉中几种典型的物体表达理论

视觉动态

机器视觉行业最新动态大揭秘！

机器视觉行业最新趋势大揭秘！

如何通过卷积神经网络实现实时视觉检测

相关知识

导航链接

应用案例

联系方式

在线客服

行业技术

计算机视觉中几种典型的物体表达理论

视觉动态

机器视觉行业最新动态大揭秘！

机器视觉行业最新趋势大揭秘！

如何通过卷积神经网络实现实时视觉检测

推荐阅读

深度学习视觉检测系统

如何结合机器视觉进行语音与视觉的协同交互

机器视觉如何实现对人员流动的实时统计

视觉检测中的工业相机和普通相机的有什么不同？

相关知识

在线客服