微软AR/VR专利分享修复具有光吸收表面的对象的图像深度值

2023年11月02日 11:55:41 来源：映维网

　　XR系统可以使用深度图像来显示或重建三维环境。图像捕获设备可以使用红外IR技术或其他基于光的技术来确定场景中的深度并创建深度图。例如，摄像头可以使用飞行时间深度传感器。通过测量发射光和反射光之间的相移，可以根据相移确定深度图像中各种像素的深度信息。

　　遗憾的是，飞行时间深度传感器在准确确定场景深度信息方面可能会遇到问题。例如，场景中的对象可能包括由吸收发射光的材料制成的表面，所以飞行时间深度传感器无法清楚地检测或看到反射的光。这种检测和/或可见性的缺乏会导致深度图像中缺失或损坏的深度值。

　　在名为“Repairing image depth values for an object with a light absorbing surface”的专利申请中，微软提出的方法可用于修复具有光吸收表面的对象的图像深度值。

　　图1示出了示例性环境100，其中深度图像修复系统102可以使用导致深度图像中存在损坏或缺失深度值的相应彩色图像，以及可访问的对象三维模型来修复深度图像。深度图像修复系统102包括图像捕获设备104，或者以某种方式连接到图像捕获设备104。

　　图像捕获设备104包括飞行时间ToF深度传感器106和颜色传感器108。图像捕获设备104配置为捕获表示现实世界场景110的帧序列，而场景110包括已知可吸收由ToF深度传感器106发出的光的物理对象。

　　在一个示例中，所述对象是头戴式显示设备112，其中透明遮阳板防止光反射。因此，ToF深度传感器106无法准确地确定与吸收由ToF深度传感器106发出的光的对象区域相关的像素的深度值。

　　为此，可以将颜色传感器108配置为在颜色空间114中生成彩色图像，将ToF深度传感器106配置为在深度空间116中生成深度图像。如图1所示，佩戴头戴式显示设备112的人的彩色图像114不存在任何可见问题。

　　然而，佩戴头戴式显示设备112的人的深度图像116包括位于透明遮阳板的用户眼睛周围的黑孔。最终，这将导致再现不完整的颜色深度图像118。

　　为了解决所述问题，可以将图像捕获设备104或使用图像捕获设备104捕获的图像114、116的应用程序配置为将捕获的图像数据120提供给修复模块122。如上所述，捕获的图像数据120可以包括包含视频的帧序列。

　　在一个示例中，图像捕获设备104是静止的。在另一个示例中，图像捕获设备104是可移动的，使得可以从物理环境中的多个不同视点捕获图像帧。

　　所述修复模块122配置为使用与所述对象相关联的可访问三维模型数据124来修复所述深度图像126，使其不再包括最初捕获的深度图像116中所示的黑孔。因此，可以再现完整的彩色深度图像图像128，而图像128在表示和/或重建头戴式显示设备和/或用户的头和眼睛方面不再有问题。

　　图2示出了在深度图像修复系统102中可用的其他模块。如图所示，深度图像修复系统102获得图像捕获设备104的颜色空间114中的彩色图像和图像捕获设备104的深度空间116中的深度图像。

　　识别和追踪模块202配置为检测所述彩色图像114中的对象112，所述彩色图像114已知包括吸收由所述飞行时间深度传感器106发出的光的区域。

　　在一个实施例中，识别和追踪模块202配置有神经网络204或另一形式的人工智能，其可以检测已知在深度图像中引起上述问题的多个对象中的任何一个。例如，深度神经网络DNN模型可以使用数千甚至数百万个彩色图像帧进行训练，每个图像帧都有单独的注释，以指示已知会导致深度值确定问题的对象的形状、位置和/或方向。

　　一旦检测到，识别和之宗模块202配置为在彩色图像中预测对象的二维点206。这种预测可以通过另一个神经网络来实现。所述二维点206对应于所述对象124的可访问三维模型中预定义的三维点。

　　例如，对象124的三维模型中的三维点是事先手动定义的，并可以是对象124的三维模型上的任何点。它们可以是与吸收由飞行时间深度传感器发出的光的区域的重要/独特角和边缘相关联的点。示例三维模型可以很容易地通过使用计算机辅助设计CAD软件程序生成，所以定义三维点124的三维模型数据可以是三维CAD网格模型。

　　然后将具有二维点206的彩色图像传递给对准模块208，对准模块208配置为将预测算法210应用于彩色图像，以计算该对象在彩色图像212的颜色空间中的三维姿态。

　　所述预测算法210通过定位和/或旋转所述对象124的三维模型，直至所述对象124的三维模型中所述对象上的二维点与所述对象124的三维模型中预定义的相应三维点对齐，从而计算所述对象在所述彩色图像212的颜色空间中的三维位姿。

　　在各种示例中，预测算法210使用六自由度方法来预测对齐。例如，配置Perspective-n-Point 算法来估计图像捕获设备104相对于捕获场景的姿态，并且所述估计可以扩展以将通过可访问的三维网格模型定义的三维landmark与彩色图像中对象的二维landmark对齐。

　　既然对准模块208已经计算了所述彩色图像212中所述对象的预测三维位姿，则变换模块214应用所述彩色图像的颜色空间与所述深度图像的深度空间之间的变换216，以计算所述深度图像218中所述对象的三维位姿。在颜色和深度坐标空间没有相同的原点，并且由于传感器的差异而轴线不是共线的情况下，这个变换216可能是必要的。

　　接下来，深度确定模块220可以使用对象在深度图像218的深度空间中的三维姿态来修复深度图像118中像素的深度值。例如，深度确定模块220可以应用栅格化算法222。其中，所述算法配置为确定图像捕获设备104与深度图像218的深度空间中物体的三维姿态的点之间的距离。

　　在一个实施例中，栅格化算法222将构成三角形的顶点投影到深度平面，并使用特定技术将三角形覆盖的像素填充为新的深度值224。

　　深度确定模块220可以确定在深度图像的深度空间中与对象的三维姿态相关联的像素的新深度值224是否应该取代最初为深度图像118捕获和计算的先前深度值。深度确定模块220可以配置为，如果先前的深度值损坏(例如完全缺失或大于新深度值224)，则将像素的先前深度值替换为新深度值224。

　　因此，可以用更精确的深度值对原始深度图像进行修复。这允许生成改进的RGB-Depth图像。另外，一旦在视频的第一彩色图像帧中检测到所述对象，所述识别和追踪模块202配置为追踪所述视频的后续彩色图像帧中的所述对象。

　　在各种示例中，可以使用不同的神经网络先检测对象，然后追踪对象。微软指出，测试表明，第一个用于检测的神经网络每帧大约需要9毫秒来修复深度值，第二个用于追踪的神经网络(一旦检测到对象)每帧大约需要3毫秒来修复深度值。

　　图3示出如何使用bounding box302将识别和追踪模块202聚焦在彩色图像帧的区域。这使得神经网络204在装逼总彩色图像帧内物体的运动方面能够更有效地操作，因为不需要为追踪目的分析整个图像帧。

　　图4示出用于在颜色坐标空间404和深度坐标空间406之间进行转换的变换函数402，以便可以修复深度图像。在一个示例中，变换函数402包含4×4矩阵乘法，如下所示:pose_in_color_space=pose_in_depth_space*depth_to_color_transform

　　这里，depth_to_color_transform是一个4×4刚性变换，可以从与图像捕获设备104相关的校准信息中派生或检索。

　　在图5示出的示例环境500中，深度图像修复系统102可由多个不同应用502中的任何一个通过应用编程接口504访问。例如，可以将应用程序502配置为从图像捕获设备104获取真实场景508的颜色和深度图像帧506。如上所述，图像帧506可以包括由于场景中的对象吸收由ToF深度传感器106发出的光而损坏的深度数据510。

　　因此，应用502调用深度图像修复系统102，并通过应用编程接口504提交具有损坏深度数据510的图像帧506。深度图像修复系统102配置为修复深度数据，并将修复后的深度数据516返回给应用程序502。