‘壹’ Deep Depth Completion of a Single RGB-D Image
单个RGB-D图像的深度补全
主页: http://deepcompletion.cs.princeton.e/
Github: https://github.com/yindaz/DeepCompletionRelease
Paper: http://deepcompletion.cs.princeton.e/paper.pdf
Goal --complete the depth channel of
an RGB-D image
Problem --Commodity-grade depth cameras often fail to sense depth for shiny, bright, transparent, and distant surfaces
Method --takes an RGB image as input and predicts dense surface normals and occlusion boundaries. Those predictions are then combined with raw depth observations provided by the RGB-D camera to solve for depths for all pixels, including those missing in the original observation
Goal: to complete the depth channel of
an RGB-D image captured with a commodity camera (i.e., fill all the holes) 填充深度图的空缺
以前的depth inpainting (深度修复)方法 使用 hand-tuned(手工调整)来解决,该方法通过 外推边界表面、马尔可夫图像合成;来fill holes
深度网络已经用于depth estimation,但还未用来depth completion,因为有以下几个难点:
对于和 补全的深度图 配对的 捕获的RGB-D图像,这样的大规模训练数据不易获得
这样 depth estimation只能重现 observed depth,不能估计 unobserved 深度信息
本文引入了新数据集,105432张RGB-D 图像,且与在72个真实环境中从大规模表面重建计算出的完整深度图像对应
深度表示
直接用FCN回归depth不work尤其是对图1中缺失那么大的一片区域,因为即使对人类来说,从单眼 color image 估计精确深度也很难啊
所以本文先用网络预测depth的 局部微分属性:表面法线&遮挡边界
以前没有人去训练一个端对端网络去从RGB-D图像补全深度
一个想法是扩展一下前人color to depth 的网络,但是
这里的 不对齐 具体指啥,有空间位置的不对齐吗.有颜色信息的像素不一定有深度信息?
本文是 只将 color image 作为输入,先预测 local surface normals and occlusion boundaries with supervision,因为 从颜色信息预测局部特征是深度网络可以胜任的 。然后通过一个把这些预测和输入depth组合起来的全局优化问题来complete depth
Main Insight
好处:这样做smaller relative error ,网络独立于observed depth,不需要因为新的depth sensors再次训练 ?
depth estimation from a monocular color image 单目彩色图像
Shape-from-defocus
Others
-Old methods
Auto-encoder
GAN
先前的方法没有研究depth images的inpainting,由于depth images缺少鲁棒的特征strong features 和 大规模训练数据,这是比较难的问题
Markov random fields
Shape-from-shading
Segmentation
Dictionary methods
尽管一些方法可以被用来 depth completion,但两者的关注点是不同的。
其他工作已经研究了用稀疏深度测量集增强的彩色图像的深度重建。
但是该研究的motivation是降低一定设置下的传感成本(例如 节省机器人的成本),而不是depth completion
对应于introction提到的三个难点,本文的研究也聚焦于以下三个问题:
但这方法昂贵耗时,这个类型的public dataset只包含少量的 indoor scenes
for example: Matterport3D [6], ScanNet [10], SceneNN [28], and SUN3D[22,67]
这就得到了包含 RGB-D & D* 图像对的数据集!
疑问:多视点的 RGB-D images 的结合 是需要图像之间的 配准regirstration 吧?难道这个得到mesh的过程是原来的数据集现成的?全局表面重建是数据集现有的
参见
由于表面重建以与深度相机的分辨率相当的3D网格尺寸构造,因此在完成的深度图像中通常不会损失分辨率。 然而,当投影到视平面上时,相同的3D分辨率为远离相机的表面提供了有效的更高像素分辨率 。 因此,完成的深度图像可以在渲染高分辨率网格时利用子像素抗锯齿来获得比原始图像更精细的分辨率(请注意图3中家具中的细节)。 WHY
本文的数据集有 117516 RGB-D images with rendered completions:
Training set:105432;Test set:12084
然而difficult to predict absolute depth from monocular images,
本文是预测每个像素的局部属性,表面法线、遮挡边界
why use 表面法线 遮挡边界:
so,的工作在从颜色图像到表面法线的密集预测效果不错 [1,15,34,66,75]
那么,如何从surface normals & occlusion boundary 计算深度:
a) What loss should be used to train the network
two choices: trained only on holes vs all pixels:
trained with rendered normals VS raw normals ?
详见论文附件
对比实验结果:
b) What image channels should be input to the network
实验表明如果用RGB-D作为输入来预测法线,在holes部分像素的预测很差(尽管对于observed pixels work),推测这种网络只是从RGB-D中的depth channel预测normals,所以对于hole就不能work了
图5的结论启发作者仅用color image 预测 surface normals
separating “prediction without depth” from “optimization with depth” is compelling for two reasons:好处
前面的网络预测得到 surface normal image N 和 occlusion boundary image B(==长什么样子?==)
求解一个方程组
目标函数由 四个 平方误差的加权求和
$E_D$ :估计的深度和原始观察到的深度的距离
$E_N$ :预测的深度 和表面法线的一致性 by 切线 点乘 法线
$E_S$ :促使相邻像素有相似的深度值
B: $B ∈ [0, 1] $ down- weights the normal terms based on the predicted probability a pixel is on an occlusion boundary $(B(p))$
==提问:如果在边界, 实际是不满足法线垂直切线,所以减小他的权重 ?极端情况只考虑在遮挡边界的 $E_N$ ??==
==疑问:本来平方误差不就已经是非线性了吗==
目标函数的矩阵形式 是 稀疏 且 对称正定的,所以可使用==a sparse Cholesky factorization [11] 稀疏 Cholesky 分解== 来求解 近似的目标含函数
Evaluation metrics
(以上衡量depth error,下面是衡量surface normals)
table 1展示了不同输入下的结果(表中箭头向上 越大越好;反之,越小越好)
例如 normal 的 median error 17.28 < 23.59;depth的 Rel 0.089<0.09
==补充材料==里还展示了不同loss 设置下(observed only VS unobserved only),这个优势依然存在
作者认为当为observed depth时,网络会学习进行插值而不是在holes合成新的depth。
++这个实验结果促使本文将整个方法 分为两个步骤 two stage system++ !!
表二 注意这里的D是从depth 预测 depth
以Rel为例 N 0.089 < N+DD 0.092 < DD 0.100 < D 0.167。
作者认为由于表面法线只代表了orientation of surfaces ,比较好预测,详见[31];而==且他不随深度的变化而变化,在不同的视图里更一致==
表2 yes 表示有B,No 表示没有down-weights 对比 0.089<0.110,提升约 19%。
occlusion boundaries ==区域的surface normals是 嘈杂,不准确的?== 图6
第2列是网络输出的法线和遮挡边界,第2行第3、4列为 是否有boundary weight 的对比。第1行的3、4列是从输出的深度图计算的surface normal。遮挡(闭塞)边界==提供了深度不连续性信息,有助于保持边界的清晰度/锐度==看从深度计算的法线图
图 7
图像横轴是图像中具有深度的像素的个数(未被masked),左图展示了predicted depth accuracy of observed pixels,右图为predicted depth accuracy of unobserved pixels
显然unobserved 的accuracy 低于 observed;但是只要有一小部分的输入depth(==2000 depths 只占all pixels 的 2.5%==) .这从侧面说明即使是其他depth sensors designs with sparse measurements,也能得到比较客观的预测效果,==也不用重训练网络(网络输入只是颜色啊)== 但是你训练网络时的ground truth normals 来自rendered depth image 啊??如果只做个测试感觉确实不特别依靠raw depth的数目
表3
表中的对比方法分别是 联合双线性滤波、快速双边求解、全局边缘感知能量优化
发现Rel是所有方法中最小的
图8展示了与 联合双线性滤波的比较
图8展示的结果看,本文方法的深度图边界更精确
和color to depth的深度估计方法对比
表 4
本文方法个指标都为最佳,提升23-40%。 Y表示 observed depth N表示 unobserved
这也表明 预测法线 对于深度估计问题也是不错的方法
注意看,不仅预测的深度更准确,而且通过对比计算出的surface normals,说明本文方法学习到了更好的场景几何结构
搭建桥梁沟通了彩色图和深度图信息 桥就是normals!
显而易见,这是一个牺牲时间换取图像质量的游戏
1.速度很慢。
分辨率320x256的图像,使用NVIDIA TITAN X GPU还需要大约0.3秒;Intel Xeon 2.4GHz CPU上大约1.5秒.
2.依赖高性能硬件。难以控制成本
‘贰’ 3d tof传感器什么时候出现的
目前的深度相机有TOF、结构光、激光扫描等几种。主要用于机器人、互动游戏等应用。
其中较多的是指TOF相机,TOF是Time of flight的简写,直译为飞行时间的意思。所谓飞行时间法3D成像,是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。
目前主流的有TOF相机厂商有PMD、MESA、Optrima、微软等几家,其中MESA在科研领域使用较大,相机紧凑性好,而PMD是唯一一款能够在户内、户外均能使用的TOF相机,并且能够具有多种探测距离,可用于科研、工业等各种场合。而Optrima、微软(还不是真正的TOF技术)的相机主要面向家庭、娱乐应用,价位较低。
进一步讨论,请加
‘叁’ 买保姆机器人需要多少钱
Samsung吸尘机器人VC-RP30W
功能:采用最新的3D地图映射技术来确定自己的位置,不像别的智能吸尘机器人使用随机打扫程序来进行打扫。通过安装在房间天花板上的视觉系统,Samsung的机器人能知道哪些地方需要打扫,因而更加智能化,使用者可以根据自身的作息时间来预先设定机器人的工作时间。这样,在家里没人的时候,机器人可以被设定开始自动清洁工作,当你回到家的时候,家里的地板是干干净净的。
参考价格:3000美元
德国RC3000智能清洁机器人
功能:号称世界上第一个智能清洁机器人,扁平的设计使其能够清洁床、沙发、茶几等家具的下部位置。它会随机移动,遇到障碍物时,可自动改变一个角度,继续行走。通过传感器对于污渍的判断,它会在自己“认为”比较脏的地方来回清扫。在遇到楼梯与台阶时,还能自动避开,不会“摔跤”。
参考价格:18000元左右
iRobot的Roomba
功能:可以自己计算所需的清洁时间,机器人可以知道被卡住,并记住路线。机器人一次可以清洁多个房间,会自动检测地面脏污度,并实施重点清洁,随机配备的红外线墙可规定工作空间,专利设计的机器人仿生刷头,甚至可以将地毯和墙角的垃圾灰尘扫除。机器人可以自动判断地面类型,适合各种地板、地毯、人造革等地面。工作中可以探测到楼梯,可避免跌落损坏,可以连续工作120分钟,清洁3-4个房间,快速充电,只要3个小时。
参考价格:200美元
松下吸尘机器人
功能:能避开桌子、衣柜、沙发等房间里的障碍物,依靠安装在侧面的两个轮子自动行走,并使用内置吸尘器收拾垃圾。其功能充分考虑到家中可能存在的不利于机器人行走的因素,如可以避免因地毯花纹影响而偏离方向、在台阶等落差较大的障碍物前自动停下以防摔倒等。同时还可以通过吸尘部位安装的传感器来探测垃圾,发现垃圾后会自动放慢行走速度、加大吸力。
伊莱克斯“三叶虫”吸尘机器人
功能:它具备在复杂多变的家居环境下工作的能力。吸尘器使用超声波探测障碍物,可以在房间中行走最佳路线。吸尘器通过超声波躲避桌椅等障碍物,超声波系统帮助它测量房间的尺寸,但使用者须在房间和楼梯尽头贴上磁条,以阻止机器人前进。据悉,伊莱克斯公司是第一个把吸尘机器人投入批量生产的厂商。
参考价格:999英镑
‘肆’ 用机器人3d治疗三叉神经痛得多少钱
目前治疗三叉神经痛最先进的外科手术叫作显微血管减压术,也是唯一可以根治三叉神经痛的首选方式。手术费用和住院费用在5万左右,具体还有根据患者自身情况,建议去公立三甲医院神经外科接受治疗。
‘伍’ 首台全能扫拖机器人,还能这样玩科沃斯地宝X1 OMNI体验
9月15日,在iPhone 13发布会的同一天,科沃斯于“多维进化”新品发布会上推出了行业第一台全能的扫拖机器人DEEBOT X1 OMNI、全新的AI智能语音助手YIKO、多功能空气净化机器人沁宝Z1等多款新品。
科沃斯地宝X1 OMNI售价5999元, 其卖点太多,在升级到5000Pa吸力、引入全新的拖地系统之外,我们集中讲一下全自动多功能的基站、用上无人驾驶技术的AIVI 3D、扫地机器人上出现的真·语音助手。
像2/3D户型图切换、多Wi-Fi自动切换、5200mAh电池、实时双向语音和视频之类的就不细说了。
因为加入了全自动多功能基站,科沃斯地宝X1 OMNI的包装高度就超过60cm。配合18.7kg的裸重,新机开箱的过程中,脑海只有一句话:这5999不亏。
扫地机器人本体和配件和往常一样封装在一起,出厂配件包括边刷、可水洗拖布、拖布支架。
科沃斯地宝X1 OMNI改用了全新的外观ID,由丹麦设计公司Jacob Jensen Design负责,带有极为鲜明的北欧极简主义风格,专业点叫“雅各布延森”,是北欧B&O同款设计,可以和高端家居装修完美搭配。
新设计让科沃斯地宝X1 OMNI成为市面上外观最高端的扫地机器人。而它的面盖,竟然是磁吸的,第一次看到真是惊到了,不知道后期会不会有其他颜色和形状,甚至是联名款的面盖?
科沃斯地宝X1 OMNI底面边缘有6个下视传感器,万向轮左边是有专门的地毯传感器。整个底面最明显的变化,是后侧的两个拖布支架开孔,边缘的弧是类似鼠标垫脚的润滑材料,中间几个开孔是用于润湿拖布的出水孔。
而科沃斯地宝X1 OMNI背面多了与基站连接用的自动集尘口和水箱注水口,因为底部空间要给拖地功能,充电接口设计在了背面上方。
科沃斯地宝X1 OMNI的轮胎也做了改进,缓冲距离更长,穿越小门槛时会更加从容,在不平整的地板上,姿态也会更平稳一些。
有一说一,丹麦Jacob Jensen Design的设计费没白花。增加自动集尘、水箱注水口、拖布支架等若干部件之后,科沃斯地宝X1 OMNI依然保持简单优雅的外观,像磁吸面盖、磁吸拖布架、高位电极等设计都是很妙的点睛之笔。
科沃斯最近3代产品的吸力,从1500Pa涨到3000Pa,再涨到X1家族的5000Pa。这不能叫打通任督二脉,这属于打穿任督二脉了。
5000Pa吸力,已经无视灰尘或土壤颗粒,甚至螺丝头都能做到“路过不留痕”。科沃斯地宝X1 OMNI这5000Pa吸力,甚至可以用来吸附阳台户外木地板缝隙,一直清理不到的垃圾和灰尘都能搞出来,爽!
全副武装,完全状态的科沃斯地宝X1 OMNI
地宝X1 OMNI这一代改为了双旋转拖布,造型会让人联想起洗车间的大型设备,其在原理和效率上就比传统的单片式拖布要强很多。每分钟180转,配上扫地机器人的自动加压,酱油、茶包、咖啡、可乐,各种老水迹都不在话下。
修改后的拖布支架的设计,是科沃斯地宝X1 OMNI身上最优雅的部分之一。魔术贴+磁吸,魔术贴固定拖布,磁吸连接扫地机器人并自动触发科沃斯地宝X1 OMNI的扫拖一体模式,干净方便,简单舒适。
全自动多功能基站的开箱就是一个大受震撼的过程,基站三维430x448x578mm,类似微缩型的餐边柜大小,但里面集成了自动回洗拖布、基站自清洁、机身补水、集尘、银离子除菌功能,甚至还能热风烘干拖布。
基站顶上的操作面板,有“清洁槽加水/抽水,主机启动/暂停、主机召回/退出”触控按钮,你甚至都不用弯腰就能操控科沃斯地宝X1 OMNI,舒服!
因为顶面完全做平,高度也合适,把基站放在沙发边上当小茶几正合适,平时手机放上面充电或者搁两本书,毫无违和感。
清水箱和污水箱用颜色区分用途,且只有净水箱有水龙头胶塞。两个水箱分别有用于提示换水的“水位过高和水位过低”的门阀结构。水槽之间,科沃斯还不忘做个清洁剂和伸缩清洁刷的收纳盒。
水箱容积4L,实测能清洗拖布大概40到50次左右。测试户型是60平左右,科沃斯地宝X1 OMNI大概3到4天会提示换水。系统提供了间隔10分钟、15分钟和25分钟的三个拖布回洗的档位。除非是经历了多人聚会,否则日常使用选25分钟足矣。
水箱之下,是按键弹出式的集尘仓。集尘袋容积2.5L,官标正常使用可以月抛,带锁尘滑块。从使用到换尘袋,全程到不会碰到灰尘,awesome,这才是好文明。
基站的背面铭牌下方,是银离子除菌模块(模块在官方实验中有99.9%的除菌率),净水箱的水,会先经过银离子除菌模块才加注到到地宝X1 OMNI,而且模块还是可更换的,环保。
科沃斯地宝X1 OMNI技术含量最高的部分,依然前方的结构光和视觉识别模块,以及顶上的TrueMapping激光扫描模块。正面从左到右是摄像头工作指示灯、TrueDetect 3D结构光传感器、AIVI视觉识别传感器。
除了全自动的多功能基站,拯救了万千懒人用户之外。科沃斯这一代做了类似无人驾驶 汽车 的视觉识别方案,让地宝X1 OMNI变成了“视觉识别+激光”方案的扫地机器人。
科沃斯地宝X1 OMNI用的是无人驾驶 汽车 上同款的边缘人工智能计算平台,搭载的旭日3 AI芯片在2.5W功耗下,可以做到416FPS的AI性能,等效算力达到5TOPS。这是什么概念?这恰巧是苹果A12的AI算力水平,而当年集成寒武纪AI芯片的麒麟980也只有3.84TOPS。
科沃斯在扫地机器人上用了满足车规级L2+辅助驾驶计算需求的计算平台,简直就是降维打击,让科沃斯地宝X1 OMNI可以提供16倍于前代的算力,宣称单帧准确度提升20%,速度提升20倍,可以识别15种物体类别。除了芯片,科沃斯还高了自研的RGB-D彩色-深度传感器(最出名的例子是微软Kinect)。
科沃斯从技术和命名上,把自家的TrueDetect 3D的深度和AIVI视觉检测,融合成了“AIVI 3D”。在前两代的T8和T9系列上,科沃斯已经是扫地机器人避障最强的厂商,T9就已经能根据物体类型控制避障和围绕的距离,科沃斯地宝X1 OMNI上的AIVI 3D颇有晋级去其他赛道玩的意味。
使用中,科沃斯地宝X1 OMNI的地图构建方式已经和以前不同了。科沃斯地宝X1 OMNI现在只需要在目标区域中间走一段路,无需进行边缘探路,就已经能完成快速建图。在3米 x 6米的测试空间中,科沃斯地宝X1 OMNI几十秒就完成建图。这里限制建图速度的,其实是科沃斯地宝X1 OMNI的运动速度,而不是传感器和AI芯片的性能了。
要不是亲身用过,根本不知道AI芯片还能帮忙做这么多幕后工作,X1 OMNI已经很大程度上脱离了大众对于扫地机器人的传统认知了。
科沃斯地宝X1 OMNI的dToF激光雷达传感器上,集成了3个麦克风,通过“OK,YIKO”唤醒,实测“广普”和“塑料英语”都能正常识别。
其实际语音体验和常见智能音箱无异,5米外正常音量也能唤醒、支持打断唤醒(其在回复时可以打断对话),接入的是网络智能云的库,问天气、地标规格、简单的十万个为什么都OK。Surprise!扫地机器人里竟然会有个真正的语音助手。
YIKO语音助手更实际的用途,其实是用语音操作解放双手和app。科沃斯地宝X1 OMNI能用语音助手查询/修改清洁模式、吸力/水量档位、区域控制等几乎所有app上有的功能,而且能听懂“快速建图、去扫一下卧室”等自然语句,体验提升立竿见影,比嘴炮都不利索的Siri要实用多了:
在语音操作时,才能体会到“饼型哈士奇”终于配得起“机器人”这三个字了。扫地机器人突然进化这么多,我都怀疑自己是不是穿越了?中间是不是错过了几款迭代产品?
在T8和T9打好建图、避障、拖地的基础之后,科沃斯把地宝X1 OMNI的目标提升到全自动化和智能化。
通过全自动多功能基站和新拖地系统的引入,科沃斯地宝X1 OMNI做到真正的扫拖一体之外,只需要每隔几天换水、每个月换集尘袋,用户无需弯腰去操作和维护扫地机器人的本体,已接近无接触式的全自动化。
而智能化这边,更是把抛离同行1.5条长安街。让扫地机器人搭载L2+级的无人驾驶 汽车 芯片,更强的AIVI 3D,大幅提升建图速度,让科沃斯地宝X1 OMNI能自己分辨房间、家具、地板和障碍物的类型,自动匹配不同的清洁方案,甚至还能自己找宠物……
同样不可思议的是,科沃斯竟然给X1配上完整的智能音箱功能,而且结合语音语义分析、视觉识别、定位技术之后,能通过自然语句对扫地机器人进行精准操作,提供彷如《钢铁侠》贾维斯的人工智能体验。
从3000Pa跃升到5000Pa的科沃斯史上最强的吸力、更先进的双旋转拖布、自动拖布清洗和烘干这些升级点,任意选一个放到其他厂商那边,都会作为主要卖点力推的。但在科沃斯地宝X1 OMNI上,更强的扫、拖功能都只是服务于自动化和智能化的“配角”,不但没显得低调,甚至还有点凡尔赛。
科沃斯地宝X1 OMNI就像《三体》里,歌者文明扔出的二向箔。产品的升级态度已经有点像苹果的A15:段位不同了,吊打你,和你没关系。
‘陆’ 小米雷军展示了全尺寸人形仿生机器人CyberOne,它能够做什么
小米雷军展示了全尺寸人形仿生机器人CyberOne,它能够做以下的事情。
所谓的拖动示教学习,就好比家长手把手地教你如何使用筷子。
这个动作在人类看来很容易,但在机械上却是非常困难的。不但需要有“活体”的机器人可以自由活动,而反向驱动方式则需要更高的关键部件的电机性能,这也是小米团队最初要求的关键指标。
另外,它还需要在感应器和软体上记住所有的动作,然后反复地执行,这是工程师们想要的,让他们可以模仿人类的学习。这种综合解决问题的能力是机器人领域公认的终极方向,同时也是技术难度最大、而且需要投入最多的。
但小米的这次机器人发布会已经走在了中国众多企业的前列。
‘柒’ 送餐机器人有摄像头吗
送餐机器人有摄像头。
送餐机器人需要安装摄像头,因为送餐机器人需要具备的基本功能是可以按路线移动,到达指定目的地点,同时要承载一定重量。尤其在餐厅饭馆这些人多密集,人员走动多,活动空间小的环境,对于机器人的避障功能和自主定位的精准度都会较高。
因此在送餐机器人硬件模块中往往需要加入各种外部传感器以实现快速准确的位置感知和自动避障功能。而摄像头即属于感知外部环境的传感器,是机器人必备的。
延伸介绍
送餐机器人硬件模块中加入的各种外部传感器,例如3D深度摄像头,激光雷达,超声波传感器都可支持避障功能。
送餐机器人的激光雷达因为具有良好的指向性和高度聚焦性,还能实现导航和定位功能,可以对周边的物件进行定位,包括确定障碍物大小,障碍物和机器人的距离等,这些在送餐机器人和配送机器人中都是不可缺少的功能部件。
‘捌’ 3D传感器是干什么用的
获取三维影像的。
所谓3D传感器,实际上就是可以同时在两个方向上同时测量的传感器。获得的数据经计算机处理后可以转为三维坐标。