歷史雜誌

說明說明說明說明說明說明說明說明說明說明說明說明

機器人3D 環境感知與深度學習介紹

刊登日期：2022/08/01

摘要：隨著近年來機器人研究的發展，機器人逐漸走出實驗室，並廣泛應用在堆疊搬運、生產製造、產線組裝等。然而，機器人面臨的問題更加複雜，且必須與環境進行互動，因此必須具備更高階的感知功能。深度學習處理三維點雲可分為三個大類別來探討，其包括三維形狀分類、三維目標偵測與追蹤、三維點雲分割三大任務。3D感測器所收集的點雲資料屬於三維資料可以表示空間中大量的幾何、形狀與尺度資訊，然而因為資料量大、資料無序性與不會隨著旋轉改變結果。因此PointNet作為第一個能直接從點雲中學習有用資訊，達到End-to-end學習，可用同一個網路架構完成點雲分類與分割。工研院機械所團隊推出研磨拋光機器人品牌RobotSmith，提供整體軟硬解決方案，並在機器人3D環境感知處理上展示兩個成功案例:研磨周邊系統定位與焊道研磨疊代補償。期許在這波3D深度學習浪潮中，以精實的技術能力，攜手台灣產業共創新頁。
Abstract：With the development of robot research in recent years, robots have gradually left the laboratory and are widely used in palletization, manufacturing, production line assembly, etc. However, the problems faced by robots are more complex and must interact with the environment and therefore must have high-level perception capability to meet real-world challenges. Deep learning for 3D point clouds covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. The point cloud data acquired by 3D vision sensors can provide large amount of geometric, shape, and scale information. However, point clouds are disorder, unstructured, and rotation-invariant. To overcome these problems, the pioneering work PointNet is proposed to learn per-point features using shared Multilayer Perceptrons (MLPs) and global features using symmetrical pooling functions. PointNet network can deal with the point cloud classification and segmentation for end-to-end training. ITRI MMSL robotic group roll out a new brand of grinding and polishing robot called RobotSmith. RobotSmith provides software and hardware total solution and demonstrates two successful cases in robot 3D environment perception: grinding peripheral system localization and iterative grinding path compensation. We expect that RobotSmith can create a new era of Taiwan’s industries with cutting-edge technologies.

關鍵詞：機器人、點雲、深度學習
Keywords：Robot, Point cloud, Deep learning

前言
隨著近年來機器人研究的發展，工業機器人逐漸走出實驗室，並廣泛應用在一般公司企業中，如堆疊搬運、生產製造、產線組裝等等。依據全球智慧機器人產值統計及預測，2016年的市場規模達540億美元，若發展至2020年將會達700億美元；國內目前機器人相關廠商約為160家，每年產值約18億美元，八成以上的機器人相關廠商皆有布局海外市場，但也面臨生產模式的改變與全球化的競爭[1]。
當工業機器人為了完成更複雜的任務必須與環境進行互動，進而需要具備感知與監控相關資訊，因此參考人類的感知功能，例如: 視覺、聽覺、觸覺、嗅覺與味覺。常見的感測器有視覺感測器包含CCD攝影機、環場攝影機與深度攝影機等；聽覺感測器有麥克風、超音波感測器等；觸覺感測器包含了極限開關、力量與壓力感測器等；量測距離的感測器如雷射測距儀；測量方向的感測器如羅盤、陀螺儀等；另外工業機器人馬達通常會裝設絕對/相對編碼器藉此量測機器人關節的角度[2]。在3D環境的資訊表示方法有點雲(point cloud)、網格(mesh)、體積(volumetric)與多視角投影(projected view) [3]。點雲顧名思義就是資料以點的型式記錄，每一個點包含有三維座標，有些可能含有色彩資訊或物體反射面強度；網格為電腦圖學中常用來表示立體模型，通常由許多三角形所構成，將兩個頂點（vertices）連起來的直線稱為邊（edge），而三個頂點與三個邊組合而成的三角形則稱為表面（faces），再由多個表面組合成網格；體積資料以許多體像素(voxel)的形式組成，如同二維影像的像素(pixel)，體像素是三維空間分割上的最小單位；多視角投影是由多張不同視角的影像來描述3D環境，常見的方式是由環場攝影機來記錄相關資料。近年在機器人應用中常被使用資料紀錄格式為點雲，因為點雲資料可直接由深度攝影機、雷射測距儀感測器直接獲取的原始資料(raw data)，其優點是不需要額外做其他的處理或精度問題，例如多視角投影需要靠從哪些角度拍、拍幾張、距離要多遠等來還原3D空間資訊。因此若能直接從點雲中學習有用資訊，就能達到 End-to-end學習，也就是直接拿 raw data 跟 ground truth直接學習，因此不需要額外做其他的轉換，因此3D Deep Learning近幾年來為熱門研究議題，尤其是在自駕車、機器人與AR/VR領域。
前面談論視覺感測器與不同的三維環境資訊表示的方法後，接著重要的是如何讓機器人認識三維環境中的物體，然而獲取到的環境資訊會因為感測器的雜訊、環境光影的變化、物體之間的遮擋都會影響到機器人判斷的結果。另外若要在即時任務應用，即時處理3D點雲運算時間將會是一大挑戰。以堆疊物件取放技術為例，利用3D攝影機引導機器人取放物體，首先會先進行RGBD影像取像，接著進行2D影像中堆疊物體的偵測與分割，並進行工件6D姿態的估測，最後才是控制機器人夾取工件[4]。2D影像處理物體的偵測與分割傳統是影像處理方式來達成，近年來卷積神經網路(Convolution Neural Network, CNN)在影像分類上的優異表現，使得眾多學者研究其影像特徵提取能力的應用，除了影像分類之外，CNN 架構也常被應用在物件偵測、語義分割、實例分割、視覺追蹤以及姿態估測。Zhao等人[5]已對深度學習在物件偵測的主題上做過詳細的文獻調查整理，其對物件偵測的模型架構進行分類並整理各類別架構先後的變革，最後再提及能進行實例分割的 Mask R-CNN 模型。Ren等人[6]提出的 Faster R-CNN架構則是在Fast R-CNN的基礎上，以Region Proposal Network(RPN)取代原本耗時的 selective search 過程，並對ROI池化過程中邊界整數化所導致的特徵位置偏差進行改善。估測物體的6D姿態(object pose estimation)是機器人認識環境的重要技能，而被廣泛應用的演算法是ICP算法（Iterative Closest Point）[7]，其利用掃描點雲與CAD檔案進行匹配，藉此得到物體的姿態。Xiang等人[8]提出第一個能夠End-to-end從RGB影像中直接學習估測6D姿態的深度學習架構。另外PointFusion[9]與DenseFusion[10]皆是分別處理兩種感測器擷取的資料，RGB影像用CNN網路架構處理、點雲資料用PointNet[11]網路架構處理，接著將兩種資訊融合計算出物體的6D姿態。
國內外機器人3D掃描系統介紹
1. Artec 3D
Artec 3D [12]是一家位於盧森堡的3D掃描軟硬體開發與製造公司，產品和服務廣泛應用於不同行業，包括工程、醫療衛生、媒體設計、娛樂、教育、時尚以及歷史保護。主力3D視覺掃描硬體產品包含Eva、Space Spider、Leo、Ray等，並提供支援軟體Artec Studio讓使用者能夠快速整合硬體，完成物體掃描、即時接合，並產生3D模型。Artec在高精準自動化3D掃描解決方案提出RoboticScan，硬體配置是使用Space Spider與UR3機械手臂，透過UR機器人的移動改善人為手持Spider拍攝時的穩定性與精確度，透過機械手臂自動拍攝而無須人為手持自動化掃描流程，以省時與低成本的方式建構出3D模型。在整合方面也提供Artec SDK可讓開發者能夠直接獲取感測器的2D影像與3D點雲資訊。

上一篇 - 自駕車用高精地圖快速製圖技術

下一篇 - Sustainable Globally Aligned Lidar Point Cloud Mapping 光達點雲地圖的規模化建置