歷史雜誌

說明說明說明說明說明說明說明說明說明說明說明說明

人工智慧於語意高精度地圖建立之應用

刊登日期：2019/04/01

摘要：隨著全自動駕駛系統的車輛發展日漸成熟，高精度地圖 (HD map) 為安全行駛之必然技術，高精度地圖不僅含一般導航所需之資訊，當駕駛者由人轉而為電腦時，除了協助精確定位車輛外，亦提供車輛電腦更精確地周邊環境資訊，譬如路緣、車道限速、路口、交通號誌、人行道、停車格等。語意地圖 (Semantic map) 為高精度地圖之其中一部分，若透過人工手動於地圖上標記資訊，耗費人力及時間，因此本文將介紹當前人工智慧於影像及三維資料上物件辨識之方式，期望能運用於語意地圖之建立。
Abstract：HHD maps (high definition maps) with high accuracy of object locations are essential for self-driving cars. With an HD map, the localization software can figure out where exactly the car is located. In addition, semantic map can provide more valuable information, ex: road boundary, traffic lanes, road signs, intersections, the speed limit on this road, the location of pedestrian crossings and parking spaces, etc. All information can be integrated with data from sensor, and makes driving more safe and comfortable. Semantic map is contained inside the HD map. To build a semantic map, AI plays an important role to classify objects from image and 3D data.

關鍵詞：高精度地圖、語意地圖、語意分割、物件偵測
Keywords：HD map, Semantic map, Semantic segmentation, Object detection

前言
自動駕駛發展快速，隨著感測器數量增加，各項演算法及決策系統之執行，均耗費大量記憶體及電腦資源，仍然行駛中維持資料的即時及正確性，才能使車輛適當且安全地作出反應。因此藉由事先構建高精度地圖，可預先取得周圍環境訊息，協助感測器縮小檢測範圍，僅針對感興趣區域 (ROI) 偵測，以提高傳感器檢測精度，有效分配資源，大幅減低車輛上感知系統所需的運算量，譬如根據周邊環境物件的標註，可決定需要優先處理的資料，開啟需執行或關閉不必要之演算法，或動態地增加或減少執行頻率。車輛電腦由高精度地圖取得環境資訊，搭配感應器對於行人或其他物體之偵測結果，這些整合之實時資訊，使車輛即時對路況作出適當之反應，讓自動駕駛過程更安全、更順暢。行駛間，透過感知系統即時運算與處置，若遇到環境改變所造成的地圖不匹配，則可回饋資訊以更新地圖，兩者相輔相成。
目前語意地圖的建立，整合了二維影像處理、定位資訊及三維資料處理。二維影像資料可透過單眼或雙眼攝影機取得，其中雙眼攝影機富含豐富的訊息，仍由於成本高，因此目前大多仍使用單眼攝影機。擷取到之影像透過傳統影像處理、電腦視覺分析、深度學習等方式，可辨識出影像中物件，譬如：車道線、路面標誌、交通號誌識別等。然影像資料易於雨天、沙塵、光線（曝光、陰影、夜間等）等環境下有識別失誤的問題，此部分仍舊為目前努力突破之方向。於建立地圖之角色上，識別失誤之問題可透過人工進一步修改錯誤標記，而運用人工智慧自動辨識，則可協助加快物件標記速度。
三維點雲資料大多使用光學雷達 (Lidar)、雷達 (Radar) 取得。目前商業用地圖大多使用光達測距建模，透過同步定位與地圖建構技術 (Simultaneous Localization And Mapping, SLAM [1]) 建構出幾何地圖 (Geometric map)，此地圖可於車輛行駛中，取得車輛精確位置。三維資料較二維資料處理上更為複雜，透過人工於三維資料中標記，由於空間關係，圈選的點資料可能點至無窮遠，加上視角移動等操作亦有一定難度，即使轉換為鳥瞰視角，同樣有遮蔽的問題，無法順利選取到點雲，因此三維資料標記往往耗時。目前，透過人工智慧對三維資料中物件辨識的逐漸發展，已可於三維資料中取得特徵與辨識物件，然而物件取得後，受限於僅有x, y, z, 強度的資料限制，無法做更進一步辨識，譬如：「禁止迴轉」之交通號誌，可透過三維點雲辨識出此3D物件之交通號誌種類，然而由於其上之圖案與顏色，無法由點雲資料取得，因此無法精確辨識為「禁止迴轉」標記。愈解決此問題，需整合二維影像之彩色資料，以做進一步的辨識。
人工智慧的應用越來越廣泛，包含物體/語音識別、自然語言處理、語言翻譯、預測等，目前於語意地圖上主要應用為對二維影像資料及三維點雲資料做物件自動辨識，望能降低人工標記所需消耗時間，提升精準度，減少人為失誤，並提升標記品質。
接下來介紹目前人工智慧於二維與三維點雲資料做物件識別之發展。
人工智慧於語意地圖建立之應用
機械學習Machine Learning
機器學習定義是「在不經過程式導引的前提下，機器就具備學習的能力」，透過樣本訓練機器辨識出運作模式，而不是用特定的規則來編程。機械學習透過以下的方式去進行訓練：收集正負樣本->正負樣本中學習以訓練系統->取得結果模型，並於驗證資料中確認模型準確度->當準確度不足，譬如：False Positive 過高，則將辨識錯誤之樣本再度丟入負樣本中重新做訓練，已取得更好之結果。機械學習的結果與樣本資料，正負樣本數量，訓練次數均有相關，如何取得較好的訓練結果，找出有效的特徵資料，避免過度學習均為其重點。機械學習運用廣泛，如語意地圖中需要標記的車道線、停車格及路面標誌辨識，本團隊先前均嘗試整合AdaBoost [2] 與支持向量機 (Support Vector Machine, SVM ) [3] 訓練出停車格角點辨識之模型，並實際運用於停車格角點辨識及停車格配對上，如圖1。

圖1 藉由Adaboost + SVM 取得停車格角點，再根據演算法配對出停車格 [4]

深度學習 Deep Learning
深度學習是機械學習研究領域中最新的分支，其出現源自對人類「深度神經網路」的研究，因此深度學習的運作則是在嘗試模擬人腦內層的功能─透過多層次的資訊處理來形成知識。目前，透過深度學習來建構影像辨識系統，並以廣泛應用於各種領域中，包含機器人、自動駕駛車輛、以及醫學影像分析等。
1.物體偵測 Object Detection
影像分類中的輸出主要是一個二元分類器，其輸出是判定輸入的影像是否含有特定的物件，亦可建立一個多類別分類器，則其輸出為所有類別的預測機率，並取擁有最高預測機率的類別作為該物體的預測類別。

下一篇 - 大範圍定位與建立地圖