歷史雜誌

說明說明說明說明說明說明說明說明說明說明說明說明

應用適應學習於學習視知覺能力

刊登日期：2022/04/01

摘要：隨著深度學習技術開始在多個領域帶來突破性的發展，其背後許多成功因素之一的“利用大量有正確答案/標註的數據進行訓練”反倒成為深度學習要進一步拓展到更多領域與實際應用時的一大限制，特別是在處理不同的任務時都要耗費許多昂貴的人力資源和時間來收集相對應的資料集且以人力完成標註以供模型訓練使用這一癥結點。相對於收集現實環境中具標註之訓練數據的艱難，運用低成本且高可控性的虛擬環境來進行訓練資料的收集已經開始逐漸成為一個極具實際應用潛力的替代方案。然而，存在在虛擬資料和真實資料之間的分布差異為此替代方案卻帶來了實際操作上的困難，以虛擬數據所訓練出來的模型直接應用於現實數據上通常會有不盡人意的表現。為此，我們將在本文中介紹近年來時常被用以處理此類數據集之間差異性的“適應學習”技術，並以兩個應用適應學習技術於學習視知覺任務上的範例來簡述適應學習技術的特性和能力。
Abstract：Learning from large-scale labeled/supervised dataset, which is one of the key factors leading to the success of deep learning, however has now turned to be a significant limitation on its extensions to more fields or the applications on practical scenarios due to the expensive cost on time and human resource to collect real-world training datasets for different tasks. In turn, the synthetic data with its advantages on requiring much lower efforts to collect and being more controllable becomes a rich source of training data for deep models thus having a huge potential in practice. However, there still exists domain shift between synthetic and real datasets, which burdens the direct application in the real-world scenarios for the models trained on synthetic data. In this article, we will give a brief introduction on how the domain adaptation techniques could be a good candidate for resolving such gap of domain shift, and provide two example study cases of learning visual perception to demonstrate the power of domain adaptation.

關鍵詞：適應學習、視知覺
Keywords：Domain adaptation, Visual perception

前言
由於深度學習技術過去幾年來在包含了電腦視覺、自然語言處理、智慧製造等多個應用領域上所帶來的突破性發展，人工智慧為當今社會所帶來的變革已經開始被喻為是新一代的工業革命。深度網路模型中多層堆疊非線性結構為其帶來了極高的學習能力—透過學習網路結構中的大量參數、以及同時尋找對於輸入資料最佳的特徵擷取方式和對於輸出任務最適合的預測模型—深度網路模型往往能夠為我們帶來較傳統機器學習模型(在傳統機器學習中，特徵擷取方式和預測模型通常是獨立決定或學習的)更佳的預測或辨識效能。一般而言，在學習或訓練深度網路模型中的大量參數時，通常需要具有極大量的訓練數據；更進一步來看，現今廣泛運用在我們日常生活中的一些深度學習模型(如物件偵測或人臉辨識)通常是基於帶有正確答案或標註的訓練數據來進行學習的，此外，這些正確答案或標註也通常是針對某一特定預測或辨識任務所設計。然而，收集這些大量的訓練數據通常需要耗費大量的人力或金錢資源，如此的需求直接造成了當我們想要將深度學習技術或模型實現或拓展於更廣泛的應用領域時會遭遇的首要困境。
此外，也因為訓練深度模型得要先收集大量數據的資源需求，造成現在僅有擁著大量資源的大型公司或研究機構才會有辦法去收集到在質與量上面皆符合條件的訓練數據，直接導致了這些訓練數據開始被當成戰略性資源、而我們更可以預見在不久的未來將會有因這些資源不均所引發之有如富者愈富貧者愈貧的M型社會發展(例如有許多來自於Google或Facebook/Meta的研究成果通常會使用到其內部收集之不公開大量訓練數據，造成其他單位在成果上難以與之匹敵或進行直接的比較)。而在我所熟知的電腦視覺領域裡，根據以色列 Datagen公司最近公布的調查報告[1]指出，有將近9成多的電腦視覺研究團隊都曾經因為在真實環境中訓練數據不足而被迫放棄一些專案的開發、或是造成專案開發上嚴重的進度落後。而在此報告中也特別指出，訓練數據的不足可以被進一步細分成三個主要的成因：1) 正確答案或標註上的品質不佳；2) 訓練數據無法很好的涵蓋或包括所有真實數據中會呈現的變化；3) 數據本身的數量不足。而為了處理在真實環境中訓練數據的不足，在報告中提及，有九成多的研究團隊也開始廣泛使用(或曾經使用過)透過虛擬環境收集、或是基於虛擬方式生成的訓練數據來學習深度網路。由於虛擬環境的可控性及支援大量批次的數據生成，提供了對於正確答案標註品質不佳以及數據本身數量不足這兩個問題的有效解法；然而，其仍然無法有效涵蓋所有真實數據中會呈現的變化。因此，如何讓虛擬環境的訓練數據與真實數據之間建立起更好的橋樑，也就成為了許多研究工作的投入熱點。
適應學習(Domain Adaptation)
虛擬的訓練數據和真實的訓練數據可以被分成兩個不同的領域(domains)，而當我們希望利用虛擬訓練數據來學習我們的網路模型、並應用至真實的使用環境時，則虛擬訓練數據就可被定義為來源域(source domain)、而真實的數據則是目標域(target domain)。由於在我們的問題設定中，虛擬訓練數據是基於期待其能代替真實訓練數據的原則來設計生成或收集得來，因此我們通常可以在不失一般性的狀況之下假設這兩個領域的數據是存在一定程度的相關性的。但是，由於虛擬生成或收集的過程中，總是存在無法完全與真實數據分布一致的狀況。這種兩個領域之間的差異即被稱為domain shift。例如：我們時常利用電腦圖學的方式來模擬室內或室外的場景，但是由於我們的圖學模型沒有辦法完完全全將現實生活中的所有物理及光學變因包括在內，所以生成出來的圖片總是會跟真實生活中所拍攝到的照片存在外觀上的差異。
由於領域差異的存在，當我們使用了虛擬環境中所收集/生成的訓練數據(包含輸入及輸出的正確答案)來(監督式)學習我們的網路模型時，由於深度學習模型本身強大的學習能力，時常會發生這個網路模型過度擬合(overfitting)到這個虛擬數據集本身的狀況，造成了當要運用這個在虛擬環境中訓練好的網路模型於真實環境的數據(或是與訓練數據集有所差異的其他領域之資料)上進行測試時會有明顯的準確率下確，也就是泛化能力(generalizability)不佳的問題。
適應學習(domain adaptation)的技術因應這樣子的問題於焉而生，其核心概念在於透過各式方法使得來源領域和目標領域的數據分布更為靠近。傳統的機器學習研究中，就有Reweighting/Instance-based methods(透過加強來源域中靠近目標域樣本且具有標註之樣本的比重，使得來源領域和目標領域的樣本盡可能接近)、Feature-based methods(找到一個共通空間，使得來源領域和目標領域經過投影到共通空間後能夠接近)、Adjustment/Iterative methods(利用一些具有標註之虛擬數據來修改模型)等適應學習的方法類別。而近年來在深度學習的研究中，所提出的適應學習方法則通常屬於Feature-based methods的範疇，也就是希望來源域和目標域的數據在經過基於深度網路的特徵擷取器抽取出特徵之後、讓此兩個領域在特徵空間中所形成的分布能夠盡量相近，如此一來，基於來源域所擁有的具有成對輸入及輸出數據之監督式訓練資源、即可在特徵空間之上再訓練出一個針對欲解決任務之模型(如分類器或迴歸器)，而結合了特徵擷取器以及針對任務之模型的整體深度網路就可以在目標域上具有良好的執行成效。

上一篇 - 基於影像定位之 ADAS 於駕訓班場域的創新應用