亚洲三级在线播放_国产精品亚洲二区在线_精品国产电影久久久久_免费popnhub国产在线视频 - 美女被艹网站

金財晚報

金財晚報

當前位置:首頁>民生消費>

他們用ChatGPT方式搞自動駕駛,論文入選了ICRA2023

來源:IT之家 作者:竹隱 發布時間:2023-03-25 12:26   閱讀量:7967   

還在玩 ChatGPT?已經有自動駕駛算法能告訴你“我在干嘛”。

基于視覺和神經網絡的自動駕駛算法,雖然能通過傳感器數據,以及學習人類的駕駛行為,自主決策并控制車輛。

但是,算法基于什么做出的決策?特別是出現故障,也就是決策錯誤的時候,算法是怎么想的?這些一直被稱為自動駕駛算法里的“黑匣子”,讓算法缺乏透明度和可解釋性。

不過,現在有這么一個模型,既能預測車輛控制行為,還能自己解釋“我停車是因為紅燈亮了,并且有行人在過馬路”。

模型論文入選 ICRA 2023,相關模型已開源。

那么,是一個什么樣的算法?

ADAPT:駕駛行為感知說明大模型

這是一種叫 ADAPT的端到端算法,也是目前第一個基于 Transformer 的駕駛行為描述框架,可以感知和預測駕駛行為,并且輸出自然語言敘述和推理。

直白一點說,輸入車輛視頻后,這個算法可以判斷車輛行為并告訴你:車在做什么,為什么要這么做。

在論文作者提供的測試視頻里,這個算法最終上車的效果是這樣的。

“車在向前開。因為路上沒有車。”

駕駛行為變化后,算法也能及時感知:

“車靠左邊停下了。因為要停車。”

“車開始移動并且靠右行駛。因為路左邊停著車。”

算法不僅能識別路口,也能識別騎著車的人。

“車在十字路口停下了。因為要避開街上騎著自行車的人,”

這是怎么實現的?

多任務框架下的聯合訓練

ADAPT 框架可以分為兩個部分:車輛行為描述和車輛控制信號預測(CSP,Control Signal Prediction)。

首先,傳感器端輸入視頻,Video Swin Transformer 對車輛視頻進行編碼,得到的視頻特征會輸入進各任務模塊里。

在 DCG 模塊,算法利用 Vision-Language Transformer 生成兩個自然語句,也就是上文中提到的車輛行為描述和原因解釋。

相同的視頻特征也會輸入進 CSP 模塊,輸出車輛實際的控制信號序列,并利用 Motion Transformer 輸出模型預測的控制信號,比如速度、方向和加速度。

在單個網絡中,作者利用車輛實際的控制信號序列和模型預測的控制信號序列,兩者的均方誤差作為 CSP 模塊的損失函數。

而在多任務框架下,通過聯合訓練 DCG 和 CSP,可以減少車輛決策和文本描述之間的差異,提高控制信號預測的準確率。

論文里,作者們在包含控制信號和車輛視頻的大規模數據集 BDD-X 上,利用機器評測和人工評測驗證了 ADAPT 的有效性。

機器評測方面,使用的是 BLEU4、METEOR、ROUGE-L 和 CIDEr等多種語言任務常用的指標。

最終顯示 ADAPT 達到了當前最優的結果,ADAPT 在動作描述方面比原有先進方法 CIDEr 高出 31.7,在原因解釋方面高 33.1。

人工評測分為動作描述、原因解釋和全句三個部分。通過人工判斷,ADAPT 在這三部分的準確性分別達到了 90%,90.3% 和 82.7%,證明了 ADAPT 的有效性。

在可視化結果里,也能看出 ADAPT 可以準確識別車輛行為以及決策原因。并且在黑夜、陰雨天等場景下,ADAPT 也能保證準確度;即使有雨刷器干擾,ADAPT 也可以識別道路上的停止標識。

為什么需要 ADAPT?

自動駕駛行為的可解釋性

在基于視覺的自動駕駛算法里,比較常見的解釋圖有視覺注意圖,或者成本量圖(Cost Volume),但不熟悉自動駕駛算法的人容易對這些圖造成誤解。

上:視覺注意圖;下:成本量圖

因此,ADAPT 這種能夠生成自然語言、“說人話”的算法,能夠幫助用戶更好地理解自動駕駛算法在做什么、為什么要這么做,同時還能讓用戶更信任自動駕駛技術。

而對于算法工程師和研究人員來說,當發生極端情況時、或者發生故障時,ADAPT 可以幫助他們獲得更多信息,進而改進算法。

作者們將進一步研究如何在模擬器和實際車輛上如何部署 ADAPT,以及如何利用文本轉語音技術,讓生成的句子轉化為語音,幫助普通乘客,特別是視力障礙乘客使用。

本文作者來自中國科學院自動化研究所、清華大學人工智能產業研究院、北京大學、英特爾中國研究院、西安電子科技大學、南方科技大學和北京航空航天大學。

論文一作晉步和三作鄭宇鵬是來自中國科學院自動化研究所的研究生,晉步主要研究方向為多模態學習、視覺語言模型等。

通訊作者為劉新宇,清華大學自動化系學士和碩士,長期從事軟件研發工作,著有《算法新解》。

作者之一李鵬飛是 AIR 在讀博士生,本科畢業于中國科學院大學,主要研究智慧交通、機器人、計算機視覺等方向。

另一位作者趙昊是 AIR 助理教授,本博畢業于清華大學電子工程系,曾任英特爾中國研究院研究員和北京大學聯合博士后,研究方向為幾何與認知層面的場景理解及其在機器人中的應用。

另外,本文的模型已經開源,感興趣的可以去試試看~

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

mangren

財經視界

財經圖文

熱門推薦

金財晚報僅作為用戶獲取信息之目的,并不構成投資建議。市場有風險 投資需謹慎。

網站地圖

Copyright 2018- 金財晚報 All Rights Reserved 聯系我們: 備案號:蜀ICP備13010463號