繼 SAM 之后,威斯康辛麥迪遜、微軟、港科大等機構的研究人員提出 SEEM 模型,通過不同的視覺提示和語言提示,一鍵分割圖像、視頻。
Meta 的「分割一切」的橫空出世,讓許多人驚呼 CV 不存在了。
基于這一模型,眾網友紛紛做了進一步工作,比如 Grounded SAM。
將 Stable Diffusion、Whisper、ChatGPT 結合使用,就能做到通過語音讓一只狗變成一只猴子。
而現在,不僅僅是語音,你可以通過多模態提示實現一次性分割所有地方的一切。
具體怎么做?
鼠標點一下,直接選中分割內容。
張口一句話。
隨手一涂,完整的表情包就來了。
甚至,還能分割視頻。
最新研究 SEEM 是由威斯康星大學麥迪遜分校、微軟研究院等機構的學者共同完成。
通過 SEEM 使用不同種類的提示,視覺提示、以及語言提示(文本和音頻)輕松分割圖像。
這個論文標題有意思的地方在于,與 2022 年上映的一部美國科幻電影「瞬息全宇宙」的名字非常相似。
英偉達科學家 Jim Fan 表示,奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」
擁有一個統一的、多功能的任務規范界面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。
看過論文后,網友表示,CV 現在也要開始擁抱大模型了,研究生未來出路在哪?
奧斯卡最佳標題論文
正是受到基于提示的 LLMs 通用接口發展的啟發,研究人員提出了 SEEM。
如圖所示,SEEM 模型可以在沒有提示的開放集中執行任何分割任務,比如語義分割、實例分割和全景分割。
此外,它還支持任意組合的視覺,文本和引用區域提示,允許多功能和交互式的引用分割。
在模型架構上,SEEM 采用了常見的編碼器-解碼器架構。其獨特的地方在于具有查詢和提示之間復雜的交互。
特征和提示被相應的編碼器,或采樣器編碼到一個聯合的視覺語義空間。
可學習查詢是隨機初始化,SEEM 解碼器接受可學習查詢、圖像特征和文本提示作為輸入和輸出,包括類和掩碼嵌入,用于掩碼和語義預測。
值得一提的是,SEEM 模型有多輪交互。每一輪都包含一個人工循環和一個模型循環。
在人工循環中,人工接收上一次迭代的掩碼輸出,并通過視覺提示給出下一輪解碼的正反饋。在模型循環中,模型接收并更新未來預測的記憶提示。
通過 SEEM,給一個擎天柱卡車的圖,就能分割任何目標圖像上的擎天柱。
通過用戶輸入的文本生成掩模,進行一鍵分割。
另外,SEEM 通過對引用圖像的簡單點擊,或涂鴉,就能夠對目標圖像上有相似語義的對象進行分割。
此外,SEEM 非常了解解空間關系。左上行斑馬被涂鴉后,也會分割出最左邊的斑馬。
SEEM 還可以將圖像引用到視頻掩碼,不需要任何視頻數據訓練,都能完美分割視頻。
數據集和設置上,SEEM 在三種數據集接受了訓練:全景分割,引用分割和交互式分割。
交互式分割
在交互式分割上,研究者將 SEEM 與最先進的交互式分割模型進行了比較。
作為一個通用模型,SEEM 獲得了 RITM,SimpleClick 等相當的性能。而且與 SAM 取得非常相似的性能,SAM 還多用了 50 個分割數據進行訓練。
值得注意的是,與現有的交互式模型不同,SEEM 是第一個不僅支持經典的分割任務,而且還支持廣泛的多模態輸入,包括文本、點、涂鴉、邊界框和圖像,提供了強大的組合能力。
通用分割
通過對所有分割任務預先訓練的一組參數,研究者可以直接評估它在通用分割數據集上的性能。
SEEM 實現了比較好的全景視圖,實例和語義分割性能。
研究人員對 SEEM 有四個期望目標:
1. 多功能性:通過引入多功能提示引擎處理不同類型的提示,包括點、框、涂鴉、遮罩、文本和另一圖像的引用區域;
2. 復合性:通過學習一個聯合視覺-語義空間,為視覺和文本提示組合即時查詢進行推理;
3. 交互性:通過整合可學習的記憶提示,通過掩碼引導的交叉注意力保留對話歷史信息;
4. 語義感知:通過使用文本編碼器對文本查詢和遮罩標簽進行編碼,實現開放詞匯表的分割。
和 SAM 區別
Meta 提出的 SAM 模型,可以在一個統一框架 prompt encoder 內,指定一個點、一個邊界框、一句話,一鍵分割出物體。
SAM 具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領域,無論是水下照片,還是細胞顯微鏡。
研究者就三個分割任務的交互和語義能力對 SEEM 和 SAM 進行了比較。
在開放集分割上,同樣需要高水平的語義,并且不需要交互。
與 SAM 相比,SEEM 涵蓋了更廣泛的交互和語義層次。
SAM 只支持有限的交互類型,比如點和邊界框,而忽視了高語義任務,因為它本身不輸出語義標簽。
對于 SEEM,研究者點出了兩個亮點:
首先,SEEM 有一個統一的提示編碼器,將所有的視覺和語言提示編碼到一個聯合表示空間中。因此,SEEM 可以支持更通用的用法,它有可能擴展到自定義提示。
其次,SEEM 在文本掩碼和輸出語義感知預測方面做得很好。
作者介紹
論文一作 Xueyan Zou
她目前是威斯康星大學麥迪遜分校的計算機科學系博士生,導師是 Yong Jae Lee 教授。
在此之前,Zou 在加州大學戴維斯分校度過了三年時光,由同一位導師指導,并與 Fanyi Xiao 博士密切合作。
她在香港浸會大學獲得了學士學位,由 PC Yuen 教授和褚曉文教授指導。
Jianwei Yang
Yang 是 Redmond 微軟研究院深度學習組的高級研究員,由高劍峰博士指導。
Yang 的研究主要集中在計算機視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解,以及如何進一步利用它們通過語言和環境的體現與人類進行智能交互。
在 2020 年 3 月加入微軟之前,Yang 在佐治亞理工學互動計算學院獲得了計算機科學博士學位,他的導師是 Devi Parikh 教授,他還與 Dhruv Batra 教授密切合作。
高劍峰
高劍峰是微軟研究院的杰出科學家和副總裁,IEEE 會員,以及 ACM 杰出會員。
目前,高劍峰領導著深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用,并在對話模型和方法方面取得進展。
研究主要包括,用于自然語言理解和生成的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智能等等。
2014 年到 2018 年,高劍峰在微軟人工智能與研究部和 Redmond 微軟研究院的深度學習技術中心擔任商業人工智能的合作伙伴研究經理。
2006 年到 2014 年,高劍峰在自然語言處理組擔任首席研究員。
Yong Jae Lee
Lee 是華盛頓大學麥迪遜分校計算機科學系的副教授。
他在 2021 年秋季加入華盛頓大學麥迪遜分校之前,曾在 Cruise 擔任過一年的人工智能客座教師,在此之前,他在加州大學戴維斯分校擔任了 6 年的助理和副教授。
他還曾在卡內基梅隆大學的機器人研究所做了一年的博士后研究員。
他于 2012 年 5 月在德克薩斯大學奧斯汀分校獲得博士學位,師從 Kristen Grauman,并于 2006 年 5 月在伊利諾伊大學厄巴納-香檳分校獲得學士學位。
他還曾作為微軟研究院的暑期實習生與 Larry Zitnick 和 Michael Cohen 一起工作。
目前,Lee 的研究集中在計算機視覺和機器學習。Lee 對創建強大的視覺識別系統格外感興趣,該系統可以在最少的人類監督下理解視覺數據。
目前,SEEM 已經開放了演示 demo:
快上手試試吧。
參考資料:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
2023年2月15日,湯臣倍健與美團買藥在北京舉辦了2023
2021年收入增長目標應能確保實現,2022年收入增長預計將
具體來看,一是簡化業務流程和材料,便利北京冬奧會相關區域內境
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛
,據索尼官方消息,新星粉,銀河紫,星光藍,三款全新配色Dua
,新氧數據顏究院發布《2021醫美行業白皮書》,白皮書顯示,