在一些不適合(he)(he)人(ren)工(gong)作(zuo)業的(de)危險環境或(huo)者人(ren)眼視覺(jue)難以滿足要求的(de)場合(he)(he),用(yong)機器視覺(jue)替代(dai)人(ren)眼來(lai)進行觀察、測(ce)量就成(cheng)為(wei)了一種非常必(bi)要的(de)選擇。
20世(shi)紀(ji)80年代,美(mei)國麻省(sheng)理(li)(li)工學院的(de)(de)Marr提出了一(yi)種基于雙眼匹(pi)配的(de)(de)視(shi)(shi)覺計(ji)算理(li)(li)論,使兩張有(you)視(shi)(shi)差的(de)(de)平(ping)面圖(tu)經(jing)過處(chu)理(li)(li)能(neng)夠產生有(you)深度的(de)(de)立體(ti)(ti)圖(tu)形,從(cong)而實現(xian)三維重(zhong)建。經(jing)過幾十年的(de)(de)發展,雙目立體(ti)(ti)視(shi)(shi)覺已成(cheng)(cheng)為計(ji)算機視(shi)(shi)覺中(zhong)的(de)(de)一(yi)個(ge)重(zhong)要分(fen)支(zhi),左右(you)攝像頭模(mo)仿人類雙眼,具有(you)識體(ti)(ti)和(he)測距功(gong)能(neng),在人類生活(huo)的(de)(de)方方面面都(dou)有(you)廣闊的(de)(de)應用前景,尤(you)其(qi)在智能(neng)化(hua)程度越(yue)來越(yue)高的(de)(de)汽車(che)領域、機器(qi)人領域,需求(qiu)的(de)(de)爆發和(he)技術的(de)(de)成(cheng)(cheng)熟(shu)已經(jing)讓(rang)雙目感知從(cong)過去的(de)(de)較少認知,演變成(cheng)(cheng)當下(xia)行業內一(yi)種重(zhong)要的(de)(de)感知方案。
近日(ri),元橡科技CTO任杰受邀參(can)加中國圖(tu)(tu)像(xiang)圖(tu)(tu)形學學會(hui)主辦的(de)CSIG多媒體(ti)技術大會(hui),會(hui)上分享了《雙目立體(ti)視覺的(de)研發(fa)進(jin)展及在智能駕(jia)駛和機器(qi)人領域的(de)應用》主題報告(gao),以下內容根據報告(gao)整(zheng)理。
升溫——智能雙目,“上天入地”
近幾(ji)年來(lai)(lai),我(wo)們(men)看到雙(shuang)(shuang)目出現了越來(lai)(lai)越多的行(xing)業(ye)熱點,著陸于(yu)火星烏托邦(bang)平原進(jin)行(xing)科學探索的“祝融號”、高智(zhi)能水(shui)平的仿生機器人以及(ji)我(wo)們(men)生活中(zhong)已經比較熟知的無(wu)人機、割草機、無(wu)人配送車等等,雙(shuang)(shuang)目傳(chuan)感器的應(ying)用(yong)從我(wo)們(men)身(shen)邊觸(chu)手可及(ji)的地方跨(kua)越到幾(ji)億(yi)公里外的太空。
而(er)近階段大(da)型車展中(zhong)所展示的(de)新車型,很(hen)(hen)多也有(you)了雙(shuang)目(mu)(mu)攝像(xiang)頭的(de)配置。在(zai)(zai)車載領(ling)域,雙(shuang)目(mu)(mu)的(de)應用(yong)其實(shi)有(you)著很(hen)(hen)長的(de)歷史。1999年,斯(si)巴魯第(di)一次在(zai)(zai)其量產車型中(zhong)搭載了雙(shuang)目(mu)(mu)視(shi)覺系統,在(zai)(zai)這之(zhi)后,雙(shuang)目(mu)(mu)技(ji)術路線一直向(xiang)前演進。早期,我們(men)更多是在(zai)(zai)一些日系、德系車上看到(dao)它的(de)身影,而(er)后更多主流高(gao)端(duan)車型有(you)了立體視(shi)覺相(xiang)機的(de)布局,并開始(shi)逐漸(jian)向(xiang)中(zhong)低端(duan)車型滲透。越來(lai)越多的(de)主機廠開始(shi)在(zai)(zai)新的(de)產品中(zhong)從單目(mu)(mu)切(qie)換(huan)為雙(shuang)目(mu)(mu)方案,包括大(da)眾、本田、小(xiao)鵬、極狐、零跑、領(ling)克等,以提高(gao)L2以上更高(gao)級別自動駕駛技(ji)術的(de)安全性和可靠性。
汽車產業的(de)(de)更新換代,讓整(zheng)個行業都必須反(fan)復思考(kao):車輛應該具有什么(me)樣的(de)(de)智能?以及技術角度(du)如何與(yu)真實的(de)(de)行業需求匹配?
目前,全球唯(wei)二已上路的L3量產車(che),一個(ge)是奔馳S級和EQS旗艦車(che)型,一個(ge)是本(ben)田Legend Hybrid EX,均(jun)配備有雙目立體視(shi)覺系統。
(奔馳(chi)L3自動駕駛(shi)傳感(gan)器(qi)配置丨圖(tu)源網絡)
(本田Legend Hybrid EX L3自動駕駛丨圖源網(wang)絡(luo))
為什(shen)么“熱”?——順(shun)著風向,創造(zao)價值
雙目的熱度(du)為什(shen)么快速升高?因為真實(shi)世界的復雜(za)環境和(he)高等級智能化的需求(qiu),要求(qiu)感知(zhi)系(xi)統具備越來越高的準(zhun)確性(xing)、魯(lu)棒性(xing)和(he)稠密度(du)。
比如(ru)充(chong)滿未知因素的火(huo)星表(biao)面(mian),比如(ru)我們(men)家用機器人工(gong)作(zuo)的日常(chang)環境,復雜程度都(dou)非常(chang)高。
從車載(zai)角(jiao)度來說,大(da)家(jia)普遍(bian)用L0-L5的等級去(qu)劃分(fen)自動駕駛的級別(bie),目前主流車企大(da)多(duo)是在L2~L3中間(jian),這個區域(yu)其實(shi)是存(cun)在一個比較大(da)的階躍的。
整個智能駕駛(shi)系統從(cong)之前(qian)更(geng)多關注(zhu)(zhu)誤(wu)報轉向更(geng)多關注(zhu)(zhu)漏檢(jian);從(cong)部分目標/場景的檢(jian)測變為盡量實現整個環境全類型目標覆蓋;從(cong)輔助司機減輕駕駛(shi)疲勞,到主動預防(fang)風險。
自動駕(jia)駛應用的(de)(de)范疇,從港(gang)口、礦山等封閉場景,到(dao)高速NOA,再到(dao)城市NOA的(de)(de)實現,場景規模快(kuai)速鋪(pu)開,技術難度指(zhi)數級增長(chang)。
行業進(jin)化如火如荼,就對(dui)感知層面提出了更高要求。要實現從輔(fu)助駕駛到自動駕駛的(de)技術(shu)迭(die)代,雙目立體視覺是最合乎自然進(jin)化規律的(de)路線。
雙目是類人眼的仿生傳感器,我們(men)人類可(ke)以(yi)憑(ping)借(jie)雙眼感受這個世界,完成各(ge)種(zhong)各(ge)樣簡(jian)單(dan)或復(fu)雜的任務,而要解決自動駕駛的長尾效應(ying)(ying),這樣一(yi)種(zhong)在(zai)不同場景都有(you)高適(shi)應(ying)(ying)度的“通用(yong)傳感器”就有(you)著重要作用(yong)。
整個(ge)自然(ran)界(jie)的(de)物(wu)種群(qun)體(ti)中,根據食物(wu)鏈的(de)不同(tong)分配(pei)方(fang)式,會使(shi)(shi)動物(wu)的(de)視覺系統(tong)演化出不同(tong)的(de)能力(li)。例(li)如老鷹、獅子、獵豹(bao),包括(kuo)人類,大多(duo)是作(zuo)為捕獵者的(de)角色,因此雙眼(yan)視覺更(geng)聚(ju)焦(jiao),測(ce)距信息的(de)精準(zhun)程(cheng)度也更(geng)高(gao)。而金魚(yu)、馬、鹿等動物(wu)的(de)眼(yan)睛構造(zao)則使(shi)(shi)它們的(de)視力(li)覆(fu)蓋范圍更(geng)廣,看得(de)更(geng)多(duo)也更(geng)快,因此就能對危險有更(geng)迅速的(de)反應。目前(qian)用于(yu)自動駕駛的(de)雙目傳感(gan)器,更(geng)多(duo)是從前(qian)者得(de)到(dao)的(de)啟示。
(動物界中(zhong)進化的不同雙目視覺系統(tong))
雙目(mu)技術原(yuan)理是(shi)基于三角測量(liang)理論。對于同(tong)一(yi)(yi)場景,用左(zuo)右攝像頭在同(tong)一(yi)(yi)時間拍攝兩張圖(tu)像,兩張圖(tu)具有(you)大量(liang)的(de)冗(rong)余信息(xi),但是(shi)會有(you)微小差異,就是(shi)這一(yi)(yi)點微小的(de)差異,讓我(wo)們可(ke)以通過數學計(ji)算推導(dao)物(wu)體的(de)距離也就是(shi)深度信息(xi),從而得到稠密的(de)空間感知結(jie)果(guo)。
目前業內普遍使用的(de)(de)(de)(de)(de)技術方(fang)案各有(you)特(te)色,比(bi)如激光雷達(da)測量精度高,一(yi)致性好,但稠密度欠佳,成本令人卻(que)步;毫米(mi)波雷達(da)支(zhi)持(chi)全天(tian)(tian)候工作,但點(dian)(dian)云非常稀(xi)疏。不同的(de)(de)(de)(de)(de)傳感(gan)(gan)器可以做(zuo)特(te)色的(de)(de)(de)(de)(de)搭配,未來(lai)也會有(you)更(geng)多的(de)(de)(de)(de)(de)融合,把每種傳感(gan)(gan)器的(de)(de)(de)(de)(de)能力發揮(hui)到極致,以在感(gan)(gan)知層實現(xian)足夠的(de)(de)(de)(de)(de)安全冗(rong)余。而我們始(shi)終(zhong)更(geng)推崇并(bing)堅(jian)持(chi)雙目路線的(de)(de)(de)(de)(de)原因是它更(geng)接近于(yu)人類視(shi)覺(jue)和大腦的(de)(de)(de)(de)(de)感(gan)(gan)知和理(li)解方(fang)式,信(xin)息最豐富(fu)稠密,得到的(de)(de)(de)(de)(de)深度信(xin)息和圖像是點(dian)(dian)對點(dian)(dian)一(yi)一(yi)映射的(de)(de)(de)(de)(de)天(tian)(tian)然(ran)結果(guo),成本也比(bi)較低(di)。
雙目能夠對(dui)整(zheng)個三(san)維(wei)環境做(zuo)到高(gao)(gao)幀率的實時感知(zhi),對(dui)于不常見的、具有(you)混淆(xiao)作用(yong)的一(yi)般(ban)障礙物也(ye)能有(you)準確(que)識(shi)別(bie)能力。從元(yuan)橡雙目產(chan)品(pin)的3D高(gao)(gao)精度感知(zhi)結果來看,用(yong)1M像素、10cm基線,車(che)輛穩定檢測距(ju)離可以(yi)超(chao)過150m。
難點&熱點——走正確的(de)路,然(ran)后(hou)堅決(jue)地迎難而(er)上
? 雙目立體匹(pi)配的(de)難點(dian)&熱點(dian)
(立體匹配(pei)基本算法流程)
雙(shuang)目立(li)體匹配的(de)過程中(zhong),我們(men)可以使用(yong)一(yi)些不同的(de)方(fang)(fang)法(fa),傳統方(fang)(fang)法(fa)和基于深度學習的(de)方(fang)(fang)法(fa)等(deng),它們(men)的(de)基本思想是很接近的(de)。那么如果(guo)要實現(xian)最好的(de)效果(guo),業內面臨(lin)的(de)一(yi)些難點(dian)(dian)或者說研發的(de)熱點(dian)(dian)是什么呢?
總體來說,我們會關注這(zhe)樣(yang)一些(xie)方面:
▌ 保(bao)(bao)真度:怎樣獲取精(jing)準的(de)輪(lun)廓細節,提(ti)高紋(wen)理(li)細節的(de)保(bao)(bao)留能力
▌ 魯棒性(xing):減(jian)少錯誤匹(pi)配(pei)
▌ 稠密度:利用多尺(chi)度上下(xia)文理解,解決低照(zhao)度/弱紋理場景下(xia)的(de)問題
▌ 精準度:實現遠距(ju)離(li)的(de)精準測距(ju)感(gan)知
▌ 實時性:算力(li)和性能的平衡
? 異構算力的研發與(yu)產品化
怎(zen)樣在異構芯(xin)片上進行部(bu)署,也是雙目(mu)立(li)體(ti)視(shi)覺涉及的(de)難(nan)點和熱點。針(zhen)對異構的(de)算(suan)力平臺(tai),比如FPGA、CPU、AI加速引擎以(yi)及ASIC,我們(men)要考慮怎(zen)樣部(bu)署去提高數據交(jiao)互(hu)的(de)效率(lv)和取得算(suan)法&性(xing)能的(de)折衷,這是一個系統(tong)性(xing)、工程性(xing)的(de)問(wen)題。
這一(yi)方面(mian),元橡成功研發了國內首顆雙(shuang)目車規(gui)級芯片(pian):
▌ ASIC芯片,實現低功耗和(he)高性能,級(ji)聯最(zui)大可支持8M,60FPS;
▌ 內置ISP,專為立(li)體視覺定制(zhi)設計,同步、多通道圖像一致性(xing);
▌ 專用(yong)深(shen)度引擎(qing),直接輸出圖像+深(shen)度信息(xi),深(shen)度計(ji)算時間延(yan)遲(chi)為毫秒級;
▌ 內置(zhi)基礎應用,包(bao)括避障(zhang)、SLAM等(deng);
▌ 領(ling)先的(de)(de)雙目算法Meto-DEP,在有限的(de)(de)算力情(qing)況下,發(fa)揮最大的(de)(de)計算能力和計算效率,同等目距、像素條件下,測(ce)距更遠、精度更高。
? 量產工程化與產業合(he)作
我(wo)們(men)把一(yi)個雙目(mu)攝像頭拆解開(kai)來,其結構包括殼體(ti)、鏡頭、基座、PCB、CMOS等等,產品最終(zhong)功能的實現(xian),需要物理器件配合光(guang)學成像器件,還需要算(suan)法去一(yi)起(qi)完成耦合和調校。
只有在工(gong)程化(hua)的每一(yi)個流程中,逐一(yi)攻克難點,從整體(ti)系(xi)統角度思考,綜合優化(hua),才能在量產過(guo)程中保障好產品(pin)的高精度和高穩定(ding)性。
而也(ye)只(zhi)有在產(chan)業合作的(de)每一個環(huan)節(jie)中,從全生命(ming)周期的(de)視角(jiao)去理解并完善(shan)產(chan)品(pin),才能讓消(xiao)費者獲(huo)得更好的(de)產(chan)品(pin)體(ti)驗。
典型(xing)應用(yong)領域——技術最好的發展,是(shi)“飛入尋常百姓家(jia)”
元橡(xiang)立體視覺產品的典型應用領域是(shi)智能駕駛和(he)機器人(ren)。
【智能駕駛領域】
面(mian)向智能駕(jia)駛的(de)場景不確定(ding)性和(he)長尾(wei)效應(ying),雙(shuang)目是(shi)類人眼的(de)“通用傳感(gan)器”,可(ke)以(yi)對(dui)大模型不可(ke)能覆蓋到的(de)邊緣(yuan)場景(corner case)進行(xing)規避和(he)響應(ying),降低交通事(shi)故的(de)發生率。另外在(zai)一些起伏(fu)、顛簸(bo)的(de)路(lu)面(mian),雙(shuang)目路(lu)面(mian)預瞄產品也能提高行(xing)車(che)舒適性。
元橡車載(zai)雙(shuang)(shuang)目產品包(bao)括雙(shuang)(shuang)目攝像頭模組方(fang)(fang)(fang)案(an)、雙(shuang)(shuang)目一體(ti)(ti)機(ji)方(fang)(fang)(fang)案(an)、域控制器方(fang)(fang)(fang)案(an),覆蓋行(xing)車安全和舒適(shi)兩大功能(neng)。
? ADAS功能優勢(shi):AEB鬼探頭的及時檢測與制動(dong)優化
比如(ru)城(cheng)市復雜場(chang)景中我們需要面對(dui)的“鬼探頭”,雙目可以更早(zao)(zao)地通過局(ju)部對(dui)象(xiang)點云檢測發(fa)現鬼探頭危險趨勢,更早(zao)(zao)提供(gong)規(gui)控(kong)信息進行制(zhi)動。相比之(zhi)下(xia),單目則需要更長時(shi)間確認(ren)完整對(dui)象(xiang)導致響應延(yan)誤。
? ADAS功能優勢:AEB一般通用障礙(ai)物有效(xiao)檢測與(yu)制動優化
現在自(zi)動駕駛車上路之后,用(yong)于自(zi)動駕駛訓練的數據量變大了(le),系統能力逐步提升(sheng)。但我們仍能看到一些很“奇怪(guai)”的事故發(fa)生,比如前面(mian)明明有一個(ge)很大的側翻車輛(liang),自(zi)動駕駛車還(huan)是“無視”地撞(zhuang)上去了(le),這就是因為單目對一般(ban)障礙物的檢測失效了(le)。
而(er)雙目立體(ti)(ti)視覺天然具有(you)測量能(neng)(neng)力(li),不依賴于AI訓練(lian)就可(ke)以檢測出各種障礙物,包括但不限于路墩、側翻車輛、路障等各類一般障礙物,能(neng)(neng)有(you)效避(bi)免單目AI漏(lou)檢產生的危險事故,顯著提(ti)升系統安全性。
? ADAS功能(neng)優(you)勢(shi):ACC跟車切入「加塞」快速檢測與制動優(you)化(hua)
在ACC跟車切入場景中,雙(shuang)目(mu)(mu)方案能在車身完(wan)整出現前就(jiu)可以更(geng)早檢測(ce)出加塞車輛。加塞車輛只要露出一點(dian)點(dian)車頭,雙(shuang)目(mu)(mu)就(jiu)獲(huo)得了(le)足(zu)夠的(de)信息,能精準判斷對方車輛姿態、距離,從而(er)更(geng)好判斷對方意圖,提示自(zi)車車主(zhu)做出緩速或(huo)者(zhe)剎車動作,讓ACC控(kong)制更(geng)安全,更(geng)舒適。
? 高階智能駕駛(shi):更可靠高效的可行駛(shi)區域
在(zai)更高階的(de)智能駕(jia)駛(shi)中,Tesla和Mobileye早前(qian)就(jiu)提出(chu)了free space也就(jiu)是可行(xing)使(shi)區域(yu)的(de)概念。而雙目天然(ran)就(jiu)能具備完(wan)備的(de)目標識別感知與可行(xing)使(shi)區域(yu)檢(jian)(jian)測能力,在(zai)混合場景、密集場所等復雜路況條(tiao)件下(xia),全類型感知人、車、物,對(dui)障礙物的(de)檢(jian)(jian)測更加精準和魯棒。
? 舒適性(xing)功能(neng):魔毯(tan)底盤
在汽車行(xing)(xing)業競爭日漸白熱化的(de)當下(xia),高端車型很多都已經(jing)配備了用于整車垂向舒適性控制(zhi)的(de)底(di)盤(pan)懸架(jia)和減(jian)震系(xi)統。這與雙(shuang)目(mu)可以進行(xing)(xing)路面預(yu)瞄的(de)結合(he),通過(guo)雙(shuang)目(mu)系(xi)統識別道路類(lei)型,掃描(miao)前方路面信息,得到(dao)高精度路面3D點(dian)云(yun),將路面數(shu)據傳遞給(gei)主(zhu)動懸架(jia)系(xi)統,進行(xing)(xing)底(di)盤(pan)實時(shi)自適應調(diao)節(jie),實現“魔毯”功能。
繼(ji)豪(hao)華品(pin)牌的高(gao)端(duan)車型如奔馳S、寶馬(ma)7之(zhi)后,國內品(pin)牌的高(gao)端(duan)車型,如比亞迪、東風M系(xi)列也(ye)開始增加魔(mo)毯功能(neng)來大幅(fu)提升駕駛舒適(shi)度,基于在雙(shuang)目立體(ti)視覺領域的絕(jue)對(dui)優勢,元橡科技已獲得多家國內車企的主動預(yu)瞄魔(mo)毯系(xi)統定點。
而(er)“魔毯”功能(neng)和(he)ADAS功能(neng)其(qi)實(shi)可以(yi)復用同(tong)一個(ge)傳感器(qi),在整個(ge)產(chan)業追求高性價比的趨勢下(xia),可以(yi)為整車提(ti)供更多的差異化(hua)(hua)功能(neng)和(he)功能(neng)點(dian)優化(hua)(hua)。
【機器人市場應用領域】
近年來(lai),基于人力成本和運營效(xiao)率提升(sheng)的訴求,機器人更(geng)多地進(jin)入到(dao)千家萬戶。機器人的智能化水平提升(sheng),對其感(gan)知性能的要求也快速增加,尤其體(ti)現在感(gan)知精(jing)度、感(gan)知范圍,以及多維度感(gan)知(全對象(xiang)檢測(ce)識(shi)別、三維精(jing)準測(ce)距)等方面。
元橡機器人雙目(mu)產(chan)品(pin)方案,用不同的距離和不同的感(gan)知性能指標去覆蓋不同類型(xing)的機器人場景(jing)。
比(bi)如我們的景區(qu)游覽車(che),從定位來講是接近L4無人駕駛的狀(zhuang)態(tai),從商業閉環來講,它可(ke)以一鍵召(zhao)喚(huan),在行人乘駕過程中(zhong)可(ke)以降級為(wei)L2輔助駕駛,行人還(huan)車(che)之后再次變為(wei)L4階段。
游覽車(che)的(de)(de)感知系統(tong)是(shi)(shi)純視覺的(de)(de)方案,沒(mei)有配備(bei)激光(guang)雷達(da)和(he)毫米(mi)波雷達(da),但是(shi)(shi)它在(zai)運營(ying)過(guo)程中(zhong)可以(yi)做到識別和(he)規避一些突如其來的(de)(de)障礙物(比如公園景區中(zhong)穿行(xing)的(de)(de)老人小孩或者路面掉落的(de)(de)礦泉水瓶等(deng)),以(yi)及做到列隊(dui)行(xing)駛的(de)(de)功能。
(采(cai)用元橡雙目視覺感(gan)知(zhi)方案的景區(qu)游(you)覽車)
基于(yu)底層傳感(gan)技術,雙目可以(yi)用(yong)于(yu)多種不(bu)同(tong)的機器人應用(yong)場景,實現跟隨、避(bi)障等產品功能(neng),給(gei)我們的生活帶(dai)來(lai)一些更好的改變。
我們(men)相(xiang)信,最好(hao)的(de)(de)技(ji)術(shu)(shu)成果一定不(bu)會被束之(zhi)高閣,而是(shi)在每一個(ge)被需要的(de)(de)地方(fang)(fang)不(bu)斷地去實現(xian)人(ren)們(men)對于美好(hao)生(sheng)活(huo)的(de)(de)向(xiang)往。元橡科技(ji)專注(zhu)雙目(mu)立體(ti)視覺領(ling)域,提供(gong)算法+芯(xin)片(pian)+模組+相(xiang)機+軟(ruan)件全棧解決方(fang)(fang)案,全方(fang)(fang)位打造(zao)“眼腦協同(tong)”的(de)(de)感知系統,幫助人(ren)工智(zhi)能(neng)“解碼”現(xian)實三維世界,讓(rang)車輛(liang)智(zhi)行無際(ji),讓(rang)人(ren)機友好(hao)交互,讓(rang)夢想遨游穹宇(yu),讓(rang)雙目(mu)從“技(ji)術(shu)(shu)”躍向(xiang)“價(jia)值”。