一位學(xué)者在學(xué)術(shù)領(lǐng)域開山立派,最顯著的一個標(biāo)志就是某個學(xué)術(shù)概念能夠與該學(xué)者劃等號,例如當(dāng)提起相對論必然會聯(lián)想到愛因斯坦。
同樣的道理,當(dāng)提起「數(shù)字視網(wǎng)膜」這一概念,人們首先能想到的當(dāng)屬中國工程院高文院士。
所謂數(shù)字視網(wǎng)膜,即類比于人類視網(wǎng)膜,對傳統(tǒng)攝像頭乃至視覺計算架構(gòu)進(jìn)行演進(jìn)與革新,從而能夠更加智能地支持城市大腦,服務(wù)智能安防、城市精細(xì)管理等智能應(yīng)用。
更為具體的來說,傳統(tǒng)攝像頭只是把拍攝到的視頻數(shù)據(jù)壓縮后上傳到云端進(jìn)行存儲,再做分析識別處理;而數(shù)字視網(wǎng)膜則要求在攝像頭端對拍攝視頻進(jìn)行高質(zhì)量視頻編碼和視覺特征提取編碼,對壓縮編碼過后的視頻流進(jìn)行本地存儲的同時按需上傳到云端,而所有的緊湊特征流同步實時同步到云端,從而既能夠保證高效的存儲,又能夠便捷地支撐大數(shù)據(jù)查詢分析,與此同時支持在端-邊-云之間進(jìn)行面向智能視頻編碼和特征分析的深度學(xué)習(xí)模型自適應(yīng)遷移、壓縮、更新與轉(zhuǎn)換。簡而言之,數(shù)字視網(wǎng)膜就是這樣一種包含視頻編碼流、特征編碼流和模型更新流的可伸縮端邊云協(xié)同視覺計算架構(gòu)。
傳統(tǒng)視覺感知系統(tǒng)
數(shù)字視網(wǎng)膜技術(shù)系統(tǒng)框架
這一概念從正式提出至今,才不過兩年,然而從最初構(gòu)想,前期實踐,到理論基礎(chǔ)構(gòu)建卻花了近五年的時間。即使到現(xiàn)在,數(shù)據(jù)視網(wǎng)膜的技術(shù)框架也仍然在不斷完善當(dāng)中,但其影響卻將是顛覆性的。正如高文院士在2018年的一篇文章[1]中提到:
我國已明確提出“到2020年,基本實現(xiàn)全域覆蓋、全網(wǎng)共享、全時可用、全程可控的公共安全視頻監(jiān)控建設(shè)聯(lián)網(wǎng)應(yīng)用”,但是如果沒有重大技術(shù)突破,數(shù)千萬攝像頭根本無法實現(xiàn)“全網(wǎng)共享”的實時數(shù)據(jù)匯聚,更不可能實現(xiàn)“全時可用”的聯(lián)網(wǎng)分析識別,“數(shù)據(jù)大”變不成“大數(shù)據(jù)”,巨大潛在價值無法發(fā)掘。數(shù)字視網(wǎng)膜是應(yīng)對上述挑戰(zhàn)的一種可行的顛覆性技術(shù)發(fā)展方向。
1、雛形醞釀
高文院士對于「數(shù)字視網(wǎng)膜」的理解,是伴隨著對城市中視頻監(jiān)控體系所存在問題的深刻認(rèn)識而不斷深化的。
據(jù)可考查資料,高文院士最早對城市中攝像頭所存在缺陷以及可能的改進(jìn)進(jìn)行思考始于2013年初(或者稍早)。在2013年新年伊始,高文院士曾接受人民網(wǎng)采訪[2],他提到現(xiàn)代攝像頭密布,但還需要后端人力去盯,一旦遇到重大案件,去調(diào)用錄像資料,卻往往起不到太大作用。如果能夠在設(shè)計視頻編碼時,讓系統(tǒng)把數(shù)據(jù)中有用的信息抽取、挖掘并分析出來,不但能節(jié)省后期的人力投入,而且能起到應(yīng)急作用。
可以認(rèn)為,這個時候,他已經(jīng)有了模糊的概念,但對于具體如何去做,卻仍在醞釀當(dāng)中。
在2013年10月,高文院士在中國信息化周報上發(fā)表了題為《智慧城市中的視頻編碼、分析與評測》的文章[3]。在這篇文章中,他首次系統(tǒng)提出了他對“智慧城市”中視頻監(jiān)控所存在問題的深入思考,他指出:
1、目前的監(jiān)控系統(tǒng)在設(shè)計時是為了視頻存儲和以人為核心的視頻跟蹤,而非以計算機(jī)為中心的自動分析,因此靠這樣一套系統(tǒng)來實現(xiàn)智慧城市的視頻系統(tǒng),去做自動分析,是根本無法完成的。
2、智慧城市中的視頻技術(shù)面臨三大問題,分別是存儲成本高(數(shù)據(jù)量太大)、檢索困難、對象再標(biāo)識難。而這三個問題歸結(jié)到本質(zhì)則是兩個問題,一個是編碼問題,而另一個是視頻分析識別問題。因此如何對監(jiān)控視頻進(jìn)行高效視頻編碼,以及如何對其進(jìn)行分析和檢索,是必須思考的兩個本質(zhì)問題。
3、在學(xué)術(shù)界存在一個奇怪現(xiàn)象,即做視頻編碼的學(xué)者對視頻分析不感興趣;而反過來,做視頻分析的人對編碼也不感興趣。原因在于前者處理的是像素和圖像塊,屬于圖像處理領(lǐng)域,而后者處理的是圖像特征,屬于模式識別領(lǐng)域。就像兩條路上跑的車很難交匯。
幸運(yùn)的是,高文院士正好跨界這兩個圈子,無論是在視頻編碼領(lǐng)域,還是在計算機(jī)視覺(特別是人臉識別)領(lǐng)域,他都有著重要的影響力。其學(xué)生陳熙霖、山世光兩位研究員繼承了他在人臉識別領(lǐng)域的衣缽,如今已成為國際計算機(jī)視覺領(lǐng)域的領(lǐng)軍人物;而其學(xué)生黃鐵軍和馬思偉兩位教授則繼承了他在編碼領(lǐng)域的衣缽,在國際視頻編碼領(lǐng)域也有著重要的影響力。[4]
高文院士對當(dāng)代城市監(jiān)控系統(tǒng)存在問題的本質(zhì)分析,盡管只是雛形,但卻奠定了他在隨后解決這一問題的研究思路和方向。特別是在2014年的“第二屆智慧城市與智能系統(tǒng)院士論壇”上,他提出“我們希望把編碼和分析所做的技術(shù)融合在一起,集中在一個編碼的框架下。”[5]
然而,盡管有了大致的方向,但由于以深度學(xué)習(xí)為代表的新一代人工智能剛剛興起,許多人對深度學(xué)習(xí)都還不太熟悉,當(dāng)時的算法和算力還不足以支持這種設(shè)想的技術(shù)。當(dāng)然,從已有的資料中也可以看出,高文院士當(dāng)時對這一問題的分析和解決方案設(shè)想中,對如何將深度學(xué)習(xí)與視頻編碼進(jìn)行融合似乎也并沒有很深入的想法,仍然是以“前深度學(xué)習(xí)”的模式在思考。
時間一晃,來到了2016年。隨著人工智能的發(fā)展,計算機(jī)視覺變得紅紅火火。大量以計算機(jī)視覺為技術(shù)基礎(chǔ)的初創(chuàng)公司相繼成立,傳統(tǒng)安防企業(yè)也逐步轉(zhuǎn)型。城市安防成為了一個資本角逐的大市場,高文院士之前提到城市視頻監(jiān)控的三大問題(存儲成本高、檢索困難、對象再標(biāo)識難)也顯得越加尖銳。
在這些年當(dāng)中,高文院士逐步將原有的框架豐滿起來,然而若想把這一理念落到實處,還需要具體的場景,畢竟這是一個以工程為主體的研究。正如他在隨后的一篇文章[1]中提到:
“需要建立一個大規(guī)模測試平臺來評估和展示數(shù)字視網(wǎng)膜架構(gòu)的技術(shù)優(yōu)勢。這個平臺至少應(yīng)該包括上萬路的監(jiān)控攝像頭,地理上覆蓋一個中等以上城市,從而可以在真實場景中評估與數(shù)字視網(wǎng)膜相關(guān)的算法和技術(shù)?!?
巧合的是,2016年以王堅為主導(dǎo)的阿里云在杭州開始試點建設(shè)城市大腦。[6]這正符合高文院士研究的需求,于是與王堅等人一拍即合。為了更好的合作,2017年7月,高文院士以前的學(xué)生團(tuán)隊成立了一家名為「博雅鴻圖」(「博雅」取自北大「博雅塔」;而「鴻圖」為立意高遠(yuǎn)之意)的公司,高文院士擔(dān)任董事長,依托北京大學(xué)數(shù)字視頻編解碼技術(shù)國家工程實驗室在數(shù)字音視頻編解碼(AVS)國家標(biāo)準(zhǔn)和視覺特征編碼(CDVS)國際標(biāo)準(zhǔn)等方面的技術(shù)、標(biāo)準(zhǔn)、人才和產(chǎn)業(yè)化優(yōu)勢,致力于視覺智能芯片及系統(tǒng)解決方案的研發(fā)及產(chǎn)業(yè)化。[7]
在這期間,高文院士開始跳出編碼和計算機(jī)視覺的領(lǐng)域,從更廣的范圍里思考其框架。一個表現(xiàn)即是,在2017年6月舉辦的圖靈大會上,高文院士做了主題為《Evolution of the Artificial Visual System》的報告。[8]
高文院士在2017年圖靈大會上做報告(來源:騰訊視頻截圖)
在這個報告中,他首次提出動物視覺的演化,以及人類應(yīng)該借鑒其中的模式,這本質(zhì)上便是「仿生」。但在報告中,他僅僅做了類比,雖然沒有提出「數(shù)據(jù)視網(wǎng)膜」的概念,但基本框架已經(jīng)非常完備。
數(shù)字視網(wǎng)膜概念的首次提出,是2017年10月份在深圳舉辦的安博會上。[9]
他在這次報告中進(jìn)一步指出,傳統(tǒng)視覺感知系統(tǒng)中監(jiān)控攝像頭為1-1模式:單攝像機(jī)單流、單用途。這種模式是長期自然形成的,效率不高:(1)壓縮-解壓縮和分析過程造成長延遲;(2)對象檢測、模式識別和場景理解的準(zhǔn)確性較低;(3)低利用率,目前的監(jiān)控系統(tǒng)是為存儲數(shù)據(jù)并再由人工離線檢查而設(shè)計,大部分?jǐn)?shù)據(jù)在其生存期內(nèi)始終沒有用。這些是我們當(dāng)代智慧城市所不能忍受的,我們需要升級這些“眼睛”。
在這次報告中,他也首次指出數(shù)字視網(wǎng)膜包含的三個核心技術(shù):
1、基于背景模型的場景視頻編碼?,F(xiàn)有監(jiān)控攝像頭采用的視頻編碼技術(shù)標(biāo)準(zhǔn)對監(jiān)控視頻編碼效率不高,因為這些標(biāo)準(zhǔn)主要是針對廣播電視視頻制定的。在監(jiān)控場景下,大多數(shù)攝像頭是固定的,背景相對不變,因而如能夠利用背景預(yù)測,消除相應(yīng)的冗余信息,那么編碼效率將大大提高。
2、視頻特征的緊湊表達(dá)。視覺表征是圖像視頻分析處理的基礎(chǔ),如果在攝像頭端利用人工設(shè)計特征與深度學(xué)習(xí)特征自適應(yīng)融合技術(shù)提取幀內(nèi)幀間視覺緊湊表示,然后傳送到云端,就能大大提高搜索效率。他們曾實驗表明平均每幀僅需100bit,可達(dá)到與未經(jīng)壓縮特征相當(dāng)甚至更高的檢索性能。
3、視頻編碼與特征編碼的聯(lián)合優(yōu)化。上述兩種數(shù)據(jù)信息并不是相互獨(dú)立的,而是相互關(guān)聯(lián),可互為指導(dǎo)的,因此數(shù)字視網(wǎng)膜在同時輸出壓縮視頻流和緊湊特征流時,可以根據(jù)碼流的大小,設(shè)計聯(lián)合優(yōu)化函數(shù)來計算如何分配各自的碼率,從而在保持分析檢索性能的情況下,進(jìn)一步達(dá)到壓縮需求,如下圖所示。
從圖中可以看出,在保持視頻編碼性能基本不變的情況下,特征編碼可大幅度壓縮。
高文院士也提到數(shù)字視網(wǎng)膜的三個特點,分別為高性能、高效率和可伸縮。
在這次報告中,還值得一提有兩點。首先,他指出數(shù)字視網(wǎng)膜是可軟件定義的,即特征學(xué)習(xí)模型和攝像機(jī)參數(shù)可以實時地從云中心更新(后面又對這一概念做了升級);其次,針對當(dāng)前大多數(shù)仍然是傳統(tǒng)攝像頭(而非數(shù)字視網(wǎng)膜攝像頭)的實際情況,他提出了基于智能邊緣節(jié)點的解決方案,也即將負(fù)責(zé)特征提取的“視網(wǎng)膜”功能部署在邊緣匯聚服務(wù)器,而不是更換已經(jīng)部署的攝像頭。
盡管“數(shù)字視網(wǎng)膜”整個框架都已經(jīng)搭建完整,且已經(jīng)在杭州、山東文登、重慶等地做了實際試點,但直到2018年初,相關(guān)工作才首次正式見于刊物。
2018年初,高文院士,北京大學(xué)田永鴻教授,以及阿里巴巴首席技術(shù)官王堅博士(2019年被評選為中國工程院院士)在《中國科學(xué)》期刊上聯(lián)名發(fā)表了一篇名為《數(shù)字視網(wǎng)膜:智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)》。[1]
這篇文章首次完整、清晰且嚴(yán)謹(jǐn)?shù)囟x了「數(shù)字視網(wǎng)膜」的概念:
如何借鑒“人類視網(wǎng)膜同時具有影像編碼與特征編碼功能”這一生物特性來研究和設(shè)計一種更高效的攝像頭。我們稱之為數(shù)字視網(wǎng)膜攝像頭(retina-like camera),簡稱為數(shù)字視網(wǎng)膜(digitalretina)。
數(shù)字視網(wǎng)膜的核心在于“單攝像機(jī)雙數(shù)據(jù)流”,其中壓縮視頻流是為了存儲和離線觀看,而緊湊特征流則是為了大數(shù)據(jù)分析與搜索。
文章也對不久前安博會上報告內(nèi)容做了更為嚴(yán)謹(jǐn)?shù)拿枋?,同時也首次提出了數(shù)字視網(wǎng)膜所必須滿足的五個條件:(a)使用全網(wǎng)統(tǒng)一的時間;(b)提供精確地理位置;(c)提供視頻數(shù)據(jù)的高效編碼功能;(d)提供視頻數(shù)據(jù)的緊湊特征表達(dá);(e)支持視頻編碼與特征表達(dá)的聯(lián)合優(yōu)化。
考慮數(shù)字視網(wǎng)膜研究未來可能的演化路線,高文等人在這篇文章中提出三點,分別為:(1)標(biāo)準(zhǔn)化,該研究落地到實際生活中,必須在不同廠商及城市之間形成統(tǒng)一的標(biāo)準(zhǔn);(2)軟硬件開源,對于這樣的基礎(chǔ)工程來講,如果無法做到軟硬件開源,相關(guān)的技術(shù)和產(chǎn)品就無法做到有效的開發(fā)和應(yīng)用;(3)大規(guī)模測試床,這也是我們前面所提到的,不同于理論研究,數(shù)字視網(wǎng)膜本身更偏向應(yīng)用工程,因此必須有真實場景的測試才能夠推進(jìn)發(fā)展。
針對以上三點,高文院士等人也有相應(yīng)的動作,例如積極推動的AVS2、MPEG CDVS及其擴(kuò)展MPEG CDVA等。[9]
此外,2017年7月,由高文院士、潘云鶴院士、黃鐵軍教授等帶頭發(fā)起成立的「新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟」,也在創(chuàng)立之初就積極推動成立人工智能開源開放平臺建設(shè)。[10]
在尋求建立大規(guī)模測試平臺來評估和展示數(shù)字視網(wǎng)膜架構(gòu)的技術(shù)優(yōu)勢方面,除與阿里云合作在杭州試點外,2018年3月,深圳市也成立了“鵬城實驗室”,高文院士擔(dān)任實驗室主任,由此開啟了深圳試點。[11]
因此,《數(shù)字視網(wǎng)膜:智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)》這篇文章的發(fā)表具有標(biāo)志性意義,它也意味著高文院士對于「數(shù)字視網(wǎng)膜」的定義正式成形,研究格局基本確立。
按照上述所示的框架,高文院士所帶領(lǐng)的團(tuán)隊(包括其所擔(dān)任董事長的博雅鴻圖)一直在完善從前端到后端,從軟件到硬件的探索和設(shè)計。
從本質(zhì)上來說,智慧城市的數(shù)字視網(wǎng)膜便是在攝像頭中嵌入芯片,從而能夠?qū)@取的視覺數(shù)據(jù)經(jīng)過高效編碼和緊湊特征提取后,傳送給城市大腦(后端云),以便更為高效、靈活地檢索和分析。這里涉及到兩種數(shù)據(jù)流,分別為視頻編碼流和特征編碼流。
但這種架構(gòu)忽視了一個問題,即數(shù)字視網(wǎng)膜的芯片在做特征提取時,依賴于良好的深度學(xué)習(xí)模型。為了保障特征提取的準(zhǔn)確性,城市大腦通常需要利用搜集到的數(shù)據(jù)進(jìn)行學(xué)習(xí),訓(xùn)練相應(yīng)的模型,再將學(xué)到的模型發(fā)送給前端設(shè)備。因此,模型的生成、利用和通信對數(shù)字視網(wǎng)膜至關(guān)重要,特別是視頻數(shù)據(jù)在位置、時間和環(huán)境等方面差異很大的情況下。因此,在視頻編碼流和特征編碼流之外,模型編碼流同樣是非常重要的一部分。
因此,隨著對數(shù)字視網(wǎng)膜實踐和認(rèn)識的深入,其結(jié)構(gòu)由「雙流」變?yōu)榱恕付嗔鳌梗阂曨l編碼流、特征編碼流和模型更新流。
針對這一概念,高文院士最早是在2019年11月底在山東濟(jì)南召開的“2019世界人工智能融合發(fā)展大會”上提出的。[12]
但事實上,他們對此的研究早已開始。
在2019年7月,由北大段凌宇教授課題組在計算機(jī)多媒體領(lǐng)域國際學(xué)術(shù)會議IEEE ICME上發(fā)表了《智慧城市數(shù)字視網(wǎng)膜的模型生成、利用和傳輸范式》(Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm)一文[13],這篇文章首次提出視頻流、特征流與模型流的協(xié)作計算模式,以克服端-邊-云環(huán)境下的模型復(fù)用與傳輸瓶頸。值得一提的是,這篇文章還獲得了這屆會議的最佳論文獎。[14]
段凌宇教授課題組在數(shù)字視網(wǎng)膜研究與實踐中發(fā)現(xiàn),數(shù)字視網(wǎng)膜計算框架下的邊緣節(jié)點緩存了大量表征模型與無標(biāo)簽數(shù)據(jù)。為此,課題組提出了一種多模型復(fù)用機(jī)制,有效利用了邊緣節(jié)點緩存的模型和數(shù)據(jù),生成更具域適應(yīng)性和判別力的目標(biāo)模型。針對多模型復(fù)用過程中的模型訓(xùn)練穩(wěn)定性,論文給出了理論證明與分析,并在實驗中取得了相比傳統(tǒng)方法更優(yōu)的性能增益。在視網(wǎng)膜計算框架下,模型的頻繁傳輸與部署會帶來較大的通信開銷。為了提升模型更新效率,進(jìn)一步提出了模型間高效通信的新問題,并提出了一種新穎的差分模型壓縮方法,相比傳統(tǒng)的單模型壓縮方法,可有效降低模型傳輸碼率開銷。該論文圍繞視頻流、特征流、模型流,提出了城市視覺系統(tǒng)中的協(xié)同計算新問題,對于未來數(shù)字視網(wǎng)膜理論研究與實踐具有指導(dǎo)意義。[14]
2019年10月由博雅鴻圖公司研制的第一款數(shù)字視網(wǎng)膜芯片—“鴻圖 TMGV9531ESHI”流片成功。在同月的第二屆雁棲航天論壇上,高文院士對該芯片進(jìn)行了詳細(xì)介紹。
在“2019世界人工智能融合發(fā)展大會”上,高文院士提到,[12] “第一款數(shù)字視網(wǎng)膜芯片已經(jīng)在路上,很快就會發(fā)布,這個芯片很小,就像一塊錢硬幣一樣,但卻把我剛才說的三個本質(zhì)特征、八個功能全都包含在里面。將來,這種芯片可能會直接進(jìn)入各種智能交通的系統(tǒng)里,會支撐數(shù)字視網(wǎng)膜的應(yīng)用。”
2019年11月22日在杭州舉行了第一款數(shù)字視網(wǎng)膜芯片發(fā)布會和數(shù)字視網(wǎng)膜生態(tài)伙伴啟動儀式,正式命名為“鴻芯圖騰GV9531”對外亮相。
“鴻芯圖騰GV9531”是首款支持?jǐn)?shù)字視網(wǎng)膜技術(shù)體系的智能芯片,也是首顆AVS2視頻編碼芯片,它對數(shù)字視網(wǎng)膜技術(shù)進(jìn)行了完整的詮釋,支持全局統(tǒng)一的時空ID、多層次視網(wǎng)膜表示和模型更新及軟件定義,在邊緣端實現(xiàn)數(shù)字視網(wǎng)膜技術(shù)的高能效處理,不僅能減少進(jìn)入云端的無用數(shù)據(jù)量,還能大大降低視頻數(shù)據(jù)處理的成本,是數(shù)字視網(wǎng)膜邊云系統(tǒng)視覺計算框架的核心算力支撐平臺,是視覺邊緣計算、多流智能處理、實現(xiàn)腦眼合一的視覺計算系統(tǒng)不可缺少的關(guān)鍵環(huán)節(jié)。
另外,在新的一年里面,數(shù)字視網(wǎng)膜的研究會有什么新的進(jìn)展?更為重要的是,在這一領(lǐng)域,它能夠給研究者帶來哪些值得研究的新課題?它能夠給芯片廠商、安防廠商帶來什么新的商機(jī)?
這是我們所期待的!
聲明:本頁內(nèi)容由湖南景煌網(wǎng)絡(luò)通過網(wǎng)絡(luò)收集編輯所得,所有資料僅供用戶參考;本站不擁有所有權(quán),也不承認(rèn)相關(guān)法律責(zé)任。如您認(rèn)為本網(wǎng)頁中有涉嫌抄寫的內(nèi)容,請及時與我們聯(lián)系進(jìn)行舉報,并提供相關(guān)證據(jù),工作人員會在5個工作日內(nèi)聯(lián)系您,一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。如果您對網(wǎng)站優(yōu)化核心技術(shù)文章感興趣,請點擊查看網(wǎng)站建設(shè)和網(wǎng)站推廣的相關(guān)文章,請關(guān)注湖南景煌網(wǎng)絡(luò)官網(wǎng)(www.banjiwang.cn)
全國7x24小時客服熱線
50倍賠付終端服務(wù)時間
部分產(chǎn)品可享受15天無理由退款
全國多家分公司便捷服務(wù)
持續(xù)陪伴企業(yè)成長,共創(chuàng),共贏
幫助企業(yè)建設(shè)全網(wǎng)營銷生態(tài)鏈
讓企業(yè)與用戶快速連接一切
為企業(yè)與用戶搭建共享開發(fā)平臺
0731-82272030
公司地址:長沙市雨花區(qū)韶山北路460號(原86號)興威名座北棟1202室
長沙市芙蓉區(qū)、天心區(qū)、岳麓區(qū)、開福區(qū)、雨花區(qū)、望城區(qū)均可提供上門洽談服務(wù)
湖南景煌網(wǎng)絡(luò)科技有限公司--為你提供網(wǎng)站建設(shè)、百度SEO、網(wǎng)站優(yōu)化、網(wǎng)絡(luò)推廣、百度排名、小程序開發(fā)等服務(wù)
微信公眾號