河南省科學(xué)院新型顯示技術(shù)研究所副所長伍世虔在2025中國國際Mini/Micro-LED產(chǎn)業(yè)技術(shù)峰會上發(fā)表《人眼視覺交互技術(shù)》主題報(bào)告。
眼睛除了被動(dòng)接收信號,還可以起到操控的作用。人眼視覺很有意義,在所有的信息接收里面,視覺接收的信息占到一個(gè)人所能夠感知信息的80%,所以如何利用眼睛去做一些交互,捕捉視覺注意力進(jìn)而解讀意圖是很有意義的。
用人眼視覺進(jìn)行交互,常常用到的設(shè)備叫眼動(dòng)儀,在眼動(dòng)儀里面,通過攝像頭看到眼睛,通過另外一個(gè)攝像頭看到場景,那么眼動(dòng)儀實(shí)際上核心的工作是需要把眼睛在看場景的哪個(gè)點(diǎn),這個(gè)關(guān)系建立起來,這是眼動(dòng)儀要實(shí)現(xiàn)的基本的也是最重要的功能。這樣的技術(shù),它的關(guān)鍵模塊、關(guān)鍵技術(shù)有哪些?第一個(gè)是要把眼睛找出來,也就是把瞳孔找到。第二步,眼睛看到的是什么,這個(gè)叫凝視點(diǎn)估計(jì)。瞳孔檢測,以及凝視點(diǎn)估計(jì),這兩個(gè)合在一起叫做眼動(dòng)追蹤技術(shù)。第三,每個(gè)人的人眼,看東西的習(xí)慣,以及長得不一樣等因素會導(dǎo)致需要求出的眼睛跟凝視點(diǎn)的函數(shù)是不同的,所以,需要做系統(tǒng)標(biāo)定,當(dāng)把這樣的系統(tǒng)做好了以后,這個(gè)系統(tǒng)就可以進(jìn)行各種各樣的交互模式。眼動(dòng)交互技術(shù)大概就是由曈孔檢測、凝視點(diǎn)估計(jì)、系統(tǒng)標(biāo)定、交互模式這幾個(gè)關(guān)鍵模塊所組成。
接下來介紹眼動(dòng)交互系統(tǒng)相關(guān)的技術(shù)特點(diǎn)和應(yīng)用。一般來說,用眼動(dòng)去做一個(gè)應(yīng)用的時(shí)候,這個(gè)系統(tǒng)往往需要有一個(gè)比較強(qiáng)的約束。因此就需要思考能不能把這個(gè)約束放小,能不能走到在一種自然的環(huán)境下,不管是在室內(nèi)還是室外,只要戴上眼動(dòng)儀就可以工作,這是我們要解決的問題。另外,眼睛一動(dòng)以后,又要重新標(biāo)定,如果每次用一下都要重新標(biāo)定很麻煩,所以如何使標(biāo)定能夠顯得很自然,在使用過程中做到在線標(biāo)定也是很重要的工作,這樣系統(tǒng)才能好用。還有,現(xiàn)在是三維空間的交互,希望實(shí)現(xiàn)的是,第一希望在自然環(huán)境下的眼動(dòng)交互,第二普適場景下的自標(biāo)定,第三希望是三維情境下的大規(guī)模意圖表征與推理。
對于眼動(dòng)追蹤系統(tǒng)來說,要做到魯棒,這個(gè)難度很大。魯棒表現(xiàn)在兩方面,第一是對于瞳孔的檢測,瞳孔檢測經(jīng)常會遇到這些問題:眼睛動(dòng),有眉毛的干擾,還有瞳孔反光會有光斑點(diǎn),這些都導(dǎo)致檢測的時(shí)候不夠魯棒。我們團(tuán)隊(duì)目前用到的方法是在以前所做的人臉檢測工作的基礎(chǔ)上,再結(jié)合人眼自身的特點(diǎn)提出的一套方法。
如何把凝視的視線估計(jì)準(zhǔn)?第一是做到在3D環(huán)境下,而不是2D;第二是要把瞳孔估計(jì)得好,用瞳孔中心-反光點(diǎn)向量作為輸入特征,減少設(shè)備滑移影響;在這個(gè)基礎(chǔ)上,第三是基于真實(shí)瞳孔軸線方法來進(jìn)一步提高精度,現(xiàn)在能夠達(dá)到的精度是1度左右。
自標(biāo)定方面,函數(shù)G = F (E ; λ)的估計(jì)存在一個(gè)問題,人眼的特征(E)可以知道,凝視點(diǎn)(G)也知道,但是λ不知道,這個(gè)λ意味著頭戴設(shè)備的滑動(dòng)也會變好,所以需要做一個(gè)標(biāo)定。技術(shù)怎么做到?因?yàn)镕是非線性函數(shù),要求λ 很難,那么,可以構(gòu)建新的眼動(dòng)特征,使其與凝視點(diǎn)存在線性關(guān)系,即使眼鏡有滑移也沒關(guān)系,戴著眼鏡看到的場景就是標(biāo)定的過程,因此可以做到在線自標(biāo)定。
這個(gè)工作目前的應(yīng)用,一是可以用眼動(dòng)做成眼動(dòng)鍵盤;二是做成眼動(dòng)鼠標(biāo),不用鼠標(biāo),通過眼動(dòng)來控制;還有眼控相機(jī),眼睛看到哪里,相機(jī)可以跟著;還有手眼協(xié)調(diào)操控,鍵盤、鼠標(biāo)完全不需要,眼鏡的操控能力還差一點(diǎn),通過眼鏡再加上手就可以完成復(fù)雜的功能??梢宰龅轿谋鹃喿x與翻譯,即人在閱讀的時(shí)候,只要看到一個(gè)文字停在那里以后,系統(tǒng)就可以給出翻譯。還有就是模擬一個(gè)博物館,只要眼睛一看到某個(gè)東西,系統(tǒng)就可以介紹這樣?xùn)|西。
老人的語言功能差了以后,想看什么眼睛一定會動(dòng),我們團(tuán)隊(duì)的工作研究通過追蹤眼睛理解人的意圖,然后由機(jī)器人來幫人完成。目前也在跟一家公司合作,研究是否能通過眼動(dòng)儀來檢測一個(gè)人的生理健康和心理健康。還有人和機(jī)器結(jié)合的老年人服務(wù)系統(tǒng),團(tuán)隊(duì)也發(fā)表了一些文章和申請專利。
關(guān)注我們
公眾號:china_tp
微信名稱:亞威資訊
顯示行業(yè)頂級新媒體
掃一掃即可關(guān)注我們