本體支持的視頻語義概念探測
1 引言視頻語義內(nèi)容分析的目標(biāo)是抽取視頻包含的高層語義內(nèi)容,為用戶提供語義概念的視頻瀏覽、檢索服務(wù),語義概念探測是實現(xiàn)這一目標(biāo)的核心步驟,并成為近期視頻語義內(nèi)容分析領(lǐng)域的重要研究方向。
以往的視頻概念探測主要采用基于內(nèi)容的方法,即通過抽取概念具有的低層特征,學(xué)習(xí)某種關(guān)聯(lián)模型(基于規(guī)則的或是基于統(tǒng)計機(jī)器學(xué)習(xí)的),直接的、獨立的建立低層特征與概念之間的關(guān)聯(lián),探測視頻概念。
基于規(guī)則的方法是在抽取特征的基礎(chǔ)上,對特征進(jìn)行簡單或者復(fù)雜的閾值判定。這種關(guān)聯(lián)模型的缺點是閾值確定難、算法不魯棒,并且簡單的閾值判斷難以有效的表征概念具有的特征多樣性。因此,目前采用較多的是基于統(tǒng)計機(jī)器學(xué)習(xí)的關(guān)聯(lián)模型,即通過某個機(jī)器學(xué)習(xí)模型學(xué)習(xí)標(biāo)注的樣本數(shù)據(jù)中低層特征與視頻概念之間的統(tǒng)計概率關(guān)聯(lián)模式,然后采用訓(xùn)練好的機(jī)器學(xué)習(xí)模型對新的樣本進(jìn)行識別,探測視頻概念。目前的研究表明,支持向量。
和最大熵模型(maximum entropy model,簡稱mem)是兩類較為有效的用于概念探測的機(jī)器學(xué)習(xí)模型。
但是,由于語義鴻溝的存在,低層特征和高層語義的關(guān)聯(lián)并不是一一對應(yīng)。不同的視頻概念可能具有相似的低層特征,相同的視頻概念也可能具有完全不同的低層特征,基于內(nèi)容的獨立概念探測方法難以克服這個問題。另一方面,視頻中的概念并不是獨立出現(xiàn)的,不同的概念總是同時出現(xiàn)在視頻幀序列中。顯然,不同概念的共現(xiàn)性將增加低層特征模式的復(fù)雜性,進(jìn)而影響?yīng)毩⒌母拍钐綔y性能。但是,從另外一個角度思考,不同概念間的關(guān)系信息也為概念探測提供了重要的上下文信息,例如:包含“汽車”概念的視頻片段,具有很大的可能包含有“道路”概念。重要的是如何有效的建模和利用這些信息。
針對語義概念探測存在的困難,本文提出了本體支持的視頻語義概念探測方法。一方面通過定義中層語義以減小語義鴻溝,建立低層特征與高層語義關(guān)聯(lián)的橋梁;另一方面利用概念間的關(guān)系和上下文語境,在概念探測中加入語義線索,提高概念探測器的語義識別能力。查看更多網(wǎng)絡(luò)營銷畢業(yè)論文。
而本體作為合適的知識建模工具可以有效的描述視頻語義內(nèi)容和建模領(lǐng)域知識,因此利用本體增強(qiáng)概念探測的語義表達(dá)和識別能力是必需的也是可行的。
2 本體支持的概念探測框架視頻內(nèi)容跨越了低層感知特征、感知特征模式、簡單語義概念、復(fù)雜語義概念諸多層次,并不是簡單的特征層和語義層就能表示的;更為重要的是,這種層次結(jié)構(gòu)建立了視頻內(nèi)容從低層特征到高層語義的內(nèi)在關(guān)聯(lián)過程,為跨越語義鴻溝提供了有效途徑。另一方面,視頻語義內(nèi)容分析的本質(zhì)就是各個層次內(nèi)容的分析抽取和各個層次之間關(guān)聯(lián)的建立。
基于以上分析,定義感知概念和語義概念如下:
定義 1 感知概念 (perception concept)感知概念是視頻中特征相似、反復(fù)出現(xiàn)的感知特征模式的抽象。這里的低層感知特征模式指視頻流中具有相同視覺或聽覺特征模式的時序或空間分割,例如:具有相同顏色特征的區(qū)域、具有相同音頻特征的視頻片段等,是語義概念在低層感知特征空間中最基本的表征。
定義 2 語義概念 (semantic concept)語義概念對應(yīng)視頻中的特定時間片段或空間區(qū)域。語義概念是用戶分析視頻內(nèi)容時關(guān)心的基本概念;從低層特征上看,語義概念具有明顯的、容易區(qū)別的低層感知特征模式,能夠表現(xiàn)為一個感知概念或多個感知概念和其關(guān)系的組合。
在上述概念定義的基礎(chǔ)上,提出視頻領(lǐng)域知識本體和視頻概念擴(kuò)展本體建模上下文信息和視頻低層特征與高層概念的關(guān)聯(lián)關(guān)系。
定義視頻領(lǐng)域知識本體(video knowledge ontology,簡稱vko)為一個二元組,表示視頻領(lǐng)域知識中的概念的集合和概念間關(guān)系的集合。概念表示為一個五元組:名稱、標(biāo)簽、關(guān)系集、同義詞集、描述文本;概念間語義關(guān)系包括四類:kind ? of 關(guān)系、instance ? of關(guān)系、part ? of 關(guān)系、attribute ? of 關(guān)系。需要指出的是,在實際知識建模過程中,概念間的關(guān)系不限于上述定義幾種基本關(guān)系,可以根據(jù)目標(biāo)領(lǐng)域的具體情況定義相應(yīng)的關(guān)系。
其中,vlo (video linguistic ontology),表示視頻概念擴(kuò)展本體中的語言層本體,即視頻內(nèi)容中的語言級概念和概念間關(guān)系的集合。這里的語言級概念對應(yīng)于視頻內(nèi)容層次結(jié)構(gòu)模型中定義的視頻概念。
vpo(video perception ontology),表示視頻概念擴(kuò)展本體中的感知概念層本體,即視頻內(nèi)容中感知特征層中蘊含的感知特征模式和其關(guān)系的集合。
語義概念的探測應(yīng)該從兩個方面進(jìn)行考慮。一方面是發(fā)現(xiàn)概念具有的低層特征模型,稱為特征匹配。感知概念的抽象和定義建立了低層特征和視頻概念兩個層次之間的中間語義,避免直接建立低層特征和視頻概念間的關(guān)聯(lián),減小語義鴻溝問題帶來的影響。從低層特征角度看感知概念是低層特征模式的抽象,具有特征穩(wěn)定性和一致性;從高層語義角度看,視頻概念總是表現(xiàn)為若干感知概念的組合,因此感知概念也具有一定的語義。因此,首先抽取視頻概念關(guān)聯(lián)的感知概念,然后從感知概念中抽取低層特征訓(xùn)練統(tǒng)計機(jī)器學(xué)習(xí)模型,識別語義概念。
另一方面是建模并利用上下文信息增強(qiáng)概念探測方法的語義理解和識別能力,稱為上下文信息匹配。提出的視頻概念擴(kuò)展本體的語言層定義了概念之間的關(guān)系,同時“概念描述”、“同義詞集”、“關(guān)聯(lián)概念”等概念描述屬性完整、準(zhǔn)確的描述了概念包含的上下文信息。
同時,利用vocr 和語音識別技術(shù)可以從視頻片段中抽取文本信息,這些文本信息中出現(xiàn)的概念術(shù)語為語義概念探測提供了語義線索,能夠增強(qiáng)概念探測的準(zhǔn)確率。本文提出的本體支持的概念探測方法。
視頻概念探測主要分為三個部分:上下文信息匹配、特征匹配和匹配結(jié)果融合。在上下文信息匹配中,一方面通過vocr 和語音識別技術(shù)從視頻片段提取文本信息,另一方面通過視頻概念擴(kuò)展本體的定義獲取待探測概念的描述和與其關(guān)聯(lián)的概念,則二者的相關(guān)程度暗示了待探測概念出現(xiàn)的可能,上下文信息匹配將定量計算這種相關(guān)程度。特征匹配根據(jù)低層感知特征相似性計算視頻片段中包含視頻概念的可能性,首先通過視頻概念擴(kuò)展本體的定義獲取待探測概念包含的感知概念,然后抽取視覺對象特征訓(xùn)練概念分類器,計算視覺對象匹配程度,同時統(tǒng)計視頻片段包含其他感知概念的情況,計算其他感知概念匹配結(jié)果。最后,通過一種融和策略,對匹配結(jié)果進(jìn)行融合,融合結(jié)果表示概念探測結(jié)果。
3 上下文信息匹配語義概念具有的上下文信息包括兩個方面,一是概念本身的描述所蘊含的上下文信息。
本文在視頻概念擴(kuò)展本體中定義概念描述包括兩個部分,一是對概念的內(nèi)在性質(zhì)、外在屬性的詳細(xì)闡述,可以幫助人們更好的理解概念;二是概念具有的同義詞集,即表達(dá)同一概念的不同語言術(shù)語。例如可以將概念“爆炸”描述為:在巨大響聲過后出現(xiàn)火光和濃煙。根據(jù)上述概念描述,如果在文本信息中探測到響聲、煙、火等術(shù)語,則表明很可能該段文本對應(yīng)的視頻片段包含有“爆炸”概念。又如概念“美國總統(tǒng)”可以使用不同的語言術(shù)語表達(dá),如“喬治.布什”、“美國國家元首”等等,如果在文本信息中探測到某個概念具有的同義詞術(shù)語,則表明該段文本對應(yīng)的視頻可能包含有該概念,而且同義詞出現(xiàn)的數(shù)量和頻度在一定程度上反映出該概念出現(xiàn)的可能性大小。
另一方面的上下文信息表現(xiàn)為概念間的關(guān)系。視頻概念擴(kuò)展本體中定義了兩類概念間關(guān)系,一類是語義關(guān)系,主要包括kind-of,instance-of 和part-of 三類父子層次關(guān)系;另一類是概念共現(xiàn)關(guān)系,定義為不同的概念在視頻中同時出現(xiàn)的概率大小。容易理解,具有強(qiáng)共現(xiàn)關(guān)系的概念趨向于同時出現(xiàn),因此一個概念的出現(xiàn)可以作為另一個概念探測的有力線索;語義關(guān)系表征的是概念間的語義相關(guān)性,而從自然語言的特點來看,語義相關(guān)的概念的出現(xiàn)具有集中性,因此概念語義關(guān)系為概念探測提供有用的上下文信息。
3.1 文本匹配文本匹配通過計算概念描述文本與視頻片段包含的文本之間的相似性來判斷視頻片段包含該概念的可能性大小。
視頻中包含的文本信息一方面來自于視頻伴隨音軌中的語音信息,另一方面來自于視頻中字幕、場景文字的識別,即vocr。本文采用scansoft 公司開發(fā)的nuance 系統(tǒng)[6](前身為ibm 公司開發(fā)的viavoice 引擎)作為語音識別工具和人工方法輔助視頻伴隨音軌文字標(biāo)注視頻中的語音信息;新聞視頻中的字幕包含了對視頻內(nèi)容的主要文本描述,因此在本文的研究中只考慮字幕文本的識別而不考慮場景文字的識別。本文采用郭金林等[7]提出的基于壓縮域特征的字幕定位與文字識別作為字幕文本識別工具。通過語音識別和vocr 抽取的文本信息記作vt。采用中科院的開源分詞軟件ictclas[8]進(jìn)行中文分詞,抽取vt 中包含的詞條集1 { }ni i nt nt = = 。對于英文分詞采用人工標(biāo)注方法處理。
概念描述文本通過視頻概念擴(kuò)展本體中的定義獲得,包括兩個部分:一是概念描述d,d ∈d,d 為本體中所有概念描述集合。另一個是概念同義詞集synonymslist 。對概念描述d 進(jìn)行分詞,從中抽取詞條集,與同義詞集合并組成概念描述詞條集{ } 1mj j c d c d == 。