<menu id="iq4wg"><menu id="iq4wg"></menu></menu>
  • <xmp id="iq4wg">
    <menu id="iq4wg"><menu id="iq4wg"></menu></menu>
    <nav id="iq4wg"><strong id="iq4wg"></strong></nav>
  • <menu id="iq4wg"><tt id="iq4wg"></tt></menu>
      當前位置:首頁 > 新聞中心 > 科研動態

    科研動態

    我所35篇論文被2022國際計算機視覺與模式識別大會(CVPR)接收

  • 發表日期:2022-03-18 【 【打印】【關閉】
  •   國際計算機視覺與模式識別大會(IEEE/CVF Conference on Computer Vision and Pattern Recognition,,簡稱CVPR)是計算機視覺和模式識別領域的頂級會議,2022年將在美國新奧爾良召開。據統計,自動化所共有35篇論文被本屆會議錄用,匯總整理如下(排序不分先后):

     

    01. AnyFACE: 自由式文本到人臉合成與操控 

    AnyFace: Free-style Text-to-Face Synthesis and Manipulation

      現有的文本到圖像生成的方法通常只適用于數據集中已有的單詞,然而,有限的單詞無法全面地描述一張人臉。因此,本文開創性地提出了一種自由風格的文本到人臉生成方法(AnyFace)以支持元宇宙、社交媒體、取證等更廣泛的應用。對于任意給定的文本,AnyFace 采用一個新型的雙通道網絡實現人臉的生成和編輯。首先用CLIP編碼器對人臉的文本和圖像特征進行編碼,跨模態蒸餾模塊用于實現視覺和文本空間的交互。此外,本文還采用了一個多樣化對比損失來生成更加多樣化和細密度的細節。在多個數據集上的實驗證明了算法的有效性。AnyFace可以在對輸入沒有限制的條件下實現高質量,高分辨率,多樣性的人臉生成和編輯。

      作者:Jianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun

     

    02. 基于獨立成分的藝術風格發掘

    Artistic Style Discovery with Independent Components

      目前大多數風格遷移模型通常選擇卷積神經網絡來實現高質量的圖像風格化,但這些方法很少對潛在的風格空間進行探索。在潛在的風格空間中,大量信息未能得到有效的利用,這導致生成的風格可控性差以及有限的實際應用。我們重新審視了風格特征的內在意義,并且提出了一種新穎的無監督算法。該算法用于生成多種風格并實現個性化操作。我們重新探索了風格轉移的機制,并從由不同風格特征組成的潛在空間中解耦出了不同的藝術風格成分。通過線性組合不同的風格成分可以生成多種新的風格特征。我們在AdaIN、SANet、Linear、MST上取得了不錯的效果。

      圖. 基于不同模型的多樣性風格化圖像

      圖. 風格特征由風格元件線性組合

      作者:Xin Xie, Yi Li, Huaibo Huang, Haiyan Fu, Wanwan Wang, Yanqing Guo

      

    03. 一種基于數據域和下游任務的預訓練模型 

    DATA: Domain-Aware and Task-Aware Pre-training 

      通過自監督學習 (SSL) 和對許多下游任務進行微調來在無標簽的海量數據上訓練模型的范式最近已成為一種趨勢。 然而,由于訓練成本高和下游使用的無意識,大多數自監督學習方法缺乏對應下游場景多樣性的能力,因為存在各種數據域、延遲約束等。 神經架構搜索 (NAS) 是一種公認的克服上述問題的方式,但在 SSL 上應用 NAS 似乎是不可能的,因為沒有提供用于判斷模型選擇的標簽或指標。在本文中,我們介紹了 DATA,這是一種簡單而有效的 NAS 方法,專門用于 SSL,提供數據域相關和任務相關的預訓練模型。具體來說,我們 (i) 首先訓練了一個超網,它可以被視為一組數百萬個網絡,涵蓋了廣泛的模型規模,沒有任何標簽,(ii) 其次提出了一種與 SSL 兼容的靈活搜索機制,可以針對沒有提供明確指標的各種下游視覺任務和數據域,找到不同計算成本的網絡。使用 MoCov2 實例化,我們的方法在下游任務的廣泛計算成本上取得了可喜的結果,包括圖像分類、目標檢測和語義分割。DATA 與大多數現有 SSL 方法正交,并賦予它們根據下游需求進行定制的能力。大量的實驗驗證了所提出的方法在其他 SSL 方法(包括 BYOL、ReSSL 和 DenseCL)上的普適性。 

      圖. DATA結構設計

      作者:Qing Chang, Junran Peng, Jiajun Sun, LingxiXie, Haoran Yin, Qi Tian, Zhaoxiang Zhang 

      代碼已開源在:https://github.com/GAIA-vision/GAIA-ssl 

       

    04. DINE:基于單個或多個黑盒預測模型的領域自適應方法研究 

    DINE: Domain Adaptation from Single and Multiple Black-box Predictors 

      為了減輕標注的負擔,無監督領域自適應學習旨在將先前和相關的已標注數據集(源域)中的知識轉移到新的無標注數據集(目標域)。盡管取得了令人印象深刻的進展,但現有的方法總是需要訪問原始的源域數據并依賴于此研發基于轉導學習的方式識別目標樣本,這可能會引起源域個體的數據隱私問題。最近的一些研究求助于另一種解決方案,即利用源域的已訓練白盒模型(模型參數可見),然而,它仍然可能通過生成對抗學習來泄露原始數據。 

      本文研究了無監督領域自適應一種實用且有趣的場景,即在目標域自適應期間只提供黑盒源域模型(即只有網絡的預測可見)。為解決這一問題,我們提出了一種新的兩步知識自適應框架(DINE)??紤]到目標數據結構,DINE首先將源預測器中的知識提取到定制的目標模型中,然后對提取的模型進行微調以進一步適應目標領域。此外,DINE不需要需要跨域的網絡結構一致,甚至可以在低資源設備上進行有效的自適應學習。在多個場景如單源、多源和部分集上的實驗結果證實,與最先進的數據依賴方法相比,DINE均獲得了極具競爭力的性能。 

      圖. 基于黑盒模型的無監督域自適應學習問題

      作者:Jian Liang, Dapeng Hu, Jiashi Feng, Ran He

      

    05. 基于稀疏Transformer的單步長3D物體檢測器 

    Embracing Single Stride 3D Object Detector with Sparse Transformer 

      在自動駕駛場景中,相比于整個場景的尺度,單個物體的尺度通常很小。下圖展示了COCO數據集和Waymo數據集上物體相對尺度的分布情況 

      

      圖. COCO和Waymo上物體相對尺度分布 

      這一特性往往被基于Pillar或者體素的檢測器所忽略,它們通常借用了成熟的2D多尺度檢測器的結構?;谶@一考量,本文探索了單步長(無降采樣)的檢測器結構。如果簡單地將卷積網絡提升為單步長網絡,會取得一定的性能提升,但是會帶來感受野不足的問題以及巨大的計算量。為了得到一個高效高性能的單步長檢測器,我們借用了當前流行的swin transformer的結構,舍棄了其多尺度的結構并且針對點云數據的特點將其稀疏化,我們將其命名為單步長稀疏Transformer(Single-stride Sparse Transformer, SST)。我們在當前最大的3D檢測數據集Waymo Open Dataset上做了詳盡的實驗,從各個方面探討了SST的特性,并取得了SoTA的性能,特別是在小物體上比之前的方法有了顯著的提升(達到了83.8的Level 1 AP)。 

      圖. Sparse Attention結構設計 

      作者:Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang 

      代碼已開源在:https://github.com/TuSimple/SST

      

    06. 基于夏普利值的少樣本后門防御 

    Few-shot Backdoor Defense Using Shapley Estimation 

      神經網絡在諸多領域有著廣泛的應用,但已有研究表明神經網絡容易遭受后門攻擊,造成潛在安全威脅,因此后門防御是一個非常重要的問題。已有后門防御工作通常需要較多訓練數據并剪除大量神經元,這些防御算法容易破壞網絡原本結構并依賴于來網絡微調操作。 

      為了更高效準確地去除神經網絡中的后門攻擊,我們提出一種基于Shapley value的ShapPruning后門去除算法。ShapPruning利用觸發器逆合成估計后門觸發器,并通過蒙特卡洛采樣以及epsilon-greedy算法高效估計神經網絡中各神經元與網絡后門攻擊行為的關聯程度,從而準確定位后門感染神經元,進而更精準的指導后門去除。相較于之前研究,我們的工作可以在每一類只有一張圖片的情況下去除后門攻擊,同時印證了后門攻擊只通過感染神經網絡中極少數神經元(1%左右)實現網絡操縱。同時,我們采用data-inverse的方法,從感染模型中恢復訓練數據,提出了一種無數據的混合模式ShapPruning算法,實現了無數據的神經后門去除。我們的方法在數據缺乏情況下,在CIIFAR10, GTSRB, YouTubeFace等數據集上針對已有后門攻擊方式均取得了很好的效果。 

      圖. ShapPruning后門防御算法 

      作者:Jiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao 

     

    07. 基于隱式樣本擴展的無監督行人重識別 

    Implicit Sample Extension for Unsupervised Person Re-Identification 

      現有的無監督行人重新識別(ReID)工作大都是通過聚類的方法來預測偽標簽,其中同一聚類中的樣本被認為具有相同的身份。然而,聚類通常會將不同的真實身份混合在一起,或者將相同的身份分成兩個或多個子集群。毫無疑問,對這些有問題的集群進行訓練會損害 Re-ID 的性能。 

      基于這一觀察,我們假設現有數據分布中可能缺少一些基礎信息,這些信息對于產生理想的聚類結果很重要。為了發現這些信息,提出了一種隱式樣本擴展(ISE)方法來生成我們所說的圍繞集群邊界的支持樣本。具體來說,我們開發了一種漸進線性插值(PLI)策略來指導支持樣本生成的方向和程度。PLI控制支持從實際樣本到其 K-最近聚類生成的樣本。同時,決定了應將多少來自 K-最近集群的上下文信息納入支持樣本。此外,為了提高支持樣本的可靠性,我們提出了一種保留標簽的損失ISE,強制它們接近原始樣本。有趣的是,有了我們的 ISE,聚類質量逐漸提高,上述子集群和混合集群的問題得到了很好的緩解。大量實驗表明,所提出的方法是有效的,并且在無監督行人重識別 Re-ID 設置下實現了最先進的性能。

      圖. ISE方法說明

      圖. 模型結構示意圖

      作者:Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang 

       

    08. 基于變分圖信息瓶頸的子圖識別方法 

    Improving Subgraph Recognition with Variational Graph Information Bottleneck 

      子圖識別問題是指識別圖結構數據中的與圖屬性有關的預測性子圖。該問題是圖神經網絡可解釋性分析、組織病理學分析以及魯棒圖分類等任務中的關鍵性問題。針對該問題,現有的方法通過優化圖信息瓶頸目標函數來識別預測性子圖。然而,由于互信息估計過程十分繁瑣且難以準確估計,現有的方法訓練耗時且不穩定,并極易得到退化解。因此,本文提出了變分圖信息瓶頸方法。該方法首先引入噪聲注入模塊,對圖數據中的節點依概率選擇性注入噪聲從而得到擾動圖。通過比較擾動圖與原始圖預測結果的差別來衡量注入噪聲節點的重要性。針對采樣過程不可導,我們設計了基于重參數化技巧的噪聲注入方法。通過引入噪聲注入模塊,我們將原始圖信息瓶頸目標函數轉化為變分圖信息目標函數,并利用變分技巧得到了目標函數的變分上界。通過優化該變分上界求解圖信息瓶頸問題,提高了優化過程的穩定性與速度。最后,將擾動圖中的噪聲節點去掉即得到了預測性子圖。我們在多種視覺任務和圖學習任務上測試了變分圖信息瓶頸方法。實驗結果表明該方法不僅易于優化,且在多種任務上取得很好的效果。

    圖. 基于變分信息瓶頸的子圖識別框架 

      作者:Junchi Yu, Jie Cao, Ran He

       

    09. 面向盲超分辨率的退化分布學習 

    Learning the Degradation Distribution for Blind Image Super-Resolution 

      當前的超分方法大多采用合成的成對的高清-低清樣本來訓練模型。為了避免合成數據與真實數據之間存在域差異,之前大部分方法采用可學習的退化模型去自適應地生成合成數據。這些降質模型通常是確定性的(deterministic),即一張高清圖片只能用來合成一張低清樣本。然而,真實場景中的退化方法通常是隨機的,比如相機抖動造成的模糊和隨機噪聲。確定性的退化模型很難模擬真實退化方法的隨機性。針對這一問題,本文提出一種概率(probabilistic)退化模型。該模型把退化當作隨機變量進行研究,并通過學習從預定義的隨機變量到退化方法的映射來建模其分布。和以往的確定性退化模型相比,我們的概率退化模型可以模擬更加多樣的退化方法,從而生成更加豐富的高清-低清訓練樣本對,來幫助訓練更加魯棒的超分模型。在不同的數據集上的大量實驗表明,我們的方法可以幫助超分模型在復雜降質環境中取得更好的結果。 

    圖. 基于概率退化模型的盲超分模型結構 

      作者:Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan 

       

    10. 種基于Meta-Memory的跨域小樣本語義分割方法 

    Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer 

      小樣本語義分割旨在通過使用少量標記數據來預測像素類別?,F有小樣本語義分割研究主要關注于在同一分布中采樣基類和新類。然而,現實中數據分布并不能保證都在同一分布中,實際中顯著存在的域偏移問題降低了小樣本學習的性能。為了解決這個問題,我們引入了一個有趣且具有挑戰性的跨域小樣本語義分割任務,其中訓練任務和測試任務在不同的域上執行。 

    圖. 跨域小樣本學習

      在學習過程中,我們使用一個元知識庫來存儲源域實例的域內樣式信息并將它們傳輸到目標域樣本,并且我們采用對比學習策略來約束遷移階段新類的判別信息,由于源域信息的載入,目標域與源域的domain gap被有效降低。實驗表明,我們提出的方法在4個數據集上的跨域少樣本語義分割任務上取得了優異的性能。

    圖. 模型結構設計 

      作者:Wenjian Wang, Lijuan Duan, Yuxi Wang, Qing En, Junsong Fan, Zhaoxiang Zhang 

       

    11. 重新思考圖像裁切:從全局視角探索多樣化的構圖 

    Rethinking Image Cropping: Exploring Diverse Compositions from Global Views

      圖像裁切是一種簡單有效的可以提升圖像構圖美感的方式?,F有的兩類模型,候選裁切評估模型和裁切坐標回歸模型,都有明顯的缺陷。候選裁切評估模型難以遍歷所有高質量裁切,無法滿足全局性要求;而裁切坐標回歸模型則只能輸出一個裁切結果,忽視了多樣性。針對全局性和多樣性不能兼得的問題,我們提出了一種基于軟標簽集合預測的圖像裁切模型。模型使用一組固定數量的可學習錨通過條件Transformer網絡回歸多個裁切?;貧w裁切與真實裁切進行二分圖匹配,匹配結果用于訓練一個輔助的有效性分類器,使模型可以從所有預測中挑選有效子集。為了緩解有效性分類硬標簽與無效裁切的真實質量之間的不一致性,我們進一步提出了兩種標簽平滑策略。第一種基于裁切的局部冗余性對質量分數進行直接估計并映射為軟標簽;第二種使用自蒸餾策略進行自主平滑。兩種策略分別適用于密集標注和稀疏標注的數據集。我們的模型在兩個版本的GAIC數據集和FLMS數據集上均取得突出效果,同時克服了兩類傳統模型的缺陷,能夠對圖像進行全局遍歷并找出多個高質量裁切。更加適用于真實場景的應用。

    圖. 基于軟標簽集合預測的圖像裁切模型 

      作者:Gengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He

      

    12. 自監督預測學習:一種用于視覺場景聲源定位的無負樣本方法 

    Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes 

      視覺和聲音信號在物理世界常常相伴而生。一般而言,人可以“較為輕松地”將耳朵聽到的聲音和眼睛看到的物體一一對應起來,從而根據聲音來定位發聲物體。為實現這一類人行為智能,現有方法大多基于對比學習策略來構建圖像和聲音特征之間的對應關系。但這類方法均以隨機采樣的方式形成對比學習的負樣本對,易引起不同模態特征之間的錯誤對齊,最終造成聲源定位結果的混淆。 

      在本文中,我們提出了一種無需使用負樣本的自監督學習方法,通過充分挖掘來自相同視頻的視頻幀圖像和聲音信號在特征水平上的相似性,來避免隨機采樣負樣本引起的定位混淆問題。 

      為實現這一目的,我們首先設計了一個三分支深度網絡,通過對同一視頻幀圖像進行數據增廣,來構建聲音特征與不同視角下的視覺特征之間的語義相關性;然后利用SimSiam式的自監督表示學習方法訓練模型;最后,使用聲音特征與視覺特征之間的相似性圖確定聲源位置。值得強調的是,提出的預測編碼(Predictive Coding)模塊有效實現了視覺模態和聲音模態之間的特征對齊,有望拓展應用到其它多模態學習任務,如視覺-語言多模態。 

      在兩個標準的聲源定位數據集(SoundNet-Flickr和VGG-Sound Source)上進行的定量和定性實驗表明,我們的方法在單聲源定位任務上表現最優,證明了所提方法的有效性。 

    圖. SSPL結構設計 

      作者:Zengjie Song, Yuxi Wang, Junsong Fan, Zhaoxiang Zhang, Tieniu Tan

       

    13. 基于稀疏實例激活的實時實例分割方法 

    Sparse Instance Activation for Real-Time Instance Segmentation 

      在本文中,我們提出了一種新穎、高效的全卷積實時實例分割框架。以前,大多數實例分割方法嚴重依賴目標檢測并基于邊界框或密集中心執行掩碼預測。相比之下,我們提出了一組稀疏的實例激活圖,作為新的對象表示,以突出每個前景對象的信息區域。然后根據高亮區域聚合特征得到實例級特征,進行識別和分割。此外,基于二分匹配,實例激活圖可以以一對一的方式預測對象,從而避免后處理中的非極大值抑制(NMS)。由于具有實例激活圖的簡單而有效的設計,SparseInst 具有極快的推理速度,在 COCO 基準測試中達到了 40.2 FPS 和 36.9 AP,在速度和準確性方面明顯優于現有方法。 

      圖. 在速度和精度上與現有實時實例分割算法的比較

    圖. SparseInst框架結構

      作者:Tianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu

      

    14. 基于窗口注意力機制的深度圖像壓縮 

    The Devil Is in the Details: Window-based Attention for Image Compression 

      近年來,基于深度學習的圖像壓縮方法表現出比傳統圖像壓縮方法具有更好的RD Performance。目前基于深度學習的圖像壓縮模型大都基于CNN。其主要缺點是CNN結構不是為捕捉局部細節而設計的,尤其是局部冗余信息,影響了重建質量。因此,如何充分利用全局結構和局部紋理成為基于深度學習圖像壓縮的核心問題。 

      受到ViT和 Swin的啟發,我們發現將局部感知注意力機制與全局相關特征學習相結合可以滿足圖像壓縮的預期。在本文中,我們首先廣泛研究了多種注意力機制對局部特征學習的影響,然后介紹了一種更直接有效的基于窗口的局部注意力塊。所提出的基于窗口的注意力非常靈活,可以作為即插即用組件來增強圖像壓縮模型。此外,本文提出了一種新穎的Symmetrical Transformer框架,是Transformer在圖像壓縮領域的第一次探索。 

      基于本文設計的Symmetrical Transformer框架和CNN框架在基于PSNR和MS-SSIM的量化指標上,均取得了新的SOTA性能。此外,在主觀質量上,也有明顯的改善。

    圖. Symmetrical Transformer結構設計 

      作者:Renjie Zou, Chunfeng Song, Zhaoxiang Zhang 

      代碼近期將開源:https://github.com/Googolxx/STF 

       

    15. 可遷移稀疏對抗攻擊 

    Transferable Sparse Adversarial Attack 

      研究對抗攻擊對深度神經網絡的魯棒性評估具有重要意義。在本文中,我們關注基于零范數約束的稀疏對抗攻擊,即修改圖像的少量像素點造成模型的錯誤輸出。已有稀疏對抗攻擊盡管取得了較高的白盒攻擊成功率,但由于過擬合目標模型,在黑盒攻擊中可遷移性較差。我們引入了一種生成器框架來緩解過擬合問題,從而有效地生成可遷移的稀疏對抗樣本。具體地,我們所設計的生成器將稀疏擾動解耦為幅值和位置,使用所設計的隨機量化算子,以端到端的方式聯合優化這兩個分量。實驗表明,與最先進的方法相比,我們的方法在相同的稀疏度下顯著提高了可遷移性和計算速度。 

    圖. 可遷移稀疏對抗攻擊框架 

      作者:Ziwen He, Wei Wang, Jing Dong, Tieniu Tan 

      代碼已開源: https://github.com/shaguopohuaizhe/TSAA  

      

    16. 基于低噪聲物體輪廓的弱監督語義分割 

    Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation 

      得益于深度神經網絡的迅速發展,語義分割研究在近年來取得了巨大進展。然而,生成像素級語義分割標簽需要巨大的時間和經濟投入。使用圖像類別、物體框、物體劃線、物體點標記等弱標簽訓練分割網絡可以有效降低時間和經濟成本。其中,圖像類別標簽成本最低,相關的弱監督分割研究最為活躍。這些方法通常會訓練一個分類網絡,基于分類網絡的類激活圖(CAM)生成分割偽標簽L1,利用L1訓練分割網絡,這種偽標簽通常不能覆蓋完整的前景物體。一些方法利用偽標簽L1訓練模型預測物體輪廓,并在輪廓約束下將CAM分數從高置信度前景區域傳播到低置信度前景區域,使生成的偽標簽L2包含更完整的前景物體。我們認為偽標簽L1缺乏足夠的高層語義信息來監督輪廓檢測網絡,輪廓網絡輸出的噪聲邊界會阻礙CAM分數傳播。為了得到低噪聲物體輪廓,我們訓練了SANCE模型,它包含一個輔助語義分割分支,該輔助分支通過主干網絡特征共享和在線標簽為輪廓檢測分支訓練提供足夠的高層語義信息,輔助分支預測的分割結果也提供了比CAM更好的前景物體分布信息,進一步提高了偽標簽質量。我們在Pascal VOC 2012 和COCO 2014數據集上進行了實驗,偽標簽訓練的語義分割網絡取得了SOTA性能。 

    圖. 模型結構設計 

      作者:Jing Li,Junsong Fan ,Zhaoxiang Zhang 

       

    17. 基于代表性片段知識傳播的弱監督時序行為定位 

    Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation 

      弱監督時序行為定位的目的是僅通過視頻類別定位出視頻中的行為邊界?,F有的許多方法大多基于分類的框架,并試圖生成偽標簽以減小分類任務和定位任務之間的差異?,F有的方法通常只利用有限的上下文信息來生成偽標簽,導致生成的偽標簽。為了解決這個問題,我們提出了一個提取出并傳播代表性的片段的弱監督時序行為定位框架。我們的方法旨在挖掘每個視頻中的代表性片段,以便在視頻片段之間傳播信息,以生成更好的偽標簽。對于每個視頻,我們的方法基于高斯混合模型生成其獨有的代表性片段,并將代表性片段根據分數優先的原則儲存在對應類別的記憶庫中。在得到代表性片段后,我們的方法利用所提出的雙向隨機游走模塊更新原始的視頻特征,利用更新后的視頻特征生成視頻的偽標簽,以在線的方式糾正主分支的預測結果。我們的方法在兩個基準數據集THUMOS14和ActivityNet1.3上獲得了優越的性能,在THUMOS14上的平均mAP高于最優方法1.2%。

    圖. 代表性片段知識傳遞框架 

      作者:Linjiang Huang, Liang Wang, Hongsheng Li 

       

    18. UniVIP:一個統一的視覺自監督預訓練框架 

    UniVIP: A Unified Framework for Self-Supervised Visual Pre-training 

      在視覺領域中,如何充分利用大量的無標簽視覺數據,構建一個高效的通用視覺自監督預訓練模型,有效降低下游任務數據標注量,在使用少量帶標簽數據甚至不使用數據微調即可獲得超越全監督模型的性能,具有非常重要的研究和應用價值。 

      然而,當前流行的自監督方法往往存在語義一致性問題,即僅對單目標圖像有效(如ImageNet),并且忽略了場景和實例之間的相關性,以及場景中實例的語義差異。為了解決上述問題,我們提出了一種統一的自監督視覺預訓練方法UniVIP,這是一種新穎的自監督框架,用于在單中心對象或多目標數據集上學習通用視覺表示。該框架考慮了三個層次的表示學習:1)場景-場景的相似性,2)場景-實例的相關性,3)實例-實例的區分。在學習過程中,我們采用最優傳輸算法來自動測量實例的區分度。 

      大量實驗表明,在多目標數據集 COCO 上預訓練的 UniVIP,在圖像分類、半監督學習、目標檢測和分割等各種下游任務上實現了最先進的性能。此外,我們的方法還可以利用 ImageNet 等單中心對象數據集,并且在線性評估中使用相同的預訓練 epoch時優于BYOL 2.5%,并且在 COCO 數據集上超越了當前的自監督目標檢測方法,證明了它的通用性和潛力。 

    圖. UniVIP框架圖

      作者:Zhaowen Li, Yousong Zhu, Yang Fan, Wei Li, Chaoyang Zhao, Yingying Chen, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang 

       

    19. C2AM損失:為長尾目標檢測任務追求更好的決策邊界 

    C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection 

      對于長尾目標檢測任務來說,線性分類器中不同類別對應的參數向量的模值呈現一個極度不均衡的分布。這種分類器參數模值的分布不均會產生病態的分類邊界(下圖(a)),使得分類器參數模值較小的類別有接近于零的精度。余弦分類器可以避免由于分類器參數模值分布不均導致的病態的分類邊界,但是其分類邊界位于兩個類別對應分類器參數向量的角分線上(下圖(b)),沒有考慮到類別的特性。 

      直覺上說,樣本豐富度比較小的類別在分類空間中應該占據較小的區域。為了使網絡為尾部類別學習到一個更加緊湊和本質的特征表示,我們提出了一種類別感知的角度間隔損失(Category-Aware Angular Margin Loss,C2AM Loss),通過加入與類別相關的自適應的角度間隔來對不同類別間的分類邊界進行調整。具體的公式如式(1)(2)所示。 

      該方法對比基線方法有顯著的性能提升(4.9%~5.2% APm),并且在LVIS數據集上超越了當前的長尾目標檢測算法,實現了同期的最好性能。 

    圖. 不同條件下的分類邊界示意圖

      作者:Tong Wang, Yousong Zhu, Yingying Chen, Chaoyang Zhao, Bin Yu, Jinqiao Wang, Ming Tang 

       

    20. APRIL:尋找視覺Transformer隱私泄露的關鍵弱點 

    APRIL: Finding the Achilles' Heel on Privacy Leakage for Vision Transformers 

      聯邦學習作為一種數據隔絕的分布式訓練框架能夠避免數據隱私的直接泄露。然而,梯度泄露攻擊 (gradient leakage)作為一種隱私攻擊方法,能夠從卷積神經網絡或全連接網絡的梯度中恢復數據的隱私信息。論文面向基于注意力機制的模型結構,分析了注意力模塊固有的隱私缺陷,提出了針對注意力模塊的閉式解攻擊和針對Transformer的基于優化的隱私攻擊方法APRIL。APRIL相比于已有的攻擊方法能夠在基于注意力結構的模型上獲得更好的隱私攻擊效果。論文還提出了針對APRIL攻擊的防御手段,為面向隱私保護的模型結構設計提供了啟發。 

      作者:Jiahao Lu, Xi Sheryl Zhang. Tianli Zhao, Xiangyu He, Jian Cheng 

       

    21. 基于本地正則化和稀疏化差分隱私的聯邦學習 

    Differentially Private Federated Learning with Local Regularization and Sparsification 

      用戶級差分隱私能夠為聯邦學習中任一用戶的數據提供可認證的隱私保證。然而,現有的確保用戶級差分隱私的方法都以嚴重損害模型精度為代價。論文研究了造成這種損害的原因,發現解決這個問題的關鍵是在執行保證差分隱私的操作之前,自然地限制本地權重更新的范數?;谶@一觀察,論文提出了有界局部更新正則化和局部更新稀疏化兩種技術,以達到在不犧牲隱私的前提下提高模型精度的目標,對框架的收斂性和隱私性進行了理論分析。大量的實驗表明,該框架顯著地改善了隱私與精度之間的權衡。 

      作者:Anda Cheng, Peisong Wang, Xi Sheryl Zhang, Jian Cheng 

       

    22. MixFormer:跨窗口與維度的特征融合 

    MixFormer: Mixing Features across Windows and Dimensions 

      基于局部窗口的自注意力(local-window Self-attention)可以廣泛應用在多個視覺任務上,然而它在應用的過程中面臨兩個問題:(1)感受野受限;(2)通道維度上的建模能力較弱。這是因為該方法在沒有重疊的局部窗口上做自注意力操作并且在通道維度共享參數導致的。論文提出了一種通用模型MixFormer,旨在解決上述問題。首先,MixFormer基于平行分支設計(parallel design),將局部自注意力(local-window Self-attention)與通道分離卷積(depth-wise Convolution)進行結合,融合了局部窗口的信息,擴大了感受野;其次,MixFormer根據不同分支上操作共享參數的維度不同,在平行分支之間,MixFormer提出雙向交互模塊(bi-directional interaction),融合不同維度信息,增強模型在各個維度的建模能力?;谝陨蟽牲c,MixFormer作為一個通用的模型,在圖像分類、目標檢測、實例分割、語義分割、人體關鍵點檢測、長尾實例分割等多個視覺任務上都取得了SOTA的結果。 

      作者:Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng, Jingdong Wang 

       

    23. 基于粗粒度和細粒度特征匹配的視頻描述評估 

    EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching  

      當前,視頻描述的評價方式主要基于參考文本和候選描述之間的文本比較。忽略了視頻描述任務的特性,可能導致有偏差的評估。因此,我們提出了 EMScore(Embedding Matching-based score),這是一種專用于視頻描述的新穎的無參考評價指標,其直接度量視頻和候選描述之間的相似度。實驗表明 EMScore 具有更高的人類相關性和更低的參考依賴性。 

      作者:Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha

       

    24. 基于視覺-語言驗證和迭代推理的視覺定位 

    Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation 

      近年來,從跨模態模型中進行知識蒸餾使得開放詞匯檢測任務取得了快速進展。然而,我們發現用單階段檢測器進行知識蒸餾所達到的效果遠不如雙階段檢測器,我們分析了產生這種差異的原因是雙階段方法中類別無關的物體候選覆蓋了未見類別,使得它在蒸餾時能學到未見類別的語義信息,而單階段方法中所定義的正樣本只包含已知類別,缺失了對新類別的學習。 

      為了彌補單階段方法因缺少類別無關物體候選的這種固有缺陷,我們提出了一種對未見類別物體進行隱式學習的弱監督方法。該方法通過caption與特征圖之間的跨模態注意力機制來進行語言到視覺的全局級知識蒸餾。憑借以上方案,我們顯著超過了過去最好的開放詞匯單階段檢測器。 

      作者:Li Yang, Yan Xu, Chunfeng Yuan*, Wei Liu, Bing Li, Weiming Hu

       

    25. 基于層次化視覺語言知識蒸餾的開放詞匯單階段檢測 

    Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning 

      本文提出了一個基于transformer的框架,通過建立文本關聯的判別性特征和多階段跨模態推理來實現準確的視覺定位(visual grounding)。具體來說,我們設計了一個視覺-語言驗證模塊(visual-linguistic verification module),使視覺特征關注于文本描述相關的區域,并抑制其它無關區域。同時我們還設計了一個語言指導的特征編碼器(language-guided feature encoder)來聚合目標的視覺上下文,提高其特征辨別性。為了從建立的視覺特征中檢索出目標,我們進一步提出了一種多階段的跨模態解碼器(multi-stage cross-modal decoder)來迭代推理圖像和語言之間的相關性,從而準確定位目標。我們在RefCOCO、RefCOCO+和 RefCOCOg數據集上進行了實驗,并取得了state-of-the-art的性能。

      作者:Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang,  Congxuan Zhang, and Weiming Hu

       

    26. 基于Transformer的圖象風格化 

    StyTr2: Image Style Transfer with Transformers 

      本文提出了一種基于變壓器(Transformer)的圖像風格遷移方法,即StyTr2,將輸入圖像的長期依賴關系引入到風格化中。與用于其它視覺任務的Transformer不同,本文設計的StyTr2包含兩個不同的Transformer編碼器,分別為內容和風格圖片生成具有不同域特征的序列。在編碼器之后,采用多層Transformer解碼器,根據風格序列對內容序列進行風格化。此外,本文分析了現有位置編碼方法的不足,提出了內容感知的位置編碼,該方法具有尺度不變特性,更適合于圖像風格化任務。與基于CNN和基于流的最新方法相比,定性和定量實驗均證明了StyTr2的有效性。 

    圖. 網絡結構 

    圖. 風格化結果比較

      作者:Yingying Deng, Fan Tang, Weiming Dong, Chongyang Ma, Xingjia Pan, Lei Wang, Changsheng Xu 

      代碼已開源:https://github.com/diyiiyiii/StyTR-2

      

    27. 基于細粒度時序對比學習的弱監督行為定位 

    Fine-grained Temporal Contrastive Learning forWeakly-supervised Temporal Action Localization 

      目前,弱監督視頻行為定位方法主要遵循于通過優化視頻級分類目標來實現定位的方式。這些方法大多忽略了視頻之間豐富的時序對比關系,因此在分類學習和分類-定位自適應的過程中面臨著極大的模糊性。本文認為通過考慮上下文的序列到序列對比可以為弱監督時序行為定位提供本質的歸納偏置并幫助識別連續的行為片段。因此,如圖1所示,本文在一個可導的動態規劃框架下,設計了包括細粒度序列距離對比和最長公共子序列對比在內的兩個互補的對比目標函數。在多個主流的基準數據集上的實驗結果表明本文方法取得了顯著的效果。 

    圖. 基于細粒度時序對比學習的弱監督行為定位方法框架 

      作者:Junyu Gao, Mengyuan Chen, Changsheng Xu 

     

    28. AME:超參數優化中的注意力和記憶增強 

    AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

      深度神經網絡的訓練受制于敏感的超參數和不及時的性能評估反饋。針對這兩個難點,在深度強化學習的框架下,本文提出了一種高效的并行超參數優化模型,命名為AME。從技術上講,本文開發了一種注意力和記憶增強結構,能夠精準搜索嵌入到巨大搜索空間中的高性能配置。具體地,該結構應用了多頭注意力機制和記憶機制,以增強神經網絡捕捉不同超參數配置間的短期和長期關系的能力。在AME的優化過程中,本文采用了概念直觀但功能強大的Bootstrap策略來解決由于性能評估反饋不及時而導致的樣本數量不足的問題。最后,在圖像分類、目標檢測、語義分割這三個視覺任務上進行實驗,證明了AME的有效性。  

    圖. 模型整體結構  

      作者:Nuo Xu, Jianlong Xing, Xing Nie, Shiming Xiang, Chunhong Pan  

     

    29. 視覺提示調優

    Vision Prompt Tuning

      在計算機視覺中,微調是廣泛采用的將預訓練視覺模型適應于下游任務的方法。然而,由于這類方法多采用低效的全局參數更新策略,以及嚴重依賴于高質量的下游數據,在實踐中部署非常具有挑戰性。最近,基于prompt的方法采用任務特定的提示以使下游任務適應預訓練模型,極大地提高了許多自然語言下游任務的性能。在本工作中,我們將這種顯著的遷移能力擴展到視覺模型中,作為微調的替代方案。為此,我們提出了視覺提示調整(VPT),這是一種參數高效的視覺調優范式,可將凍結的視覺模型適應到下游數據。VPT 的關鍵是基于提示的調優,即只學習與輸入圖像拼接的特定于任務的視覺提示,并凍結預訓練模型。通過這種方式,VPT只需訓練少量的額外參數即可產生輕量級、魯棒的下游模型。實驗證明我們的方法在大量的下游視覺數據集上優于當前的微調方法,包括圖像損壞、對抗性示例、長尾分布和OOD問題等。

      作者:Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan

     

    30. 基于架構增長的連續駕駛場景的連續立體匹配 

    Continual Stereo Matching of Continuous Driving Scenes with Growing Architecture 

      深度立體匹配模型近年來在駕駛場景中取得了先進的性能,但是其部署在未見過的場景時性能會嚴重下降。盡管最近的研究工作通過連續的在線自適應緩解了這個問題,但這種設定在模型推理時仍然需要不斷進行梯度更新,并且很難應對快速變化的場景。為了應對這些挑戰,本文提出了連續立體匹配問題,旨在讓模型能夠不斷地學習新場景,同時克服遺忘之前學習的場景,并且在模型部署時能連續地預測視差。本文通過引入可復用架構增長(RAG)框架來實現此目標。RAG利用基于特定任務的神經單元搜索和網絡架構增長來連續地學習新場景。在增長時,通過重用之前的神經單元來保持較高的復用率,同時獲得良好的性能。本文進一步引入了一個場景路由模塊,以在推理時自適應地選擇適用于特定場景的架構路徑。實驗結果表明,本文提出的方法在各種具有挑戰性的天氣和道路環境中都優于此前最先進的方法。 

    圖. 可復用架構增長(RAG)框架示意圖 

      作者:Chenghao Zhang, Kun Tian, Bin Fan, Gaofeng Meng, Zhaoxiang Zhang, Chunhong Pan 

       

    31. 基于層次解析膠囊網絡的無監督人臉部件發現 

    HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network 

    圖. 層級解析膠囊網絡的簡要說明

      膠囊網絡旨在通過一組部件以及部件之間的關系來表征物體,這對視覺感知過程提供了指導。盡管最近的工作證明了膠囊網絡在簡單對象(如數字)上的成功,但對具有同源結構的人臉的探索仍然不足。 

      在本文中,我們提出了一種層級解析膠囊網絡(HP-Capsule),用于無監督的人臉部件發現。在瀏覽沒有標簽的大規模人臉圖像時,網絡首先使用一組可解釋的子部分膠囊對經常觀察到的模式進行編碼。然后,通過基于Transformer 的解析模塊 (TPM) 將子部分膠囊組裝成部件級膠囊,以學習它們之間的組合關系。在訓練過程中,隨著人臉層次結構的逐步構建和細化,部件膠囊自適應地對具有語義一致性的人臉部分進行編碼。 HP-Capsule 將膠囊網絡的應用從數字擴展到人臉,并向前邁出了一步,展示了神經網絡如何在沒有人工干預的情況下理解同源對象。 

    圖. HP-Capsule模型結構示意 

      作者:Chang Yu, Xiangyu Zhu, Xiaomei Zhang, Zidu Wang, Zhaoxiang Zhang, Zhen Lei 

       

    32. 長尾視覺數據識別的嵌套式協同學習方法 

    Nested Collaborative Learning for Long-Tailed Visual Recognition 

      近年來,長尾分布數據的視覺識別問題受到了越來越多的關注。通過大量的實驗,我們發現在相同的訓練設置,不同的模型初始化下,長尾數據訓練出的模型表現出相當大的差異,這體現出了長尾學習中巨大的不確定性。為了減輕這種不確定性,我們提出了一種多專家網絡的嵌套式的協同學習方法(NCL),它由兩個部分組成,即嵌套個體學習(NIL)和嵌套平衡在線蒸餾(NBOD),前者著重于單個專家網絡的學習,后者則幫助多個專家網絡傳遞學到的知識,協同學習。NIL和NBOD都在嵌套的關系中學習,即基于所有類別的全局注意力學習和基于難類別的局部注意力學習。這樣的嵌套關系來自于我們提出的簡潔有效的難類別挖掘模塊(HCM)。對于網絡的輸出分數,HCM僅選擇部分擁有高分數的難類別作為網絡訓練的負類別,這樣便構建出了嵌套關系中的局部注意力。通過NCL,網絡的學習彼此嵌套、互補,這樣不僅有利于網絡捕捉到全局且魯棒的特征,還提升了網絡對更細粒度信息的區分能力。除此之外,自監督也被應用到其中,加強特征的學習。該方法在長尾數據庫CIFAR-10/100-LT, Places-LT, ImageNet-LT和 iNaturalist 2018上都取得了目前最好的性能。 

      作者:Jun Li, Zichang Tan, Jun Wan, Zhen Lei, Guodong Guo

       

    33. 基于時空解耦與重耦的RGB-D動作識別 

    Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition 

      在行為識別領域,雖然當前的一些基于RGB-D模態的動作識別方法可以取得顯著效果,但是他們都是建立在時空緊密耦合架構的基礎上進行的時空信息建模。因此,這些方法主要存在以下三個問題:(1)由于時空建模過程的緊密耦合,導致在一些小數據集上面臨一定的優化困難;(2)網絡中包含的大量與分類無關的邊緣冗余信息可能會誤導分類器做出錯誤的決策;(3)視頻多模態信息之間缺乏有效的時空交互導致后驗融合機制不能充分發揮其作用。所以在本文中,我們提出了一種有效建模時空信息的解耦與重耦合機制以及一種新穎的RGB-D多模態時空信息交互策略。具體來講,我們將多模態時空信息建模過程分成三個子任務:(1)通過解耦時空建模網絡實現高質量維度無關的時間和空間表征學習。(2)重新耦合這些解耦的時空表征以重新建立強時空依賴。(3)引入一種新的跨模態時空信息交互方案和自適應后驗融合機制(CAPF)來深度融合RGB-D多模態時空信息。通過充分利用以上技術,可以實現更加魯棒的時空表征學習。 

    圖. 基于解耦與重耦合機制的多模態時空表征學習網絡架構

      作者:Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang, Du Zhang, Zhen Lei, Hao Li, Rong Jin 

       

    34. 基于靈活模態Transformer的人臉防偽 

    FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing 

      目前基于多模態的人臉防偽算法存在兩點不足:(1)基于多模態融合的方法要求提供與訓練過程一致的模態樣本,嚴重限制了算法的部署場景;(2)由于卷積操作挖掘視覺線索的挑戰,基于ConvNet的模型對新出現的高保真攻擊樣本表現不佳。在本文工作中,我們提出了一基于純Transformer的框架,稱為靈活模態的Transformer(FM-ViT),用于人臉防偽任務,以借助多模態信息靈活地提升對任何單一模態攻擊的識別性能。為了實現該目的,FM-ViT首先為每種模態保留一個特定的分支,以學習不同的模態信息。同時引入跨模態Transformer塊(CMTB),由兩個級聯的注意力模塊組成,分別稱為Multi-headed Mutual-Attention(MMA)和Fusion-Attention(MFA),分別用于引導每個分支學習潛在的和模態無關的活性特征。 

      具體來說,如圖1(a)所示,FM-ViT建立在多個ViT分支上,由token化模塊、Transformer編碼器和分類頭組成。一個完整的Transformer編碼器包含K個“階段”。其中每個“階段”由M個標準Transformer塊(STB)和一個跨模態Transformer塊(CMTB)堆疊。在每個“階段”中,CMTB共享權值(用紅色雙箭頭線顯示),并接收之前多模態STBs的輸出作為輸入(用虛線顯示)。如圖1(b)所示,CMTB由兩個級聯的MMA和MFA組成。STBs與CMTB構成Transformer編碼器的一個“階段”。如圖1(c)所示,MMA計算所有模態的相關圖,以挖掘任意模態分支中潛在patch tokens;MFA為任意模態分支融合其他分支的模態信息,指導當前分支學習模態無關的活性特征。 

    圖. 一種基于靈活模態的人臉防偽方法示意圖 

      作者:Ajian Liu, Zichang Tan, Jun Wan, Yanyan Liang, Zhen Lei, Guodong Guo, Stan Z. Li 

       

    35. 基于實例深度估計的統一深度感知全景分割 

    PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation 

      深度感知全景分割旨在從單幅圖像的重建3D語義場景?,F有方法直接對全景分割模型添加密集預測式單目深度估計分支解決此問題,在深度估計中僅考慮了像素級底層特征,缺乏對實例級幾何信息的利用,實例掩碼和深度估計方式的不統一也導致多任務間信息交互的不足。為克服這些限制,本工作探索了實例掩碼和深度估計的聯合建模問題,提出了更加統一的深度感知全景分割方法。該方法將對全圖的深度估計分解至各個實例分別學習預測,并在模型推理階段根據實例掩碼組合在一起。同時,為了緩解不同實例間深度分布范圍差異過大導致的實例間共享特征難以學習的問題,本工作將實例深度圖進一步解耦為歸一化實例深度圖、實例深度縮放系數和實例深度偏移系數,并同時使用像素級和實例級監督信息指導深度估計的學習,通過減少搜索空間實現了算法性能的提升。實驗結果表明,本工作所提出的方法在多個數據集上實現了相對基準方法更優的性能,尤其是顯著提升了在前景物體上的掩碼和深度估計性能,驗證了方法的有效性。 

      作者:Naiyu Gao, Fei He, Jian Jia, Yanhu Shan, Haoyang Zhang, Xin Zhao, Kaiqi Huang

      

    调教折磨清冷美人受,成版人黄漫免费网站无码,高中生放学后的yin乱生活
    <menu id="iq4wg"><menu id="iq4wg"></menu></menu>
  • <xmp id="iq4wg">
    <menu id="iq4wg"><menu id="iq4wg"></menu></menu>
    <nav id="iq4wg"><strong id="iq4wg"></strong></nav>
  • <menu id="iq4wg"><tt id="iq4wg"></tt></menu>