目錄
REFORMER:一個高效的TRANSFORMER結構
具有文本指導的圖像到圖像的翻譯
解決背景重校準損失下的缺失標註目標檢測問題
MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正
基於跨模態自我注意網絡學習的視頻問題生成
REFORMER:一個高效的TRANSFORMER結構
論文名稱:REFORMER: THE EFFICIENT TRANSFORMER
作者:Nikita Kitaev / Lukasz Kaiser / Anselm Levskaya
發表時間:2019/9/26
論文連結:https://openreview.net/attachment?id=rkgNKkHtvB&name=original_pdf
推薦原因
核心問題:自從BERT取得了巨大的效果的時候,transform就成為了大多數nlp任務的標配,但是它存在一些問題,比如訓練速度慢,占用內容大,還有無法處理長序列,本論文就是解決這些問題。
創新點:該論文提出了一種REFORMER結構,它的核心有以下幾點:首先提出了可逆層,在該層中只存儲單層激活值的一份拷貝,然後它把FF層里的激活值進行切分 ,最後它使用局部敏感哈希(LSH)注意力代替傳統多頭注意力
研究意義:這個新模型不僅訓練速度快,而且占用內存小,還可以解決序列過長的問題。
具有文本指導的圖像到圖像的翻譯
論文名稱:Image-to-Image Translation with Text Guidance
作者:Li Bowen /Qi Xiaojuan /Torr Philip H. S. /Lukasiewicz Thomas
發表時間:2020/2/12
論文連結:https://arxiv.org/abs/2002.05235v1
推薦原因
這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。這個新方法由4個關鍵組成部分組成:1、實施詞性標註以過濾掉給定描述中的非語義詞;2、採用仿射組合模塊來有效融合不同形式的文本和圖像特徵;3、一種新的精細多級架構,以增強判別器的判別能力和生成器的糾正能力;4、一種新的結構損失,進一步提升了判別器的性能,以更好地區分真實圖像和合成圖像。COCO數據集上的實驗表明了這篇論文提出的方法在視覺真實性和語義一致性方面均具有出色的性能表現。
解決背景重校準損失下的缺失標註目標檢測問題
論文名稱:Solving Missing-Annotation Object Detection with Background Recalibration Loss
作者:Zhang Han /Chen Fangyi /Shen Zhiqiang /Hao Qiqi /Zhu Chenchen /Savvides Marios
發表時間:2020/2/12
論文連結:https://arxiv.org/abs/2002.05274v1
推薦原因
這篇論文研究了一種新的且具有挑戰性的目標檢測場景:數據集中大多數真實對象或實例未被標註,因此這些未被標註的區域在訓練過程中被視為背景。現有方法基於Faster RCNN,使用軟採樣與正實例的重疊來對RoI的梯度進行加權。這篇論文提出了一個新的名為背景重校準損失的解決方案,可以根據預定義的IoU閾值和輸入圖像來自動重新校準損失信號。這篇論文還進行了幾項重大的修改,以適應缺失標註的情況。PASCAL VOC和MS COCO數據集上的實驗表明這篇論文所提出的方法在很大程度上優於現有方法。
MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正
論文名稱:MLFcGAN: Multi-level Feature Fusion based Conditional GAN for Underwater Image Color Correction
作者:Liu Xiaodong /Gao Zhi /Chen Ben M.
發表時間:2020/2/13
論文連結:https://arxiv.org/abs/2002.05333
推薦原因
這篇論文考慮的是水下圖像的色彩修正問題。
這篇論文基於生成對抗網絡,提出了一個深度多尺度特徵融合網絡,首先抽取多尺度特徵,然後在每個尺度用全局特徵對局部特徵進行了增強。在色彩修正和細節保留兩個任務上,這篇論文所提方法取得領先優勢,在質量、呈現效果、方法新穎上相比當前最佳模型更加優越。
基於跨模態自我注意網絡學習的視頻問題生成
論文名稱:Video Question Generation via Cross-Modal Self-Attention Networks Learning
作者:Wang Yu-Siang /Su Hung-Ting /Chang Chen-Hsi /Liu Zhe-Yu /Hsu Winston
發表時間:2019/7/5
論文連結:https://arxiv.org/abs/1907.03049
推薦原因
這篇論文要解決的是視頻問答的問題。
對視頻問答任務而言,深度學習模型嚴重依賴海量數據,而這類數據的標註成本很高。這篇論文提出了一個新任務,可以自動根據視頻片段中的視頻幀序列和相應的字幕生成問題,從而減少了巨大的標註成本。學習如何對視頻內容進行提問需要模型理解場景中豐富的語義以及視覺和語言之間的相互作用。為了解決這個問題,這篇論文提出了一種新的跨模式自注意力網絡,以聚合視頻幀和字幕的各種特徵。通過實驗證明了所提出的方法相對於基準方法可以有85%的提升。
論文作者團隊招募
為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊,希望以論文作為聚合 AI 學生青年的「興趣點」,通過論文整理推薦、點評解讀、代碼復現。致力成為國內外前沿研究成果學習討論和發表的聚集地,也讓優秀科研得到更為廣泛的傳播和認可。
我們希望熱愛學術的你,可以加入我們的論文作者團隊。
加入論文作者團隊你可以獲得
1.署著你名字的文章,將你打造成最耀眼的學術明星
2.豐厚的稿酬
3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。
加入論文作者團隊你需要:
1.將你喜歡的論文推薦給廣大的研習社社友
2.撰寫論文解讀
如果你已經準備好加入 AI 研習社的論文兼職作者團隊,可以添加運營小姐姐的微信,備註「論文兼職作者」
文章來源: https://twgreatdaily.com/zh-tw/j6yheXABjYh_GJGVtDls.html