9/17/2018 9:46:00 AM
機器翻譯研究人員熱衷于什么樣的內容?
康奈爾大學的研究論文自動化在線發布系統Arxiv.org是任何有興趣了解神經機器翻譯(NMT)最新進展的人士的豐富資源。從我們第一次寫到關于提交給Arxiv的論文數量反映出來的學術NMT研究的急劇加速已經差不多一年了,而且這種上升趨勢還在繼續
因此,在過去的105天中,直到上周中旬,有46篇關于NMT的研究論文被提交給Arxiv。難怪我們幾乎每隔一天就碰到一起 - 實際上每隔2.3天就會有一篇關于NMT的新文章。
經過仔細檢查,基于這些NMT論文的主題,出現了關于研究方向的模式。根據對其內容的粗略閱讀對研究論文進行分類后,Slator決定根據意圖對其進行分組,而不是結果。畢竟,幾乎每個研究方向都會產生相同的最終結果:NMT模型和總體產出的改進。
免責聲明:Slator并不是學術研究和分類的最終權威,而這些類別旨在顯示研究人員正在采取的一般方向。
改進NMT輸出
NMT最明顯的下一步也是研究最多的話題。最近在Arxiv上發表的46篇研究論文中有8篇涉及以某種方式改進NMT產出。
有一些研究將前人基于短語的MT方法的方面應用到當前的NMT模型中,通過基于語法的權重改變解碼器的注意機制在本地的注意力的實驗,甚至應用方法來幫助NMT模型處理更有創意的方面翻譯如處理成語。
事實上,已發表的46篇關于習語翻譯的論文有兩篇。一個人使用了慣用表達式的直接翻譯黑名單來識別測試集中的文字翻譯錯誤。另一種方法在模型的訓練數據中添加了慣用表達式,并對它們進行了標注以供識別。
解決培訓數據限制
NMT模型被描述為“數據饑餓”,數據質量越高,域內語料越多,系統就會越好。
最近發表的46篇研究論文中有7篇研究了訓練數據約束,試圖找出為什么NMT模型需要特定數據或如何解決現有的已知限制,如低資源語言。
已經對僅使用部分對齊的語料庫訓練NMT模型進行了研究,了解訓練數據中合成噪聲和自然噪聲如何打破NMT輸出流暢性,當然也是最具挑戰性和迫切性的問題:解決低資源語言的NMT問題。其中一個例子是討論森林到序列模型的論文,該模型通過向訓練數據添加語法信息來提高低資源語言的翻譯準確性。另一個側重于使用外部詞匯的外部詞典來增強訓練數據。
新的或改進的NMT模型
遞歸神經網絡,卷積神經網絡和自我注意變換器是當今NMT系統使用的深度學習模型的主要類型。這并不意味著研究人員會停止尋找新的或改進的模型。
實際上,有七篇研究論文只關注這一點。Salesforce加權的自我注意變壓器模型,他們聲稱將處理速度提高10倍就是這樣一種模型。另一個是亞馬遜的Sockeye,亞馬遜研究團隊在去年年底與其他模式對抗。
其他研究主要集中在變分遞歸神經機器翻譯和異步雙向解碼。
文檔級上下文
向NMT注入文檔級上下文的研究也是一個熱門的方向,有6篇論文集中在這個任務上。
由于NMT的流暢度是逐句限制的,因此它不能使用源語句之外的語境來翻譯其文本。簡而言之,它無法翻譯具有相同流利程度和充足性的整個文檔,因此不能翻譯其中的單個句子。
研究人員關注的一些方法包括:
流解碼,來自先前翻譯的句子的預先存在的上下文的恒定流
外部記憶與NMT模型結合使用
使用緩存來充當“ 翻譯歷史 ”或作為其他參考點
基于解碼歷史,對NMT模型的關注機制應用自適應控制
后期編輯和模型學習
另外6篇研究論文涉及編輯后,在線和離線模型學習以及人的評估。
其中一篇論文是Facebook的NMT通過“非常簡單的交互”進行后期編輯。還有關于離線記錄數據到在線NMT模型和在線機器學習的討論。
此外,還有兩篇論文著重于人類評價,尤其是關于“ NMT在線適應用戶后編輯的第一次用戶研究 ”的論文以及一篇論文“ 一種定量細粒度人工評估方法來比較不同性能MT系統“。
研究的其他方向
除此之外,有五篇論文致力于改進各個方面的NMT解碼編碼過程。這些通常圍繞提高速度或效率,或降低功耗或要求。
四篇研究論文涉及了解NMT模型內部工作的各個方面。其他三篇論文涉及各種主題,例如關于隱私的文章,該文章提出了一種方法來保留翻譯或分析的句子的含義,而不會泄露有關該主題的任何敏感信息。
當然,大多數語言行業從業者不需要在審查個別研究論文的過程中陷入漏洞。他們只是在他們的生產力工具中使用任何公開可用的NMT門戶網站或NMT插件,并快速了解該技術的進展情況。但是,仍然值得關注學術界正在發生的事情。畢竟,目前正在重塑行業的技術也開始成為無害的研究論文。
為了理解當前研究的方向,我們回顧了2018年前六周以及去年的最后幾個月研究庫中的NMT相關論文。從2017年11月1日至2018年2月14日,共有58篇相關論文。這些論文中有12篇并非直接關于NMT,而是專注于通過神經網絡進行機器學習,或者關注自然語言處理等相鄰技術。
——選自:樂文翻譯
樂文翻譯目前是國內專業的翻譯機構之一,公司秉承“誠信 專業”的服務理念,為國內外客戶提供一流服務。了解更多信息:請發郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。