PaddleNLP-研究版旨在基于飛槳(PaddlePaddle)和百度NLP深厚的技術積累,為廣大研究者提供NLP領域前沿方向的研究成果、代碼與數據,讓廣大研究者們可以快速復現已發表學術論文的實驗效果,并據此開展新的研究。


為了更好服務NLP研究者,百度PaddleNLP于近日完成了針對其研究能力的升級,即 PaddleNLP-研究版。


PaddleNLP-研究版旨在基于飛槳(PaddlePaddle)和百度NLP深厚的技術積累,為廣大研究者提供NLP領域前沿方向的研究成果、代碼與數據,讓廣大研究者們可以快速復現已發表學術論文的實驗效果,并據此開展新的研究。


目前,PaddleNLP已經開放了包括ACL2019、NAACL2019、IJCAI2019、MRQA2019等頂級NLP會議5篇最新論文的代碼,并支持了3個競賽的代碼復現,同時配合開放了2個相關論文的數據集,覆蓋信息抽取、對話系統、閱讀理解等熱門研究方向。


PaddleNLP還將持續升級,并在近期開源更多百度大腦在NLP領域的研究成果,例如發表于ACL2019的KT-NET、SEEDS、STACL等模型與框架,覆蓋閱讀理解、對話系統、同聲傳譯等研究方向。


未來,PaddleNLP作為一個同時覆蓋工業應用和學術研究的全方位工具與數據集,將持續依托飛槳(PaddlePaddle)和百度NLP強大的技術保障,為開發者提供更多可低門檻獲取的前沿NLP技術,歡迎持續關注。



百度 PaddleNLP-研究版近期開源項目概覽摘要遠監督通過知識庫自動獲取標注語料,是關系抽取的關鍵算法。但是遠監督通常會引入大量噪聲數據,即句子并未表達自動標注的關系。進一步說,基于遠監督學習的模型效果不佳、解釋性差,無法解釋關系的指示詞。


為此,我們提出基于注意力正則化的ARNOR框架(Attention Regularization based NOise Reduction)。此方法通過注意力機制,要求模型能夠關注關系的指示詞,進而識別噪聲數據,并通過bootstrap方法逐步選擇出高質量的標注數據,改善模型效果。此方法在關系分類及降噪上均顯著優于此前最好的增強學習算法。


應用價值在文本信息抽取有廣泛的應用價值。此方法能夠顯著降低對標注數據的依賴,實現低成本的基于知識庫的自動關系學習,未來可落地在醫療、金融等行業信息抽取中。


GitHub 地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-ARNOR

摘要目前的人機對話還處于初級水平,機器大多是被動對話,無法像人類一樣進行充分交互。我們提出了基于知識圖譜的主動對話任務,讓機器像人類一樣主動和用戶進行對話。對話過程中,機器根據知識圖譜主動引領對話進程完成提前設定的話題(實體)轉移目標,并保持對話的自然和流暢性。為此,我們在電影和娛樂任務領域人工標注3萬組共27萬個句子的主動對話語料,并實現了生成和檢索的兩個主動對話基線模型。


應用價值可應用于智能音箱中的對話技能,也可以基于此開發閑聊技能,讓機器主動發起基于知識圖譜的聊天。


GitHub 地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-DuConv

摘要在人類對話中,對于一個對話上文,往往存在多個合適的回復(One-to-Many)。已有的對話模型主要通過引入多個隱式機制來建模對話的一對多關系,從而選擇不同的隱式機制生成不同的回復。雖然這些模型在多回復生成上已經表現出不錯的效果和潛力,但由于訓練階段缺乏目標回復與隱式機制的準確對應,隱式機制的效果仍受限于不準確的優化過程。


在這項工作中,我們一方面提出多映射機制(Multi-Mapping)來建模對話一對多關系,通過不同的映射模塊作為隱式機制來實現對話上文和不同回復之間的語義映射。另一方面,為了解決已有模型中隱式機制優化不準確的問題,我們提出后驗映射選擇機制(Posterior Mapping Selection),在訓練階段通過利用目標回復的語義信息(后驗信息)更準確地選擇目標回復所對應的映射模塊進行優化,從而提高不同映射模塊的優化效果。同時,我們也引入一個基于語義匹配的輔助優化目標(Matching Loss)以促進后驗映射選擇的優化。實驗結果表明所提出的模型能夠生成更多有信息量并且多樣的回復。


應用價值此模型能夠實現多樣且合適的回復生成,在對話系統中具有廣泛的應用價值。


GitHub 地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/IJCAI2019-MMPMS

摘要評論建議挖掘對提升企業服務具有極高價值。百度團隊構建了以大規模無監督數據為基礎的跨領域、多句式深度語義分類模型,以解決任務標注數據過于稀疏的問題。采用融合淺層學習和深度學習的Ensemble學習模型,以解決樣本不平衡問題。面對網絡文本形式多樣、表達不規范的現狀,團隊采用精細化粒度特征和注意力遷移機制進行處理。最終,百度團隊以F值78.12%的成績戰勝了來自全球的210余支隊伍,奪得冠軍。


應用價值可以幫助企業及時獲取消費者的評價以改進服務,可以促進政府和媒體從海量文本中提取意見以成為決策參考與新聞素材。


GitHub 地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/NAACL2019-MPM

摘要機器閱讀理解(Machine Reading Comprehension) 是指讓機器閱讀文本,然后回答和閱讀內容相關的問題。該技術可以使機器具備從文本數據中獲取知識并回答問題的能力,是構建通用人工智能的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。


近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標注文本數據上預訓練足夠深的網絡結構,使當前最先進的語言表示模型能夠捕捉復雜的語言現象,更好地理解語言、回答問題。


然而,正如大家所熟知的,真正意義上的閱讀理解不僅要求機器具備語言理解的能力,還要求機器具備知識以支撐復雜的推理。為此,在論文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中,百度開創性地提出了語言表示與知識表示的深度融合模型KT-NET,希望同時借助語言和知識的力量進一步提升機器閱讀理解的效果。


關于KT-NET的模型架構。首先,針對給定的閱讀內容和結構化知識圖譜,分別利用語言表示模型和知識表示模型對兩者進行編碼,得到相應的文本表示和知識表示。接下來,利用注意力機制從知識圖譜中自動篩選并整合與閱讀內容高度相關的知識。最后,通過雙層自注意力匹配,實現文本表示和知識表示的深度融合,提升答案邊界預測的準確性。截止到發稿日,KT-NET仍然是常識推理閱讀理解數據集ReCoRD榜單上排名第一的模型,并在此前很長一段時期內都是SQuAD 1.1榜單上效果最好的單模型。


應用價值該項技術可應用于百度搜索問答、智能音箱等產品中,直接精準定位用戶輸入問題的答案,并在搜索結果首條顯著位置呈現或通過語音播報呈現給用戶,為用戶節約大量的寶貴時間。


GitHub 地址coming soon

摘要現有的基于監督學習的對話系統,缺乏對多輪回復方向的控制和規劃,導致對話中發生重復、發散等問題,使得用戶的交互體驗較差。在本文中,我們對多輪對話進行了復合評估(compound assessment),并基于該評估利用強化學習優化兩個自對話(self-play) 的機器人,促進生成過程中較好地控制多輪對話的方向。


考慮到對話的一個主要動機是進行有效的信息交換,針對PersonaChat問題(兩個人相互對話聊興趣愛好),我們設計了一個較為完善的評估系統,包括對話的信息量和連貫度兩個主要方面。我們利用復合評估作為反饋目標(reward),基于策略梯度算法(policy gradient),指導優化兩個同構的對話生成機器人之間的對話策略(dialogue strategy)。該對話策略通過控制知識的選擇來主導對話的流向。在公開數據集上進行了全面的實驗,結果驗證了此方法生成的多輪對話質量,顯著超過其他方法。


應用價值可以對聊天機器人設置人設信息,與用戶進行更有信息量的智能個性化對話,也可以為智能客服添加背景信息,與用戶進行深入的知識聊天。


GitHub 地址:coming soon


論文地址:https://arxiv.org/abs/1906.00549

摘要同聲翻譯是人工智能領域公認的最難問題之一,已經困擾學術界和工業界幾十年了。我們提出了歷史上第一個超前預測和可控延遲的同聲翻譯算法,去年10月發布以來,被各大技術外媒廣泛報道,包括MIT技術評論、IEEE Spectrum、財富雜志等。量子位總結報道:“這是2016年百度Deep Speech 2發布以來,又一項讓技術外媒們如此激動的新進展。”


應用價值:2018年11月的百度世界大會采用了這項同傳技術,全程同傳翻譯了李彥宏所有演講,延遲僅為3秒左右,而之前的整句翻譯技術延遲為一整句(可達10秒以上)。同時,翻譯質量也沒有明顯的下降。


GitHub 地址:coming soon


論文地址:https://arxiv.org/abs/1810.08398

摘要該文章旨在提高翻譯的魯棒性,特別是對同音詞噪音的魯棒性。我們在翻譯的輸入端,通過聯合嵌入的方式,加入輸入單詞對應的發音信息。實驗結果表明,該方法不僅大大提高了翻譯系統在噪聲情況下的魯棒性,也大幅提高了翻譯系統在非噪聲情況下的性能。


應用價值可用于翻譯,特別是語音到語音的同聲傳譯系統。語音翻譯的一個主要難題是語音識別的錯誤太多,而這些錯誤大多是同音詞或發音相似的單詞,此技術可以很大程度上降低這些來自于語音識別的噪音。


GitHub 地址:coming soon


論文地址:https://arxiv.org/abs/1810.06729

摘要問答閱讀理解是指讓機器閱讀給定的文本并回答相關的問題。該任務是自然語言處理中的一項重要課題。最近,一些機器閱讀理解系統在一些閱讀理解的相關數據集上取得了較好的結果,但是這些結果主要是在領域內測試集上進行評估得到的,并不能體現模型的泛化能力。為此,2019 MRQA問答閱讀理解評測關注于測試現有系統在領域外數據集上的泛化能力。


我們基于飛槳(PaddlePaddle)深度學習框架,為MRQA任務提供了一個基線系統。該基線具有以下優點:


1)預訓練語言模型:ERNIE (Enhanced Representation through kNowledge IntEgration) 是百度提出知識增強的語義理解框架。基于該框架的ERNIE預訓練模型基線比MRQA官方的BERT基線在域外驗證集上的結果高出6.1個百分點(Marco-F1)。


2)多卡微調和預測:該基線支持使用多GPU進行微調和預測,方便研究人員和開發者加快實驗效率。


3)一鍵復現:提供了一個簡單易用的系統,方便研發人員和開發者快速復現實驗結果,并在此基礎上開發新的模型。


GitHub 地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/MRQA2019-BASELINE



想要了解更多百度 PaddleNLP-研究版,請點擊查看以下鏈接:


百度PaddleNLP-研究版主頁地址:

https://nlp.baidu.com/paddlenlp?type=research&fr=source1


百度PaddleNLP-研究版GitHub地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research?fr=source1


如需合作,請您點擊【合作咨詢】提交具體咨詢信息;或可進入AI開發者社區,進行溝通交流