中文自然語言處理數據共建讓機器讀懂“千言”
2020-08-26 16:18
本文來源:中國消費者報•中國消費網
作者:武曉莉

“機器人保姆要想真正走入家庭,自然語言是第一關。”達闥科技總裁黃曉慶在此前的一次座談上對記者說。
自然語言理解(NLP)素有“人工智能皇冠上的明珠”的盛譽,語言與知識技術是人工智能認知能力的核心。這也意味著語言與知識等認知層面的技術突破,將進一步促進AI深入發展。
中文作為最優美、最復雜的語言,其自然語言的數據共建將幫助機器讀懂“千言”,開拓人工智能領域無限的遐想空間。
機器認知需依賴知識圖譜
“知識圖譜是機器認知世界的重要基礎。”在剛剛結束的以“掌握知識、理解語言、擁有智能”為主題的百度大腦語言與知識技術峰會上,百度CTO王海峰解讀了語言與知識技術的發展歷程與最新成果,與產學研各界分享技術及產業發展趨勢和展望。
基于最大的搜索平臺的數據優勢,百度打造了世界上最大規模的知識圖譜,擁有超過50億實體和5500億事實,并在不斷演進和更新。該知識圖譜應用于各行各業,每天的調用次數超過400億次。
在融入知識的基礎上,機器的語言理解能力不斷增強。通過知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,這讓機器自然語言突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。
語言生成是語言與知識技術中的重要組成部分。基于預訓練技術的成功經驗提出的基于多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,顯著提升生成效果。
在應用系統層面,對話系統和機器翻譯等成績卓著。提出了知識圖譜驅動的對話控制技術,以及首個基于隱空間的大規模開放域對話模型PLATO等,并推出智能對話定制和服務平臺UNIT,幫助開發者高效構建智能對話系統,實現規模化應用。
通過上述技術,機器翻譯也取得了突破性進展。以百度為例,其翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等。
王海峰認為,人工智能大腦語言與知識技術的持續探索和創新,以平臺化的方式輸出,可以賦能千行萬業,持續提升產業智能化水平。
此次大會還發布了百度大腦語言與知識產品全景圖,以及語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案三大新產品和6項升級。
語言與知識技術平臺化
只用一臺電腦和一部手機,就可以在大型會議現場快速搭建一套同傳系統,只需點點鼠標、打幾個字,就能快速獲得專業的同傳服務。
語言與知識技術平臺化可以在應用中產生大量價值,為廣大開發者和產業實踐者提供以語言與知識技術為核心驅動的系列產品。
據百度集團副總裁吳甜介紹,語義理解技術與平臺文心,基于深度學習平臺飛槳打造,依托領先的語義理解核心技術,集成優秀的預訓練模型、全面的NLP算法集、端到端開發套件和平臺,提供一站式NLP開發與服務,讓開發者更簡單、高效地定制企業級NLP模型。文心經過了大量真實應用場景的淬煉,已經具備優秀的工業級落地實力。
智能文檔分析平臺TextMind,具備“多快好省”的核心優勢,可以促進企業辦公智能升級。
利用機器大腦智能創作平臺,媒體應用場景也得到再升級。智能策劃、智能采編、智能審校三大媒體場景方案,可以進一步助力媒體人更快、更好地創作。
智能對話定制與服務平臺UNIT,有更智能的任務式對話理解、極致便捷的表格問答和融合通用的新對話引擎。將進一步降低任務式對話、智能問答的定制成本,并融合通用對話能力,提升交互體驗。
上述AI同傳會議解決方案,覆蓋了會議全場景、全流程,旨在打造用戶隨身的“會議同傳專家”。
所有的場景都離不開數據計算,更多的數據集作者參與共建,可以共同推動中文信息處理技術的進步,建設世界范圍的中文信息處理影響力。據了解,未來3年,中文自然語言處理數據共建計劃——“千言”將面向20多個任務,收集和建設不少于100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。
未來,機器將更好地理解世界、更好地服務于人。
責任編輯:40















