人工智慧作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅動(dòng)力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)已成為人工智慧領(lǐng)域中的一個(gè)重要方向,它推動(dòng)著語言智能持續(xù)發(fā)展和突破,並越來(lái)越多地應(yīng)用於各個(gè)行業(yè)。
NLP研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。而用自然語言與計(jì)算機(jī)進(jìn)行通信,有著十分重要的實(shí)際應(yīng)用意義,也有著革命性的理論意義。實(shí)現(xiàn)人機(jī)間自然語言通信意味著要使計(jì)算機(jī)既能理解自然語言文本的意義,也能以自然語言文本來(lái)表達(dá)給定的意圖、思想等;前者稱(chēng)為自然語言理解,後者稱(chēng)為自然語言生成。由於理解自然語言需要關(guān)於外在世界的廣(guǎng)泛知識以及運(yùn)用操作這些知識的能力,所以NLP也被視為解決人工智慧完備(AI-complete)的核心問(wèn)題之一。可以說(shuō),NLP目前是人工智慧領(lǐng)域中的關(guān)鍵技術(shù),對(duì)它的研究也是充滿(mǎn)魅力和挑戰的。
最早的NLP研究工作是機(jī)器翻譯。1949年,美國(guó)知名科學(xué)家韋恩·韋弗先生首先提出了機(jī)器翻譯設(shè)計(jì)方案。20世紀(jì)60年代,許多科學(xué)家對(duì)機(jī)器翻譯曾有大規(guī)模的研究工作,耗費(fèi)了巨額費(fèi)用;但他們顯然是低估了自然語言的複雜性,語言處理的理論和技術(shù)均不成熟,所以進(jìn)展不大。當(dāng)時(shí)的主要做法是存儲(chǔ)兩(liǎng)種語言的單詞、短語對(duì)應(yīng)譯法的大辭典,翻譯時(shí)一一對(duì)應(yīng),技術(shù)上只是調(diào)整語言的同條順序。但日常生活中語言的翻譯遠(yuǎn)不是如此簡(jiǎn)單,很多時(shí)候還要參考某句話(huà)前後的意思。
大約90年代開(kāi)始,NLP領(lǐng)域發(fā)生了巨大的變化。這種變化的兩(liǎng)個(gè)明顯的特徵是:(1)對(duì)系統(tǒng)的輸(shū)入,要求研製的NLP系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研製的系統(tǒng)才有真正的實(shí)用價(jià)值。(2)對(duì)系統(tǒng)的輸(shū)出,鑑於真實(shí)地理解自然語言是十分困難的,對(duì)系統(tǒng)並不要求能對(duì)自然語言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。
同時(shí),由於強(qiáng)調(diào)了“大規(guī)模”和“真實(shí)文本”,因此兩(liǎng)方面的基礎(chǔ)性工作也得到了重視和加強(qiáng):(1)大規(guī)模真實(shí)語料庫(kù)的研製。大規(guī)模的經(jīng)過(guò)不同深度加工的真實(shí)文本的語料庫(kù),是研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ);沒有它們,統(tǒng)計(jì)方法只能是無(wú)源之水。(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬(wàn),十幾萬(wàn),甚至幾十萬(wàn)詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)NLP的重要性是很明顯的。
系統(tǒng)的輸(shū)入與這兩(liǎng)個(gè)特徵在NLP的諸多領(lǐng)域都有所體現(xiàn), 其發(fā)展直接促進(jìn)了計(jì)算機(jī)自動(dòng)檢索技術(shù)的出現(xiàn)和興起。實(shí)際上, 隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展, 以海量計(jì)算為基礎(chǔ)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)的表現(xiàn)也愈發(fā)優(yōu)異。NLP之所以能夠度過(guò)“寒冬”, 再次發(fā)展, 也是因為統(tǒng)計(jì)科學(xué)與計(jì)算機(jī)科學(xué)的不斷結(jié)合, 才讓人類(lèi)甚至機(jī)器能夠不斷從大量數(shù)據(jù)中發(fā)現(xiàn)“特徵”並加以學(xué)習(xí)。不過(guò)要實(shí)現(xiàn)對(duì)自然語言真正意義上的理解,僅僅從原始文本中進(jìn)行學(xué)習(xí)是不夠的,我們需要新的方法和模型。
目前存在的問(wèn)題主要有兩(liǎng)個(gè)方面:一方面,迄今為止的語法都限於分析一個(gè)孤立的句子,上下文關(guān)係和談話(huà)環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話(huà)在不同場(chǎng)合或由不同的人說(shuō)出來(lái)所具有的不同含義等問(wèn)題,尚無(wú)明確規(guī)律可循,需要加強(qiáng)語用學(xué)的研究才能逐步解決。另一方面,人理解一個(gè)句子不是單憑語法,還運(yùn)用了大量的有關(guān)知識,包括生活知識和專(zhuān)門(mén)知識,這些知識無(wú)法全部貯存在計(jì)算機(jī)裡。因此一個(gè)書(shū)面理解系統(tǒng)只能建立在有限的詞彙、句型和特定的主題範圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之後,才有可能適當(dāng)擴大範圍。
無(wú)論實(shí)現(xiàn)自然語言理解,還是自然語言生成,都遠(yuǎn)不如人們原來(lái)想像的那麼簡(jiǎn)單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的NLP系統(tǒng),尤其是應(yīng)用軟體,仍然是較長(zhǎng)期的努力目標(biāo)。就像中國(guó)知名科學(xué)家周海中先生曾在《自然語言理解的研究歷程》一文中指出的那樣:“雖然現(xiàn)今市場(chǎng)上出現(xiàn)不少可以進(jìn)行一定自然語言處理的商品軟體,但要想讓機(jī)器能像人類(lèi)那樣自如地運(yùn)用自然語言,仍是一項(xiàng)長(zhǎng)遠(yuǎn)而艱巨的任務(wù)。”造成困難的根本原因是自然語言文本和對(duì)話(huà)的各個(gè)層次上廣(guǎng)泛存在的各種各樣的歧義性或多義性。
由於語言學(xué)、語言工程、認(rèn)知科學(xué)等主要局限於實(shí)驗(yàn)室,目前來(lái)看數(shù)據(jù)處理可能是NLP應(yīng)用場(chǎng)景最多的一個(gè)發(fā)展方向。實(shí)際上, 自從進(jìn)入大數(shù)據(jù)時(shí)代, 各大平臺(tái)就沒有停止過(guò)對(duì)用戶(hù)數(shù)據(jù)的深度挖掘。要想提取出有用的信息, 僅提取關(guān)鍵詞、統(tǒng)計(jì)詞頻等是遠(yuǎn)遠(yuǎn)不夠的, 必須對(duì)用戶(hù)數(shù)據(jù) (尤其是發(fā)言、評(píng)論等)進(jìn)行語義上的理解。另外,利用離線(xiàn )大數(shù)據(jù)統(tǒng)計(jì)分析的方法進(jìn)行NLP任務(wù)的研究是目前非常有潛力的一種研究範式,尤其是谷歌、推特、百度等大公司在這類(lèi)應(yīng)用上的成功經(jīng)驗(yàn),引領(lǐng)了目前大數(shù)據(jù)研究的浪潮。
NLP是為各類(lèi)企業(yè)及開(kāi)發(fā)者提供的用於文本分析及挖掘的核心工具,已經(jīng)廣(guǎng)泛應(yīng)用在電商、金融、物流、文化娛樂等行業(yè)客戶(hù)的多項(xiàng)業(yè)務(wù)中。它可幫助用戶(hù)搭建內(nèi)容搜索、內(nèi)容推薦、輿情識別及分析、文本結(jié)構(gòu )化、對(duì)話(huà)機(jī)器人等智能產(chǎn)品,也能夠通過(guò)合作,定製個(gè)性化的解決方案。由於理解自然語言,需要關(guān)於外在世界的廣(guǎng)泛知識以及運(yùn)用操作這些知識的能力,所以NLP也被視為解決強(qiáng)人工智慧的核心問(wèn)題之一,其未來(lái)一般也因此密切結(jié)合人工智慧發(fā)展,尤其是設(shè)計(jì)一個(gè)模仿人腦的神經(jīng)網(wǎng)絡(luò)。
訓(xùn)練NLP文本解析人工智慧系統(tǒng)需要採集大量多源頭數(shù)據(jù)集,對(duì)科學(xué)家來(lái)說(shuō)是一項(xiàng)持續(xù)的挑戰:需要使用最新的深度學(xué)習(xí)模型,模仿人類(lèi)大腦中神經(jīng)元的行為,在數(shù)百萬(wàn)甚至數(shù)十億的注釋示例中進(jìn)行訓(xùn)練來(lái)持續(xù)改進(jìn)。當(dāng)下一種流行的NLP解決方案是預訓(xùn)練,它改進(jìn)了對(duì)未標(biāo)記文本進(jìn)行訓(xùn)練的通用語言模型,以執(zhí)行特定任務(wù);它的思想就是,該模型的參數(shù)不再是隨機(jī)初始化,而是先有一個(gè)任務(wù)進(jìn)行訓(xùn)練得到一套模型參數(shù),然後用這套參數(shù)對(duì)模型進(jìn)行初始化,再進(jìn)行訓(xùn)練,以獲得更好的預測(cè)性見(jiàn)解。
深度學(xué)習(xí)在NLP中的應(yīng)用非常廣(guǎng)泛,可以說(shuō)橫掃NLP的各個(gè)應(yīng)用,從底層的分詞、語言模型、句法分析等到高層的語義理解、對(duì)話(huà)管理、知識問(wèn)答等方面都幾乎都有深度學(xué)習(xí)的模型,並且取得了不錯的效果。有關(guān)研究已從傳統(tǒng)的機(jī)器學(xué)習(xí)算法轉(zhuǎn)變成更有表現(xiàn)力的深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)和回歸神經(jīng)網(wǎng)絡(luò)。不過(guò),目前的深度學(xué)習(xí)技術(shù)還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力,還有待今後進(jìn)一步的研究。
目前我們已經(jīng)進(jìn)入了以網(wǎng)際網(wǎng)路為主要標(biāo)誌的海量資訊時(shí)代,這些海量信息大部分是以自然語言表示的。一方面,海量信息也為計(jì)算機(jī)學(xué)習(xí)人類(lèi)語言提供了更多的“素材”,另一方面,這也為NLP提供了更加寬廣(guǎng)的應(yīng)用舞臺(tái)。例如,作為NLP的重要應(yīng)用,搜尋引擎逐漸成為人們獲取信息的重要工具,出現(xiàn)了以谷歌、百度等為代表的搜尋引擎巨頭;機(jī)器翻譯也從實(shí)驗(yàn)室走入尋常百姓家;基於NLP的中文輸(shū)入法(如搜狗、微軟、谷歌等輸(shū)入法)成為計(jì)算機(jī)用戶(hù)的必備工具;帶有語音識別的計(jì)算機(jī)和手機(jī)也正大行其道,協(xié)助用戶(hù)更有效地工作和學(xué)習(xí)。
總之,隨著網(wǎng)際網(wǎng)路的普及和海量信息的湧現(xiàn),作為人工智慧領(lǐng)域中的一個(gè)重要方向,NLP正在人們的日常生活中扮演著越來(lái)越重要的角色,並將在科技創(chuàng)新的過(guò)程中發(fā)揮越來(lái)越重要的作用。
【來(lái)源:千家網(wǎng)】