想要用好自然語言處理技術(shù),先要克服這些困難!

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進(jìn)來看看。  

雷鋒網(wǎng) :10月11日-14日在杭州舉辦的的云棲大會上,馬云公布達(dá)摩院的研究領(lǐng)域包括:量子計算、機(jī)器學(xué)習(xí)、自然語言處理、基礎(chǔ)算法、等前沿技術(shù)再次掀起了前沿科技討論的浪潮。

人工智能已經(jīng)是大部分普通人都耳熟能詳?shù)脑~匯,而人們對自然語言處理技術(shù)的了解程度卻大部分還停留在表面階段。本文根據(jù)達(dá)觀數(shù)據(jù)CEO陳運文博士在數(shù)據(jù)驅(qū)動大會演講內(nèi)容整理,分別就人工智能的基本發(fā)展、自然語言處理技術(shù)的基本內(nèi)容、自然語言處理應(yīng)用現(xiàn)狀和對企業(yè)的應(yīng)用價值等幾個方面做了詳細(xì)介紹。

本文由達(dá)觀數(shù)據(jù)根據(jù)陳運文博士的演講分享整理所得,雷鋒網(wǎng)做了不改動原意的編輯(內(nèi)容略有刪減)。

一、追本溯源:文本挖掘技術(shù)發(fā)展歷程

想要用好自然語言處理技術(shù),先要克服這些困難!

講人工智能必須講1956年的達(dá)將矛斯會議,機(jī)器翻譯和密碼破譯其實是1956年這些計算機(jī)的大牛們提出人工智能時一個很重要的驅(qū)動因素。當(dāng)時達(dá)將矛斯會議十幾位大牛提出人工智能技術(shù)成熟的兩個標(biāo)志性目標(biāo)是:

?1. 在國際象棋上可以戰(zhàn)勝人類

?2. 在機(jī)器翻譯上能夠超越人類

大家都知道了目標(biāo)1早已經(jīng)完成。所有的棋類中圍棋是最后一個被攻克的。但是目標(biāo)2仍然未能完全實現(xiàn),這也可見語言理解的復(fù)雜度。

二、文本挖掘技術(shù)發(fā)展歷程和現(xiàn)階段流行方法

關(guān)于自然語言處理,學(xué)術(shù)界有兩個派別:

  1. 理性派 ,做結(jié)構(gòu)主義 ?認(rèn)為所有語言其實都有潛在內(nèi)生結(jié)構(gòu),都是有內(nèi)在的語法。

  2. 經(jīng)驗派 ,是功能主義 ?認(rèn)為只要完成某一個功能就可以了,計算機(jī)完全不需要理解人說什么。

早期人工智能剛剛提出來,符號主義流行。在60年代時候用了很多的詞典和符號規(guī)則做自然語言的處理,但是后來發(fā)現(xiàn)這樣翻譯走不通。在70-80年代,在語法規(guī)則的基礎(chǔ)上,加上了語言模型,當(dāng)時很多語言專家做自然語言處理時遇到非常嚴(yán)峻的挑戰(zhàn),因為語言不是特別嚴(yán)格的模型。例如:漢語特別靈活,很多時候是甚至沒有規(guī)則可言,習(xí)慣這么說,幾萬年來講著講著就講成現(xiàn)在這個狀態(tài)了。

90年代開始,統(tǒng)計學(xué)習(xí)模型異軍突起,今天看到大量自然語言處理的應(yīng)用都是基于統(tǒng)計學(xué)習(xí)的模型。 能夠講大數(shù)據(jù)也是因為現(xiàn)在已經(jīng)積累的文本數(shù)據(jù)非常多,我們每天在各平臺上看到、寫下的文字?jǐn)?shù)據(jù)都可以成為計算機(jī)訓(xùn)練的語料,通過訓(xùn)練能讓計算機(jī)發(fā)現(xiàn)語言的規(guī)律。

2010年以后深度學(xué)習(xí)是一波浪潮。可以看出深度學(xué)習(xí)是經(jīng)驗派功能主義的典型表現(xiàn)。近幾年知識圖譜非常流行,它帶有結(jié)構(gòu),所以是理性派結(jié)構(gòu)主義的表現(xiàn)。目前很多主流方法是兩者做結(jié)合,統(tǒng)計學(xué)習(xí)方法加上一些結(jié)構(gòu),才能夠更好的理解、處理文字內(nèi)容。

三、文本結(jié)構(gòu)解析的三個層次

現(xiàn)在流行的方法從結(jié)構(gòu)的角度來說分三個層次:第一層詞語級;第二層句法級;第三層篇章級。

詞匯級有很多具體的模塊開發(fā),結(jié)構(gòu)分析包括句子結(jié)構(gòu)之間的關(guān)系等。想想我們學(xué)漢語的時候先認(rèn)識基本字,再找詞。在漢語里面單詞表現(xiàn)很弱,兩個字或者三個字才構(gòu)成一個有表達(dá)力的詞。

比如【公司】是一個詞,但是拆出來,公沒有表達(dá)能力,司也沒有表達(dá)能力。組詞之后是造句,很多句法構(gòu)成了一篇作文。同樣,讓計算機(jī)來閱讀文字從結(jié)構(gòu)角度來說是相似的,先讓計算機(jī)看字、詞,然后理解句子的意思,最后理解整篇文章每個段落的含義。

知識圖譜的作用是沉淀領(lǐng)域知識,利用這些結(jié)構(gòu)化的背景知識更好的理解文本語義。例如你是一個律師,在閱讀法律的文章的時候,背后隱藏著對這個法律行業(yè)相關(guān)知識,建立起這個行業(yè)領(lǐng)域知識的知識圖譜才可以更好完成文字閱讀。知識圖譜的核心在于構(gòu)建{實體E - 屬性A - 關(guān)系R}三元素。

四、文本挖掘基礎(chǔ)性應(yīng)用類型劃分

計算機(jī)不像人一樣真的可以閱讀文字,計算機(jī)很多時候是輸入一段字庫,輸出相應(yīng)的結(jié)構(gòu)。一邊是編碼,一邊是解碼。

想要用好自然語言處理技術(shù),先要克服這些困難!

?文本挖掘基礎(chǔ)應(yīng)用的類型可以分為四大類:

1. 抽取。 計算機(jī)想要自動解析文本,需要能夠識別很多關(guān)鍵要素。例如,當(dāng)計算機(jī)閱讀一份法律合同文書時,能夠識別里面的判決書編號、被告人、辯護(hù)人、判決依據(jù)等等,并能夠從文本中提取出這些要素進(jìn)行結(jié)構(gòu)化處理。對于很多文本密集的行業(yè),抽取這件事情很有價值。

2.劃分。 舉一個應(yīng)用的案例,企業(yè)拿到大量客戶的意見,需要知道這些意見哪些是好的哪些是壞的,不同的意見需要后續(xù)給哪個部分負(fù)責(zé)處理,這些是典型評論意見觀點的識別和觀點劃分的應(yīng)用。

3.轉(zhuǎn)換。 談到轉(zhuǎn)換我們既可以讓計算機(jī)進(jìn)行語言的轉(zhuǎn)換,也可以讓計算機(jī)把文本轉(zhuǎn)換成更正確的語言方式。例如下面這份刑事裁定書里面有很多不符合語法習(xí)慣的地方,“政治權(quán)力”“云南省趨近市”這些都是錯誤的表達(dá),計算機(jī)能智能的幫人們發(fā)現(xiàn)并修改錯誤。

? 想要用好自然語言處理技術(shù),先要克服這些困難!

4. 合成。 計算機(jī)寫作也許是未來比較熱門的行業(yè)。目前的寫作還是以模板為主,比如基于一些合同模板把要素填寫進(jìn)來。但未來我們希望除了模板外,計算機(jī)還可以幫助人們修改潤色文章。甚至可以擺脫模板的方式,通過“閱讀”大量的文字來實現(xiàn)機(jī)器寫作。

五、常見數(shù)據(jù)類型及其中文本數(shù)據(jù)特點

從企業(yè)角度來說公司都有很多數(shù)據(jù)。傳統(tǒng)意義上會認(rèn)為像阿拉伯?dāng)?shù)字一樣的叫做數(shù)據(jù),比如企業(yè)的財務(wù)報表,經(jīng)營狀況,APP每天日活……除了這些之外還有一些其他數(shù)據(jù),比如文字型的數(shù)據(jù):新聞內(nèi)容,商品介紹,用戶評論,企業(yè)內(nèi)部各種各樣的合同……這些都是數(shù)據(jù),達(dá)觀數(shù)據(jù)就是專業(yè)處理文字型數(shù)據(jù)的企業(yè)。

文字?jǐn)?shù)據(jù)處理有什么特點?它是信息的抽象提煉。這些數(shù)據(jù)其實是“一句話濃縮了很多內(nèi)容”。文字?jǐn)?shù)據(jù)的場景非常多,差別也很大。比如說有的場景中用戶的評論數(shù)據(jù)都是很短幾十個字的,同時也會有一些合同文本和法律文書,這些內(nèi)容的字?jǐn)?shù)則是上千字和上萬字。

各種各樣的長短文本,如果能夠讓計算機(jī)代替原來的人工進(jìn)行自動化做處理,便可以發(fā)揮很大的價值。在一些垂直行業(yè)中,比如人事行業(yè),法律行業(yè),財務(wù)行業(yè)都有大量的資料。讓計算機(jī)自動來分析這些文字資料,并自動來理解這些內(nèi)容,這是非常有意義的事情。

六、文本挖掘技術(shù)的應(yīng)用現(xiàn)狀

大家知道谷歌、百度這樣搜索引擎,搜索引擎本身就是一個文字挖掘的人工智能系統(tǒng)。文字搜索這件事情創(chuàng)造了非常大的經(jīng)濟(jì)效益。但這個領(lǐng)域遇到挑戰(zhàn)也非常大,尤其是中文的文字處理困難重重,雖然我們每天都在流暢地使用中文,但計算機(jī)識別中文的時候發(fā)現(xiàn)中文語法非常不嚴(yán)格,行文很隨意,這導(dǎo)致了讓計算機(jī)處理、理解這些文字的時候很難處理的非常好,這也是由于中文天然存在著某些問題。

七、文本挖掘的三個技術(shù)挑戰(zhàn)

讓計算機(jī)來做自然語言處理或者挖掘,有什么新的技術(shù)挑戰(zhàn)?首先來看一些具體的例子。

挑戰(zhàn)一:字詞關(guān)系的處理

對于漢語來說表達(dá)一個基本概念就是一個詞。但是讓計算機(jī)來理解字詞之間的關(guān)系很困難,因為計算機(jī)需要挖掘很多詞和其他詞之間的關(guān)系。比如說相關(guān)詞,同義詞,甚至還有單詞。進(jìn)一步還要做同義詞、反義詞、近義詞的關(guān)系和挖掘,然后還要跨語言,還有英文的同義詞,外文的簡稱等等。

比如“中華人民共和國”是一個大詞,它有很多詞構(gòu)成。共和國跟它的意思接近,中國和中華人民共和國的意思也有接近,甚至有時候一個單詞叫“中”,比如說中美談判,這個“中”的單字在這個語境里面表達(dá)的意思就是中華人民共和國。那么計算機(jī)如何判斷“中”是不是表達(dá)中華人民共和國還是表達(dá)河南方言“好”的意思?

還有局部轉(zhuǎn)義問題。比如說巧克力囊腫是一種常見的腫瘤名稱,但是把巧克力拿出來是一個食物,在理解時它不會看到這句話把其理解為一個可以吃的東西。比如還有球鞋,運動鞋,跑步鞋需要判斷什么時候是同義詞,什么時候是有差別的。

中文上下文有很多歧異地地方。“意思”這個詞就有很多的意思。比如說“什么意思”“小意思”“沒意思”“意思意思”每一個表達(dá)都不一樣。漢語非常復(fù)雜,比如說“我不方便”“他在方便”。一個老外學(xué)中文,中文老師告訴他方便就是上廁所的時候,第二天這個人聽到說“你什么時候方便我請你吃飯。”老外當(dāng)時就暈倒了。中文中復(fù)雜的的歧異,這也是讓計算機(jī)像人一樣閱讀文章時必須克服的困難。

挑戰(zhàn)二:歧義語義的理解

像“咬死了獵人的狗”,這句話一種是主語被省略了,主語可能是一只老虎、一只狗,它咬死獵人的狗,這時狗是賓語。還有一種情況狗是主語,咬死了獵人是修飾詞。這兩種理解方式都對,我們需要結(jié)合上下文才能理解。比如說“做手術(shù)的是他的父親”這句話有兩種理解方法,有一種是他的父親是醫(yī)生做手術(shù),一種是他的父親生病了做手術(shù)。漢語不像英語有主動時態(tài)和被動時態(tài),它很模糊。還有“五個公司的工程師”工程師是五個人,還是公司是五個人,這個范圍也不一樣。

這些代表著計算機(jī)處理詞語歧義是非常大的問題,需要很多算法解決歧義識別問題。像章詞法、句法、上下文等等。

挑戰(zhàn)三:多樣化的句式結(jié)構(gòu)的解析

搜索引擎經(jīng)常需要處理意思一樣,但是文字表達(dá)方式不一樣的情況。這種情況下我們常見的處理方法叫做語義的規(guī)一劃,這也是處理搜索引擎詞時經(jīng)常遇到的問題。他的字一樣但是順序不一樣。

漢語很神奇,我們說“你上班了嗎?”、“班你上了嗎”、“你上班了嗎”、“你班上了嗎”意思是接近的。常見的做法是通過定位和調(diào)整主謂賓定狀補等句子元素,生成句法依存樹來理解句子結(jié)構(gòu)。

“達(dá)觀是技術(shù)驅(qū)動的企業(yè)”這句話中達(dá)觀是一個主語?還是一個謂語?做這樣的解析才可以理解這句話的意思。我們語言系統(tǒng)經(jīng)過幾千年的進(jìn)化非常發(fā)達(dá),但計算機(jī)只能拆開來,揉碎了,才可以像人一樣閱讀文字,理解人的功能。

八、確保文本挖掘技術(shù)效果的兩個要點

要點1:因地制宜 針對特定應(yīng)用場景定制語言模型

雖然用的都是漢語或英語,但在在不同的場景需要的方法有很大不同。例如:讓計算機(jī)自動提取合同文本信息,自動判斷合同文本中關(guān)聯(lián)的要素和法律風(fēng)險,這些文本都有一定的潛在的語法結(jié)構(gòu)。在做具體的專家文本判別時,我們需要建立這些具體的行業(yè)文本的知識庫,這些都有文本派別和語言模型。

評論分析是目前很多企業(yè)應(yīng)用的領(lǐng)域。很多企業(yè)每天會收到網(wǎng)上用戶留下的成千上萬條評論意見,甚至其中有一些是競爭對手的情報信息和評論信息。比如說手機(jī)行業(yè)分析用戶評論意見時,通常評論有大量的省略和簡稱,小米手機(jī)第六代通常說米6,計算機(jī)沒有專業(yè)領(lǐng)域知識很難像人一樣解讀這句話。

還有一個問題是口語和書面語的分別處理方式不同,書面語是常寫在內(nèi)部文件中,但是通常彈幕、網(wǎng)絡(luò)評論都是口語表達(dá)。比如說杯具、稀飯都不是吃的東西。?

要點2:持續(xù)的學(xué)習(xí)能力, 確保泛化能力始終提升 ?

機(jī)器學(xué)習(xí)的好處是可以通過反復(fù)迭代,實現(xiàn)持續(xù)學(xué)習(xí)、持續(xù)提升的效果。在文本挖掘中很多企業(yè)的挖掘都是依照規(guī)則的方法,但長期來看這種方法泛化能力或自主學(xué)習(xí)能力不夠。通過機(jī)器學(xué)習(xí)以及用算法提升算法的能力,來提升挖掘的效果是計算機(jī)處理模塊時很重要的能力。

九、文本挖掘技術(shù)的延伸應(yīng)用

上面提到的抽取、劃分、轉(zhuǎn)換和合成可以對文字進(jìn)行很多處理,在滿足企業(yè)的一些應(yīng)用需求后,還可以進(jìn)一步延伸。比如大家每天都在用的搜索和推薦都是進(jìn)一步的應(yīng)用。

搜索其實是非常典型的自然語言處理的應(yīng)用。它的核心技術(shù)有兩部分,其一是對文本語義的深入理解,第二是解決搜索時間的性能問題。通常索引資料庫很大,可能有上千億的內(nèi)容,在搜索的過程中我們不需要計算機(jī)一個一個找,而是在很短的時間內(nèi),用零點幾秒解決響應(yīng)的問題。這些需要用特殊的數(shù)據(jù)結(jié)構(gòu)來完成。

另外,在搜索時如何讓計算機(jī)幫助人來匹配更多優(yōu)質(zhì)資源,其實需要做更多語義的延伸。同一句話不同的人可以用不同的語言方式來表達(dá)。計算機(jī)幫助人做語義的擴(kuò)展需要了解詞和詞,句子和句子之間的關(guān)系,才能更好做語義之間理解的功能。

除搜索之外,個性化推薦也是語義理解中重要的應(yīng)用。做內(nèi)容和人的連接時,更好的完成用戶畫像需要分析出哪一個人之前看過這些內(nèi)容,它的語義如何。文本挖掘技術(shù)在提升企業(yè)的運營質(zhì)量方面發(fā)揮了很大作用,達(dá)觀數(shù)據(jù)的個性化推薦引擎在幫助企業(yè)用戶提升點擊率、留存以及關(guān)鍵指標(biāo)上都有著明顯的效果。

雷鋒網(wǎng) (公眾號:雷鋒網(wǎng))

雷鋒網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見。

本文被轉(zhuǎn)載1次

首發(fā)媒體 雷鋒網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

人工智能自然語言處理nlp自然語言處理自然語言處理技術(shù)自然語言處理算法自然語言處理
提交建議
微信掃一掃,分享給好友吧。
亚洲精品99久久久久中文字幕| 青青青国产精品手机在线观看| 国产午夜精品理论片久久| 国产精品无码av天天爽| 国内精品久久国产| 精品熟女少妇av免费久久| 亚洲国产精品特色大片观看完整版 | 精品久久久久久国产三级| 国产精品午夜爆乳美女视频| 国产精品无码亚洲精品2021| 香蕉久久夜色精品国产2020| 亚洲国产成人精品电影| 99ee6热久久免费精品6| 亚洲Av无码精品色午夜| 久章草在线精品视频免费观看| 自拍偷自拍亚洲精品情侣| 久久亚洲国产精品123区| 精品无码人妻久久久久久| 九九免费久久这里有精品23| 精品在线视频免费| 香蕉依依精品视频在线播放 | 老司机在线精品视频| 国产福利91精品一区二区| 国产精品久久久久无码av| 任我爽橹在线精品视频| 亚洲国产精品免费观看| 久久精品亚洲日本波多野结衣| 99热在线精品免费全部my| 亚洲国产精品久久久久秋霞小| 亚洲精品无码久久久久APP| 亚洲国产精品久久久久秋霞小| 久久精品女人天堂AV免费观看| 国内精品伊人久久久影院| 麻豆亚洲AV成人无码久久精品| 精品国产亚洲一区二区三区在线观看| 1313午夜精品理论片| 国产成人精品影院狼色在线| 亚洲一区二区三区国产精品| 中文字幕一区精品| 久久综合精品视频| 精品黑人一区二区三区|