在人工智能范疇,“懂言語者得全國”是遍及的一致。其間,可協(xié)助人工智能辨認(rèn)人類言語的自然言語處理(NLP)被譽(yù)為人工智能言語“皇冠上的明珠”。
當(dāng)人工智能自然言語處理技能遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“繞口令”,“小意思”“意思意思”等多義詞時(shí),及“俺們那疙”“中不中”等方言時(shí),該怎樣“聽懂”這些“中文十級(jí)”語句呢?日前在成都舉行的科大訊飛未來科?;顒?dòng)上,記者采訪了相關(guān)專家。
能分詞會(huì)斷句 機(jī)器尚在盡力
NLP就是機(jī)器讓核算機(jī)來了解和處理人類自然言語的技能,它和核算機(jī)視覺、語音處理的差異在于信息處理的類型。
“核算機(jī)視覺首要處理圖像,語音技能處理聲響,而NLP首要是對(duì)文字的了解。”云浮科技的創(chuàng)始人兼CEO張文斌說,在人工智能中,語音辨認(rèn)是耳朵,語音組成是嘴巴,核算機(jī)視覺是眼睛,而NLP則擔(dān)任將籠統(tǒng)的文字符號(hào)轉(zhuǎn)化為核算機(jī)能了解的言語。
“‘中文十級(jí)’的某些語句,人類去了解都有很大難度,何況是核算機(jī)。”張文斌說,在白話和書寫上,漢字往往沒有詞與詞之間的鴻溝,即使機(jī)器能夠精確辨認(rèn)文字,但了解它的意思卻很難;再比方各種形形色色的當(dāng)?shù)乜谝艉头窖裕彩?ldquo;絆腳石”。
“自然言語處理一般從最小的語意單位‘詞’開端,即分詞算法。這最簡(jiǎn)略,也最成熟。”張文斌說, NLP的算法分為語法等級(jí)、語句等級(jí)剖析等,其間分詞就是將字詞切開,讓機(jī)器理解哪幾個(gè)字組成一個(gè)詞,哪幾個(gè)詞組成一句話,然后了解整句、整段的意思。但在“分詞”實(shí)踐的使用過程中,仍有各種問題。
張文斌解說,首先是分詞規(guī)范不確定、存在歧義,及新詞和實(shí)體詞困擾等問題。如“乒乓球,拍賣完了”和“乒乓球拍,賣完了”無論怎樣切分都正確,這就要依靠上下文語境。其次,每年都會(huì)涌現(xiàn)出的網(wǎng)絡(luò)詞匯,“神馬”“不明覺厲”“佛系”等本來不存在的詞也需要核算機(jī)了解。
聽口氣判聯(lián)系 AI有新招
怎么讓機(jī)器讀懂上下文語境,然后進(jìn)一步了解整段話的含義?
“咱們會(huì)測(cè)驗(yàn)使用聽人類說話時(shí)的停頓信息,作為一種分詞算法的輔佐。”訊飛翻譯事務(wù)擔(dān)任人翟吉博說。
關(guān)于AI工程師們來說,更重要的是深層次的算法,如實(shí)體辨認(rèn)、特點(diǎn)抽取等。“就是把人名、地名、組織名等實(shí)體辨認(rèn)出來后,再抽取實(shí)體之間的聯(lián)系,搞清楚不同實(shí)體在語句中的不同特點(diǎn)。”張文斌說,形形色色的算法還有許多,比方情感剖析,剖析文本里邊蘊(yùn)藏了什么樣的情感,是正面、負(fù)面仍是中性的;文檔摘要,把長(zhǎng)文生成一兩百字簡(jiǎn)略的摘要等。而根據(jù)這些算法層,又能夠做許多NLP的衍生使用,包括主動(dòng)問答、機(jī)器翻譯等。
那怎么辨認(rèn)方言呢?在科大訊飛的新款翻譯機(jī)設(shè)備中,初次推出方言翻譯功用,完結(jié)河南話、東北話、粵語等方言互譯,或?qū)⒅g成外語。翟吉博說,針對(duì)不同類型方言,機(jī)器選用不同翻譯流程——對(duì)同屬北方方言區(qū)的河南話、東北話等,可先翻譯成普通話再翻譯成外語;關(guān)于粵語等南邊言語,則樹立獨(dú)立的語料庫,直接從粵語到外語進(jìn)行翻譯。“考慮到方言中帶有許多當(dāng)?shù)靥厣恼f法、言語、詞匯,‘雄起’‘中不中’等也能夠作為獨(dú)立的語料,由機(jī)器獨(dú)自學(xué)習(xí)。”他說,人工智能的優(yōu)勢(shì)是在自然言語處理方面能夠不斷從用戶處堆集語料,學(xué)習(xí)新的詞匯和表達(dá)方式,不斷完結(jié)本身數(shù)據(jù)庫和語料庫的更新。
當(dāng)人工智能自然言語處理技能遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“繞口令”,“小意思”“意思意思”等多義詞時(shí),及“俺們那疙”“中不中”等方言時(shí),該怎樣“聽懂”這些“中文十級(jí)”語句呢?日前在成都舉行的科大訊飛未來科?;顒?dòng)上,記者采訪了相關(guān)專家。
能分詞會(huì)斷句 機(jī)器尚在盡力
NLP就是機(jī)器讓核算機(jī)來了解和處理人類自然言語的技能,它和核算機(jī)視覺、語音處理的差異在于信息處理的類型。
“核算機(jī)視覺首要處理圖像,語音技能處理聲響,而NLP首要是對(duì)文字的了解。”云浮科技的創(chuàng)始人兼CEO張文斌說,在人工智能中,語音辨認(rèn)是耳朵,語音組成是嘴巴,核算機(jī)視覺是眼睛,而NLP則擔(dān)任將籠統(tǒng)的文字符號(hào)轉(zhuǎn)化為核算機(jī)能了解的言語。
“‘中文十級(jí)’的某些語句,人類去了解都有很大難度,何況是核算機(jī)。”張文斌說,在白話和書寫上,漢字往往沒有詞與詞之間的鴻溝,即使機(jī)器能夠精確辨認(rèn)文字,但了解它的意思卻很難;再比方各種形形色色的當(dāng)?shù)乜谝艉头窖裕彩?ldquo;絆腳石”。
“自然言語處理一般從最小的語意單位‘詞’開端,即分詞算法。這最簡(jiǎn)略,也最成熟。”張文斌說, NLP的算法分為語法等級(jí)、語句等級(jí)剖析等,其間分詞就是將字詞切開,讓機(jī)器理解哪幾個(gè)字組成一個(gè)詞,哪幾個(gè)詞組成一句話,然后了解整句、整段的意思。但在“分詞”實(shí)踐的使用過程中,仍有各種問題。
張文斌解說,首先是分詞規(guī)范不確定、存在歧義,及新詞和實(shí)體詞困擾等問題。如“乒乓球,拍賣完了”和“乒乓球拍,賣完了”無論怎樣切分都正確,這就要依靠上下文語境。其次,每年都會(huì)涌現(xiàn)出的網(wǎng)絡(luò)詞匯,“神馬”“不明覺厲”“佛系”等本來不存在的詞也需要核算機(jī)了解。
聽口氣判聯(lián)系 AI有新招
怎么讓機(jī)器讀懂上下文語境,然后進(jìn)一步了解整段話的含義?
“咱們會(huì)測(cè)驗(yàn)使用聽人類說話時(shí)的停頓信息,作為一種分詞算法的輔佐。”訊飛翻譯事務(wù)擔(dān)任人翟吉博說。
關(guān)于AI工程師們來說,更重要的是深層次的算法,如實(shí)體辨認(rèn)、特點(diǎn)抽取等。“就是把人名、地名、組織名等實(shí)體辨認(rèn)出來后,再抽取實(shí)體之間的聯(lián)系,搞清楚不同實(shí)體在語句中的不同特點(diǎn)。”張文斌說,形形色色的算法還有許多,比方情感剖析,剖析文本里邊蘊(yùn)藏了什么樣的情感,是正面、負(fù)面仍是中性的;文檔摘要,把長(zhǎng)文生成一兩百字簡(jiǎn)略的摘要等。而根據(jù)這些算法層,又能夠做許多NLP的衍生使用,包括主動(dòng)問答、機(jī)器翻譯等。
那怎么辨認(rèn)方言呢?在科大訊飛的新款翻譯機(jī)設(shè)備中,初次推出方言翻譯功用,完結(jié)河南話、東北話、粵語等方言互譯,或?qū)⒅g成外語。翟吉博說,針對(duì)不同類型方言,機(jī)器選用不同翻譯流程——對(duì)同屬北方方言區(qū)的河南話、東北話等,可先翻譯成普通話再翻譯成外語;關(guān)于粵語等南邊言語,則樹立獨(dú)立的語料庫,直接從粵語到外語進(jìn)行翻譯。“考慮到方言中帶有許多當(dāng)?shù)靥厣恼f法、言語、詞匯,‘雄起’‘中不中’等也能夠作為獨(dú)立的語料,由機(jī)器獨(dú)自學(xué)習(xí)。”他說,人工智能的優(yōu)勢(shì)是在自然言語處理方面能夠不斷從用戶處堆集語料,學(xué)習(xí)新的詞匯和表達(dá)方式,不斷完結(jié)本身數(shù)據(jù)庫和語料庫的更新。