自然語言理解(NaturalLanguageUnderstanding)即文本理解,和語音圖像的模式識(shí)別技術(shù)有著本質(zhì)的區(qū)別,語言作為知識(shí)的載體,承載了復(fù)雜的信息量,具有高度的抽象性,對(duì)語言的理解屬于認(rèn)知層面,不能僅靠模式匹配的方式完成。
2)自然語言理解的應(yīng)用:搜索引擎+機(jī)器翻譯;
自然語言理解最典型兩種應(yīng)用為搜索引擎和機(jī)器翻譯。搜索引擎可以在一定程度上理解人類的自然語言,從自然語言中抽取出關(guān)鍵內(nèi)容并用于檢索,最終達(dá)到搜索引擎和自然語言用戶之間的良好銜接,可以在兩者之間建立起更高效,更深層的信息傳遞。
3)自然語言理解技術(shù)在搜索引擎中的應(yīng)用
4)自然語言理解技術(shù)在機(jī)器翻譯中的應(yīng)用
事實(shí)上搜索引擎和機(jī)器翻譯不分家,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)為其充實(shí)了語料庫使得其發(fā)展模態(tài)發(fā)生了質(zhì)的改變。互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)除了將原先線下的信息(原有語料)進(jìn)行在線化之外,還衍生出來的新型UGC模式:知識(shí)分享數(shù)據(jù),像維基百科、百度百科等都是人為校準(zhǔn)過的詞條,噪聲小;社交數(shù)據(jù),像微博和微信等展現(xiàn)用戶的個(gè)性化、主觀化、時(shí)效性,可以用來做個(gè)性化推薦、情感傾向分析、以及熱點(diǎn)輿情的檢測和跟蹤等;社區(qū)、論壇數(shù)據(jù),像果殼、知乎等為搜索引擎提供了問答知識(shí)、問答資源等數(shù)據(jù)源。另一方面,因?yàn)樯疃葘W(xué)習(xí)采用的層次結(jié)構(gòu)從大規(guī)模數(shù)據(jù)中自發(fā)學(xué)習(xí)的黑盒子模式是不可解釋的,而以語言為媒介的人與人之間的溝通應(yīng)該要建立在相互理解的基礎(chǔ)上,所以深度學(xué)習(xí)在搜索引擎和機(jī)器翻譯上的效用沒有語音圖像識(shí)別領(lǐng)域來得顯著。