訂閱
糾錯
加入自媒體

AI同傳PK人類同傳,這或許是兩個職業(yè)

圖片來自“123rf.com.cn”

人工智能又又又摔了個跟頭。

今年的博鰲亞洲論壇上,第一次出現(xiàn)了AI同傳。值得注意的是,這是博鰲論壇創(chuàng)辦17年首次采用人工智能同傳技術。然而,在如此重要的場合,現(xiàn)場配備的騰訊AI同傳卻掉了鏈子。詞匯翻譯不準確、重復、短語誤用等“烏龍”引來各方“嘲笑”。

人們總是把AI跟人類職位對立起來,各種“取代論”層出不窮。博鰲論壇會議前,就出現(xiàn)了許許多多的“取代論新聞”引起了各界關注。最終,AI同傳“翻車”,引來外界一片唏噓。

然而,就目前來看,AI同傳前路未明,太早將其與人類同傳對立起來實在是“杞人憂天”。除了取代,AI同傳其實有更好的路。

圖為AI同傳內容

AI同傳進階之路:變智能問題為數(shù)據(jù)問題

很多人都覺得人工智能如果要處理自然語言,就必須理解自然語言。實質上,AI翻譯靠的是數(shù)字,更準確地來說,是統(tǒng)計。AI同傳出錯,并不是“智能”不夠,實質上,是數(shù)據(jù)和模型出了問題。

AI同傳還需要理解力

首先,AI同傳要去理解場景。在博鰲論壇上,會議現(xiàn)場專業(yè)度高、覆蓋度廣,AI對特殊場景的理解還不夠。場景對于語義具有至關重要的影響,相同的一句話在不同的場景里有不同的意思。舉個例子,“好”這個字在百度漢語顯示有多種語義,既可以表示稱贊,也可以表示狀態(tài),還可以表達問好……諸如此類,語義的表達和理解都要結合具體的場景。在具體的句子中,這種語義與情景的結合就更為緊密,更需要機器理解學習。

其次,AI要理解口語的模糊邏輯?谡Z翻譯是不會百分百傳譯的,根據(jù)AIIC(國際會議口譯員協(xié)會)的規(guī)定,同傳譯員只要翻譯出演講者內容的80%就已經(jīng)算是合格了(90%~100%的“同傳”幾乎是不可能的)。這意味著AI工作量減少嗎?當然不,正是這種模糊的東西使得AI同傳更加困難,除此之外,口語沒有標點符號來標志句子,缺少了必要的聲調和停頓,就很容易造成句子的歧義。而模糊的指令極有可能出現(xiàn)的是滿屏的錯碼。

隱馬爾可夫模型(HMM)解決統(tǒng)計數(shù)據(jù)之外的語言問題

然而,在參考騰訊AI同傳的失誤后,我們發(fā)現(xiàn),僅僅增加數(shù)據(jù)量還是不夠的,在現(xiàn)實生活中,我們也會遇到零概率或者統(tǒng)計量不足的問題。

比如一個漢語的語言模型,就足足達到20萬這個量級。曾有人做過這樣一個假設,如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù),互聯(lián)網(wǎng)中將會有100億個有意義的中文網(wǎng)頁,這還是相當高估的一個數(shù)據(jù),每個網(wǎng)頁平均1000詞,那么,即使將互聯(lián)網(wǎng)上上所有中文內容用作訓練,依然只有1013。

為了解決數(shù)據(jù)量的問題,我們提出了隱馬爾可夫模型(HMM)。實際應用中,我們可以把HMM看作一個黑箱子,這個黑箱子可以利用比較簡潔的數(shù)據(jù),處理后得出:

1.每個時刻對應的狀態(tài)序列;

2.混合分布的均值和方差矩陣;

3.混合分布的權重矩陣;

4.狀態(tài)間轉移概率矩陣。

看起來可能比較復雜,簡單點說,這個模型可以通過可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個數(shù)據(jù)域外的狀態(tài),即隱含狀態(tài)。也就是說,我們可以憑借一句話,來探索出這句話后的隱含的意思,從而解決一些微妙的語義問題。

如上圖所示,這個模型能夠通過你提供的可以明顯觀察的句子,推斷出一個人隱含的心情狀態(tài)(開心OR難過),并得到最后的行為判斷(宅、購物、社交),即通過已知推斷出未知。

而如何優(yōu)化這個模型,得到最優(yōu)隱含狀態(tài)?人們提出了許多解決問題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認的是,在深度學習的基礎上,數(shù)據(jù)+模型就能很好地打造出一款AI同傳翻譯,數(shù)據(jù)越大,神經(jīng)網(wǎng)絡更好。即使翻譯結果不盡如人意,但只要建設足夠大的數(shù)據(jù)庫,建立更好的模型,打磨算法,AI同傳很快就會有更大的提升。

1  2  下一頁>  
聲明: 本文系OFweek根據(jù)授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號