Alexa變身竊聽器,亞馬遜被爆雇傭數(shù)千員工監(jiān)聽用戶對話
自2014年Echo問世后,亞馬遜的圓柱形智能音箱使得語音軟件在家庭中的使用迅速普及。不久后,Alphabet 公司推出了自己的版本“谷歌Home”,隨后是蘋果公司的HomePod。在中國也有許多公司銷售自己推出的類似設(shè)備。根據(jù)研究機構(gòu)Canalys的數(shù)據(jù)顯示,去年全球消費者購買了7800萬個智能揚聲器。還有數(shù)百萬人使用語音軟件與智能手機上的數(shù)字語音助手進行互動。
Alexa軟件被設(shè)計成聽到一個喚醒詞后連續(xù)錄制音頻片段。喚醒詞默認是“Alexa”。但人們可以將其更改為“Echo”或“computer”。當檢測到喚醒詞時,Echo頂部的光環(huán)會變?yōu)樗{色,表明該設(shè)備正在記錄并向亞馬遜服務(wù)器發(fā)送一條命令。
大多數(shù)現(xiàn)代語音識別系統(tǒng)依賴于模仿人類大腦的神經(jīng)網(wǎng)絡(luò)。該軟件通過在大量數(shù)據(jù)中發(fā)現(xiàn)模式來學習。驅(qū)動Echo和其他智能揚聲器的算法使用概率模型來進行有根據(jù)的猜測。如果有人問Alexa附近是否有希臘餐館,算法就知道用戶可能在尋找一家餐館,而不是教堂或社區(qū)中心。
但有時Alexa也會弄錯,尤其是在處理新的俚語、地區(qū)口語或英語以外的語言時。在法語中,avec sa的“with him”或“with her”會讓軟件誤以為有人在使用Alexa wake這個詞。Hecho在西班牙語中表示事實或行為,有時被誤解為Echo。這就是為什么亞馬遜招募人工助手來填補算法所遺漏的空白。
蘋果的Siri也有人工助手,主要負責判斷數(shù)字語音助手對請求的解釋是否與用戶所說的相符。根據(jù)蘋果的一份安全白皮書所示,他們審查的錄音缺乏可識別個人身份的信息,并與隨機標識符綁定存儲6個月。在此之后,數(shù)據(jù)將被剔除隨機識別信息,但可能會被存儲更長時間,以提高Siri的語音識別能力。
該公司說,在谷歌,一些評估人員可以從谷歌語音助手那里獲得一些音頻片段,用來幫助訓練和改進產(chǎn)品,但它與任何可識別個人身份的信息都沒有關(guān)聯(lián),而且音頻是失真的。
亞馬遜最近發(fā)布了一份招聘啟事,為布加勒斯特的Alexa數(shù)據(jù)服務(wù)公司招聘一名質(zhì)保經(jīng)理。招聘啟事里對工作內(nèi)容這樣描述:“每天Alexa都要聽成千上萬的人談?wù)摬煌脑掝}和不同的語言,她需要我們的幫助來理解這一切。這是你從未見過的大數(shù)據(jù)處理。我們每天都在創(chuàng)造、標注、策劃和分析大量的語音材料。”
據(jù)一位知情人士透露,亞馬遜對語音數(shù)據(jù)的審核過程始于Alexa隨機抽取一小部分客戶語音記錄樣本,并將音頻文件發(fā)送給遙遠的員工和承包商。
一些Alexa審核人員的任務(wù)是轉(zhuǎn)錄用戶的命令,將錄音與Alexa的自動記錄進行比較,或者對用戶與機器之間的交互進行注釋。這個人問了什么?Alexa是否提供了有效的響應?
另一些人則記下偵聽器所聽到的一切,包括背景談話,即使是在孩子們說話的時候。有時偵聽器會聽到用戶討論諸如姓名或銀行信息等私人細節(jié)。在這種情況下,他們應該勾選一個表示“關(guān)鍵數(shù)據(jù)”的對話框,然后他們進入下一個音頻文件。
根據(jù)亞馬遜網(wǎng)站上的說法,除非Echo檢測到喚醒詞或按下按鈕激活,否則不會存儲音頻。但有時Alexa似乎在沒有任何提示的情況下就開始錄音了,音頻文件以刺耳的電視聲音或難以理解的噪音開始。無論激活是否錯誤,審核人員都需要對其進行轉(zhuǎn)錄。其中一名知情人士說,當Alexa沒有收到喚醒命令或意外觸發(fā)時,審核人員每人每天都會錄制多達100段錄音。
據(jù)兩位評論人士說,在世界各地的家庭中,Echo的主人經(jīng)常猜測誰在偷聽。他們會問Alexa :“你是為國家安全局工作嗎?Alexa,有人在聽我們說話嗎?”

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞