侵權投訴
訂閱
糾錯
加入自媒體

AI基礎設施革命:關于數據隱私保護和價值挖掘的實踐思考

流動中的數據價值挖掘 V.S. 隱私保護

— 數據擁有者的控制力數據自由流動中的價值挖掘能讓AI更好地發(fā)揮價值,但同時,數據流動過程中不經節(jié)制的應用,也會帶來數據隱私侵犯的隱患。最近多個金融大數據公司遭到立案調查,從數據源的角度來看,其中一個重要原因就是該類公司的爬蟲對觸達的數據未經授權進行存儲或超出了約定的使用范圍。

舉例來說,如果有一個 App 聲稱幫助用戶進行多個金融賬戶進行管理并綜合呈現個人現金流等信息,為了幫助 App 呈現這些信息,用戶就需要提供這些金融賬戶的訪問權限。但如果在這個過程中 App 對個人銀行賬戶內的所有信息都進行了抓取和存儲,并將這些信息提煉出來的標簽出售給第三方或利用標簽開展新的業(yè)務。由于這些過程未對用戶進行告知并獲得許可,都是一種對數據使用權的濫用。
從當下的工程實踐來看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數據擁有方一個控制力,包括對數據收集的授權和收集后保存和使用的控制。國際上普遍進行的實踐或者規(guī)范(如GDPR)都傾向于對個人擁有的數據及其數據的各種上下文環(huán)境進行準確的授權。

比如GDPR中就會要求第一方數據要明確“自己采集到了哪些數據”,當用戶有了這個明目之后,應當有權來選擇“保留哪些刪除哪些”;在此基礎之上,還比如會要求對數據處理方法作出明確問詢和授權,“比如通過采集到的用戶點贊的帖子的內容和類型來學習用戶的興趣愛好”;這些興趣愛好作為標簽,雖然不是原始數據,仍然需要用戶進行逐一的明確授權。

當我們通過給予數據擁有方控制力的方式去平衡數據價值挖掘和隱私保護,在實踐中又會出現一個新的挑戰(zhàn)——如何在不侵犯個人隱私的前提下,獲得個人的授權。

舉個例子,比如在獲得興趣愛好標簽授權的時候不太可能有用戶可以預先對近乎無限多的興趣愛好進行一一授權,一般的過程也是首先由數據挖掘方獲得了某個標簽,再針對這個標簽進行問詢。

我們在過去的工作實踐中見過的最好的處理方法是首先對多達三到六百萬常用的興趣愛好做知識圖,將這些興趣愛好的包含關系或者關聯性整理出來;之后再對各類興趣愛好通過找到包含關系中處于包含當前愛好的比較泛化的那類愛好進行問詢這樣點到為止的方式來完成。

即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說做到了完美,因此也就不難理解多數公司在應對GDPR或者相關合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個事實。

數據擁有者的控制力如何賦予?數據擁有者控制力的核心意義在于讓每個擁有者在挖掘和保護之間選擇自己的平衡點。為了給擁有者控制力,第一步要討論的是誰是數據的擁有者這個問題。

一般對于個人數據來說,無論是個人的身份識別信息或者生物統計信息這樣對個人進行描述的數據,還是用戶的行為信息(比如訪問了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標簽這樣的用戶生成數據,都會認為擁有者是這個人本身。

尤其對于產生的標簽數據來說,有些情況下認為由于標簽是比如數據采集方進行學習而得來的因此擁有者是采集方這個想法也不應該是被廣泛認同的。

圍繞擁有方是產生數據的個體這條線去思考,在整個數據生命周期鏈條里面就存在對第一方數據的控制、第二三方的控制等不同的問題。

對于第一方來說,由于是數據的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個針對給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲和使用三個方面給予控制力。

首先用戶會看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數據(采集可見),之后允許用戶決定是否可以在廣告投放中進行使用(使用控制),再次允許用戶對這些數據進行立即刪除的操作(存儲控制)。

這個功能聽上去簡單,但實際上對于一個正在運轉的機構來說,要涉及到鑒別所有的數據來源、在復雜的數據流里面識別各類數據、以及對某個數據的所有存儲位置進行控制這幾方面能力。對于小機構來說資源和投入產出比肯定是不夠的,對于大機構來說由于內部數據流太過復雜,為了實現它往往會需要做整個系統的重新設計和實現,代價也不言而喻。

舉例來說,為了實現Clear History:首先為了在幾萬PB的數據倉庫中甚至更大的冷存儲中找到所需要控制的數據,就需要做整個數據集的語義識別(很多時候由于表單的schema并不統一,所以直接使用metadata很難準確的判斷數據類型),這個過程類似給數據打標簽。為了可以覆蓋更多的存儲點,會需要根據已經得到的數據標簽對數據流進行端到端的識別。當所有的存儲點識別完成后,為了實現功能中的實時刪除,還需要在重新定義數據結構的基礎上配合一個高吞吐量的中心管理系統。

這個過程協調了許多內部部門,消耗了大量的資源,耗時一年以上。不難看出,在企業(yè)間的數據流通中也存在潛在的類似挑戰(zhàn)。

除第一方數據以外,在授權第二方的過程中,可能大體會分為兩種情況:第一種授權的目的可能是協助數據挖掘,第二種授權的目的可能是協助數據變現。在第一種情況下一般會只授權使用,不授權再次轉讓,并且對存儲進行嚴格的控制(控制在使用所需的存儲范圍內)。

比如說,對消費行為進行建模的第二方數據,往往會存在過去兩周和過去兩個月這樣兩種時點,超過兩個月的消費行為一般價值也微乎其微。那么在授權存儲的時候一般會限定存儲時間不能超過2個月(外加一個比如24小時的灰色周期)。

在數據使用的授權上,一般如果對數據挖掘的目標及使用場景進行嚴格的限定,一方面可以保護授權方在競爭法層面的權益,另一方面也可以間接保護數據擁有方的個人隱私。

從保護個人隱私的角度來講,假設授權的目的是計算某些用戶的還款風險從而幫助授權方決定是否放貸的場景,如果不限定挖掘的目的只能限于該合作方之間的征信目的,則可能會被第二方使用同樣的數據用于與其它合作方的營銷場景中作為對于個人現金流的判斷的一個因素。

對于第二種(數據變現)的情況,會有比如通過特定的場景或產品進行變現以及通過售賣標簽進行變現不同的類型。這里不對各種數據變現的方式進行展開,但想強調一點的是在變現的過程中需要關注的是原始數據在第二方或其它地方的沉淀情況。因為雖然一般授權方會通過限制原始數據的轉讓(從而保護個人隱私),但仍然會允許加工過的數據進行流通或通過某個場景達成目標。

無論是哪種方式輸出的結果,都難以完全地避免數據的信息被沉淀,大量的沉淀會間接的導致原始數據被轉讓。舉一個數據泛化中沉淀結果的極端例子來說,假設我們允許對某一個人的常見活動區(qū)域輸出某個較大的半徑圓范圍,多個這樣的半徑圓就可以逐步縮小對這個人活動區(qū)域的判定。

公開數據和前述的最大區(qū)別是,由于已經公開,只要是獲得了數據擁有者對于公開的授權,那么之后不會再對公開數據的采集者進行一一授權。采集者獲取公開數據的途徑一般也都是通過爬蟲這樣的主動收集的形式,具有一定的收集和清理/整理成本。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號