聯(lián)邦學(xué)習(xí)開源框架FATE新版本發(fā)布!配套引擎EggRoll煥新登場
引文:
如何在保證本地訓(xùn)練數(shù)據(jù)不公開的前提下,實(shí)現(xiàn)多個(gè)數(shù)據(jù)擁有者協(xié)同訓(xùn)練一個(gè)共享的機(jī)器學(xué)習(xí)模型?傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要將所有的數(shù)據(jù)集中到一個(gè)地方(例如數(shù)據(jù)中心),然后進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練。但這種基于集中數(shù)據(jù)的做法無疑會(huì)嚴(yán)重侵害用戶隱私和數(shù)據(jù)安全。如今,世界上越來越多的人開始強(qiáng)烈要求科技公司必須根據(jù)用戶隱私法律法規(guī)妥善地處理用戶的數(shù)據(jù),歐盟的《通用數(shù)據(jù)保護(hù)條例》是一個(gè)很好的例子。而聯(lián)邦學(xué)習(xí)這門技術(shù),則可以將分布式機(jī)器學(xué)習(xí)、密碼學(xué)、基于金融規(guī)則的激勵(lì)機(jī)制和博弈論結(jié)合起來,從而解決分散數(shù)據(jù)的使用問題。FATE(Federated AI Technology Enabler)作為全球首個(gè)聯(lián)邦學(xué)習(xí)的工業(yè)級(jí)開源框架,實(shí)現(xiàn)了同態(tài)加密和多方計(jì)算(MPC)的安全計(jì)算協(xié)議,其支持聯(lián)邦學(xué)習(xí)架構(gòu),內(nèi)置了多種機(jī)器學(xué)習(xí)算法的聯(lián)邦學(xué)習(xí)實(shí)現(xiàn),F(xiàn)ATE的每一次更新迭代,都在一定程度上代表著聯(lián)邦學(xué)習(xí)的前進(jìn)方向。
正文:
近日,全球首個(gè)聯(lián)邦學(xué)習(xí)工業(yè)級(jí)開源框架FATE(Federated AI Technology Enabler)正式迎來了1.4新版本發(fā)布。在這一版本中,F(xiàn)ATE著重提升了用戶在真實(shí)建模中的體驗(yàn),橫向聯(lián)邦增加了對(duì)Secureboost樹算法的支持,縱向聯(lián)邦廣義線性模型系列則增加了對(duì)基于AIC及BIC進(jìn)行逐步回歸模型選擇的全面支持,縱向聯(lián)邦分箱也新增了最優(yōu)分箱方法,支持iv\gini\chi-square\ks,同時(shí),作為FATE計(jì)算/存儲(chǔ)/通信引擎的EggRoll也迎來了全新的2.0,穩(wěn)定性、性能以及用戶體驗(yàn)顯著提升。作為側(cè)重點(diǎn)在完善FATE可用性的這一版本,相信能為開發(fā)者帶來更為流暢的使用體驗(yàn)。
主要更新點(diǎn)介紹:
1. 橫向聯(lián)邦新增對(duì)Secureboost樹算法的支持,開發(fā)者可以在用戶數(shù)據(jù)特征相同的橫向場景下構(gòu)建GBDT模型,自此,F(xiàn)ATE框架中樹算法得以進(jìn)一步完善,現(xiàn)在FATE的樹算法已可支持所有的聯(lián)邦場景;
2. 縱向聯(lián)邦廣義線性模型系列,現(xiàn)已全面支持基于AIC及BIC進(jìn)行逐步回歸模型選擇,在平衡線性模型參數(shù)量與效果的場景中,將會(huì)自動(dòng)選取特征組合,減少選取模型過程中人工操作次數(shù),提升開發(fā)者的使用體驗(yàn);
3. 縱向聯(lián)邦分箱支持最優(yōu)分箱方法,支持iv\gini\chi-square\ks,開發(fā)者從這一版本起,就可以在縱向聯(lián)邦分箱中使用最優(yōu)分箱方法了,特征工程的分箱方法進(jìn)一步豐富化,相信能讓開發(fā)者更直觀感受到FATE建模過程中的實(shí)用性;
4. AI生態(tài)互操作:橫向聯(lián)邦NN支持pytorch backend,F(xiàn)ATE新增了pytorch backend,即支持使用pytorch引擎搭建nn網(wǎng)絡(luò),換而言之,使用pytorch編寫的橫向nn模型,可相關(guān)使用配置文件將其通過pytorch backend進(jìn)行轉(zhuǎn)化,加入多方橫向聯(lián)邦學(xué)習(xí),作為重要的深度學(xué)習(xí)庫,支持pytorch的呼聲一直很高,橫向nn在支持使用tensorflow和keras的基礎(chǔ)上,增加了pytorch backend,進(jìn)一步豐富了FATE的功能性。
FederatedML:新增橫向secureboost算法,廣義線性模型的逐步回歸模型選擇以及最優(yōu)分箱功能支持
在上一個(gè)版本中,F(xiàn)ATE對(duì)訓(xùn)練稀疏數(shù)據(jù)效率進(jìn)行了提升,內(nèi)存消耗也再度優(yōu)化。而在1.4版本中,F(xiàn)ederatedML的更新也延續(xù)了這一想法,主要集中提高了FATE的可用性。首當(dāng)其沖的,便是完善了更多的常見功能。比如1.4中新增的橫向secureboost算法,廣義線性模型的逐步回歸模型選擇以及最優(yōu)分箱功能支持等,都是在建模過程中用戶迫切希望得以實(shí)現(xiàn)的功能。除此以外,F(xiàn)ATE 1.4也在努力提升原有算法的體驗(yàn)和應(yīng)用范圍。比如本次更新進(jìn)一步完善了橫向nn的功能,新增pytorch框架支持,提升建模效率的同時(shí),增強(qiáng)了易用性,開發(fā)者不必同時(shí)掌握多種深度學(xué)習(xí)庫,即可滿足聯(lián)邦場景中的建模需求。最后,新版本還通過優(yōu)化部分算法的實(shí)現(xiàn),大大提升了建模過程中的穩(wěn)定性和效率,使得開發(fā)者能更順暢地使用FATE來實(shí)現(xiàn)自己的業(yè)務(wù)目標(biāo)。
FATEBoard:新增Pearson相關(guān)性可視化矩陣圖,支持GLM的stepwise方法、橫向Secureboost等可視化輸出
FATEBoard是聯(lián)邦學(xué)習(xí)建模的可視化工具,為終端用戶可視化和度量模型訓(xùn)練的全過程,能夠幫助開發(fā)更簡單、高效地進(jìn)行模型探索和模型理解。FATEBoard由任務(wù)儀表盤、任務(wù)可視化、任務(wù)管理與日志管理等模塊組成,支持模型訓(xùn)練過程全流程的跟蹤、統(tǒng)計(jì)和監(jiān)控等,并為模型運(yùn)行狀態(tài)、模型輸出、日志追蹤等提供了豐富的可視化呈現(xiàn)。
在FATE 1.4版本中,F(xiàn)ATEBoard新增了Pearson相關(guān)性的可視化矩陣圖,可幫助開發(fā)者查看guest特征之間,以及guest與host特征之間的相關(guān)性大小。而對(duì)GLM(縱向LR、縱向線性回歸、縱向poisson回歸)的stepwise方法的結(jié)果可視化輸出的支持,則能夠幫助開發(fā)者準(zhǔn)確地觀察每一步的模型擬合統(tǒng)計(jì)、特征分析、最大似然分析、待進(jìn)入特征分析等情況。對(duì)橫向Secureboost的可視化樹模型輸出,LR、localbaseline在one_vs_rest下的可視化輸出的支持,也進(jìn)一步豐富了FATEBoard在更多場景下的適用性。
最后,新版本對(duì)FATEBoard的視覺和交互體驗(yàn)上也做了重大提升,支持大數(shù)據(jù)量下圖表的可視化,優(yōu)化頁面視覺效果及交互細(xì)節(jié)。通過嘗試,建模人員可以明顯感受到FATEBoard的可用性與易用性在這一版本中所呈現(xiàn)的全方位提升,必將幫助建模人員更好地理解與分析模型。
支持EggRoll 2.0:穩(wěn)定性、性能以及用戶體驗(yàn)顯著提升
作為FATE 1.4版本的一個(gè)重點(diǎn),EggRoll也迎來了巨大提升,在穩(wěn)定性方面,F(xiàn)ATE采用了全新的資源管理組件及session機(jī)制。從這一版本起,即使session出錯(cuò),也只需要一個(gè)簡單函數(shù)調(diào)用,臨時(shí)拉起的計(jì)算進(jìn)程即可被清理。此外,此版本也移除了storage service,無需C++/native庫的編譯,開發(fā)者從下載代碼到運(yùn)行起來的步驟進(jìn)一步減少,編譯與環(huán)境依賴也更加簡化,基本上已可實(shí)現(xiàn)開箱即用。最后,面對(duì)在任意網(wǎng)絡(luò)下傳輸都會(huì)產(chǎn)生的丟包現(xiàn)象,新版本也做了適配,聯(lián)邦學(xué)習(xí)算法在28%的丟包率之下依然可以實(shí)現(xiàn)正常運(yùn)行。
在性能方面,在實(shí)踐中相信開發(fā)者能夠感受到,運(yùn)行于Eggroll 2的聯(lián)邦學(xué)習(xí)算法性能顯著提升,部分算法甚至可以達(dá)到超過10倍的性能提升,此外,Join接口在聯(lián)邦學(xué)習(xí)場景下,也實(shí)現(xiàn)了比pyspark快16倍的速度,開發(fā)者的計(jì)算/建模將更為高效。
而在用戶體驗(yàn)方面,新版本已可快速部署,只需Maven編譯、pip安裝依賴、修改配置,即可運(yùn)行。此外,這一版本也變得更加易于調(diào)試,新版本中不僅提供了必要的運(yùn)行上下文信息,還將調(diào)試的關(guān)鍵系統(tǒng)狀態(tài)保存在日志文件及數(shù)據(jù)庫中,當(dāng)開發(fā)者遇到報(bào)錯(cuò)信息時(shí),排查將變得更加快捷。最后,常駐進(jìn)程在這一版本中也進(jìn)行了大幅度削減,現(xiàn)在的常駐進(jìn)程僅三個(gè):
ClusterManager (CM):管理集群的物理資源,管理session信息
NodeManager (NM):管理一個(gè)機(jī)器節(jié)點(diǎn)上的物理資源
RollSite:管理跨站點(diǎn)通信,等同以前的proxy + federation
其中,CM和NM都是無狀態(tài)的,非常輕量級(jí),易于管理。開發(fā)者在使用過程中,可以直觀感受到這些提升帶來的更優(yōu)質(zhì)體驗(yàn)。
總而言之,F(xiàn)ATE 1.4版本是一次回望,對(duì)過往開發(fā)者們提到的一些問題進(jìn)行了整合與思考,然后加入了迭代中。無論是FederatedML對(duì)常用功能、及原有算法的體驗(yàn)和應(yīng)用范圍的提升,還是FATEBoard對(duì)適用場景的豐富、及視覺和交互體驗(yàn)上的大力優(yōu)化,又或者是FATEFlow針對(duì)實(shí)際生產(chǎn)應(yīng)用,從模型、數(shù)據(jù)、日志三個(gè)方面增強(qiáng)系統(tǒng)易管理、易擴(kuò)展、易審計(jì)的能力,都能看到FATE對(duì)開發(fā)者使用體驗(yàn)的思索與重視。FATE官方歡迎對(duì)聯(lián)邦學(xué)習(xí)有興趣的同仁一起貢獻(xiàn)代碼,提交 Issues 或者 Pull Requests。詳情可查閱FATE官網(wǎng)項(xiàng)目貢獻(xiàn)者指南。
另,F(xiàn)ATE官方也在開展針對(duì)1.4版本的圓桌討論會(huì),詳情可添加FATE助手:FATEZS001,進(jìn)一步交流及了解。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?