NLP ——從0開始快速上手百度 ERNIE
在解壓出的文件夾“task_data/chnsenticorp”中, 包含了三個(gè)文件“train.tsv”、“dev.tsv”、“test.tsv”,分別對(duì)應(yīng)ChnSentiCorp 數(shù)據(jù)的訓(xùn)練集、驗(yàn)證集和測(cè)試集,該任務(wù)是一個(gè)單句分類任務(wù),數(shù)據(jù)包含兩個(gè)字段為“l(fā)abel”和“seg_a”,以“TAB”進(jìn)行分隔,示例如下:
seg_a label選擇珠江花園的原因就是方便,有電動(dòng)扶梯直接到達(dá)海邊,周圍餐館、食廊、商場(chǎng)、超市、攤位一應(yīng)俱全。酒店裝修一般,但還算整潔。泳池在大堂的屋頂,因此很小,不過(guò)女兒倒是喜歡。包的早餐是西式的,還算豐富。服務(wù)嗎,一般 115.4寸筆記本的鍵盤確實(shí)爽,基本跟臺(tái)式機(jī)差不多了,蠻喜歡數(shù)字小鍵盤,輸數(shù)字特方便,樣子也很美觀,做工也相當(dāng)不錯(cuò) 1房間太小。其他的都一般。。。。。。。。。01.接電源沒(méi)有幾分鐘,電源適配器熱的不行. 2.?dāng)z像頭用不起來(lái). 3.機(jī)蓋的鋼琴漆,手不能摸,一摸一個(gè)。 4.硬盤分區(qū)不好辦. 0今天才知道這書還有第6卷,真有點(diǎn)郁悶:為什么同一套書有兩種版本呢?當(dāng)當(dāng)網(wǎng)是不是該跟出版社商量商量,單獨(dú)出個(gè)第6卷,讓我們的孩子不會(huì)有所遺憾。1機(jī)器背面似乎被撕了張什么標(biāo)簽,殘膠還在。但是又看不出是什么標(biāo)簽不見(jiàn)了,該有的都在,怪 0呵呵,雖然表皮看上去不錯(cuò)很精致,但是我還是能看得出來(lái)是盜的。但是里面的內(nèi)容真的不錯(cuò),我媽愛(ài)看,我自己也學(xué)著找一些穴位。0這本書實(shí)在是太爛了,以前聽浙大的老師說(shuō)這本書怎么怎么不對(duì),哪些地方都是誤導(dǎo)的還不相信,終于買了一本看一下,發(fā)現(xiàn)真是~~~無(wú)語(yǔ),這種書都寫得出來(lái) 0地理位置佳,在市中心。酒店服務(wù)好、早餐品種豐富。我住的商務(wù)數(shù)碼房電腦寬帶速度滿意,房間還算干凈,離湖南路小吃街近。12. 運(yùn)行Fine-tuning
運(yùn)行該腳本即可執(zhí)行Fine-tuning, 腳本會(huì)根據(jù)你指定的from_pretrained參數(shù)下載預(yù)訓(xùn)練模型,運(yùn)行最大步長(zhǎng)max_steps由樣本數(shù) * epoch數(shù) / 批大小算出。
!export CUDA_VISIBLE_DEVICES=0 !PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --max_steps $((9600*10/32)) --save_dir ./tuned_model
執(zhí)行結(jié)束后輸出如下的在驗(yàn)證集和測(cè)試集上面的測(cè)試結(jié)果:
training: 250it [01:39, 2.96it/s]2020-05-15 17:52:21,377-DEBUG: train loss 0.00880 lr 3.585e-05training: 260it [01:43, 3.00it/s]2020-05-15 17:52:24,743-DEBUG: train loss 0.05025 lr 3.568e-05training: 270it [01:46, 3.00it/s]2020-05-15 17:52:28,108-DEBUG: train loss 0.06813 lr 3.552e-05training: 280it [01:49, 3.00it/s]2020-05-15 17:52:31,474-DEBUG: train loss 0.12881 lr 3.535e-05training: 290it [01:53, 3.00it/s]2020-05-15 17:52:34,840-DEBUG: train loss 0.06156 lr 3.518e-052020-05-15 17:52:42,877-DEBUG: acc 0.93250training: 10it [00:08, 1.88it/s]2020-05-15 17:52:46,317-DEBUG: train loss 0.00679 lr 3.485e-05training: 20it [00:11, 2.84it/s]2020-05-15 17:52:49,817-DEBUG: train loss 0.13993 lr 3.468e-05training: 30it [00:15, 2.89it/s]2020-05-15 17:52:53,297-DEBUG: train loss 0.02414 lr 3.452e-05
可以看到準(zhǔn)確率(acc)達(dá)到了0.95左右,與表1中的測(cè)評(píng)準(zhǔn)確率非常接近,說(shuō)明訓(xùn)練效果達(dá)到了良好水平。
3. 執(zhí)行推理
Fine-tuning 結(jié)束后,如果用戶希望使用模型運(yùn)行推理,可以修改上述命令行,并加入?yún)?shù)--eval進(jìn)入推理模式,從而利用保存在某個(gè)checkpoint (由--save_dir指定)的模型執(zhí)行推理。
!head ./chnsenticorp/dev/part.0|awk -F" " '{print $1}'| PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --eval --max_steps $((9600*10/32)) --save_dir ./tuned_model
輸入的預(yù)測(cè)數(shù)據(jù)由標(biāo)準(zhǔn)輸入管道灌入程序。修改完成后請(qǐng)?jiān)俅芜\(yùn)行腳本執(zhí)行推理。該命令指向的“chnsenticorp/dev/part.0”文件里的前10句話,程序?qū)?duì)這10句話進(jìn)行推理:
這間酒店環(huán)境和服務(wù)態(tài)度亦算不錯(cuò),但房間空間太小,不宣容納太大件行李,且房間格調(diào)還可以,中餐廳的廣東點(diǎn)心不太好吃,要改善之。但算價(jià)錢平宜,可接受。西餐廳格調(diào)都很好,但吃的味道一般且令人等得太耐了,要改善之。
<薦書> 推薦所有喜歡<紅樓>的紅迷們一定要收藏這本書,要知道當(dāng)年我聽說(shuō)這本書的時(shí)候花很長(zhǎng)時(shí)間去圖書館找和借都沒(méi)能如愿,所以這次一看到當(dāng)當(dāng)有,馬上買了,紅迷們也要記得備貨哦!
商品的不足暫時(shí)還沒(méi)發(fā)現(xiàn),京東的訂單處理速度實(shí)在……周二就打包完成,周五才發(fā)貨...
2001年來(lái)福州就住在這里,這次感覺(jué)房間就了點(diǎn),溫泉水還是有的.總的來(lái)說(shuō)很滿意.早餐簡(jiǎn)單了些。
不錯(cuò)的上網(wǎng)本,外形很漂亮,操作系統(tǒng)應(yīng)該是個(gè)很大的 賣點(diǎn),電池還可以。整體上講,作為一個(gè)上網(wǎng)本的定位,還是不錯(cuò)的。
房間地毯太臟,臨近火車站十分吵鬧,還好是雙層玻璃。服務(wù)一般,酒店門口的TAXI講是酒店的長(zhǎng)期合作關(guān)系,每月要交費(fèi)給酒店。從酒店到機(jī)場(chǎng)講得是打表147元,到了后非要200元,可能被小宰30-40元。
本來(lái)想沒(méi)事的時(shí)候翻翻,可惜看不下去,還是和張沒(méi)法比,他的書能暢銷大部分還是受張的影響,對(duì)這個(gè)男人實(shí)在是沒(méi)好感,不知道怎么買的,后悔。
這臺(tái)機(jī)外觀十分好,本人喜歡,性能不錯(cuò),是LED顯示屏,無(wú)線網(wǎng)卡是: 5100AGN 無(wú)線網(wǎng)卡,如果裝的是一條2G 800MHZ的內(nèi)存就無(wú)敵了,本本發(fā)熱很小,總體來(lái)說(shuō)是十分值得買的,前提是這臺(tái)機(jī)是4299買的。
全鍵盤帶數(shù)字鍵的 顯卡足夠強(qiáng)大.N卡相對(duì)A卡,個(gè)人偏向N卡 GHOST XP很容易.除了指紋識(shí)別外.所有驅(qū)動(dòng)都能裝齊全了,指紋識(shí)別,非要在XP下使用的朋友,可以用替代驅(qū)動(dòng).貢獻(xiàn)下驅(qū)動(dòng)地址: http://dlsvr01.a(chǎn)sus.com/pub/ASUS/nb/F9Dc/Fingerprints_XP_080530.zip (華碩官方地址,放心下吧)。
做工很漂亮,老婆很喜歡。T4200足夠了,性價(jià)比不錯(cuò)的機(jī)器。測(cè)試了一下很安逸。今天晚上準(zhǔn)備TWOW溜達(dá)圈,再看看整機(jī)表現(xiàn)如何!
其它分類任務(wù)的運(yùn)行方式類似。同時(shí) ERNIE 還支持閱讀理解、語(yǔ)義匹配、序列標(biāo)注等任務(wù),運(yùn)行方式可以參考 README 中 Fine-tuning 章節(jié)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用