關(guān)于Scrapy爬蟲項(xiàng)目運(yùn)行和調(diào)試的小技巧(上篇)
掃除運(yùn)行Scrapy爬蟲程序的bug之后,現(xiàn)在便可以開始進(jìn)行編寫爬蟲邏輯了。在正式開始爬蟲編寫之前,在這里介紹四種小技巧,可以方便我們操縱和調(diào)試爬蟲。
一、建立main.py文件,直接在Pycharm下進(jìn)行調(diào)試
很多時候我們在使用Scrapy爬蟲框架的時候,如果想運(yùn)行Scrapy爬蟲項(xiàng)目的話,一般都會想著去命令行中直接執(zhí)行命令“scrapy crawl crawler_name”,其中crawler_name指的是爬蟲的名字,在一開始創(chuàng)建Scrapy爬蟲模板的時候就指定了的,而且在該爬蟲項(xiàng)目中具有唯一性。但是每次跑到命令行下去執(zhí)行,看交互的結(jié)果,有時候并不是很清晰,所以這里介紹一種方法,可以幫助大家提高開發(fā)效率,尤其是調(diào)試的時候更是顯得方便。
在與爬蟲項(xiàng)目的scrapy.cfg文件同級目錄下建立一個main.py文件,用于控制整個爬蟲項(xiàng)目的執(zhí)行。
在該文件夾中寫入的代碼見下圖。其中execute函數(shù)是內(nèi)嵌在scrapy中的,調(diào)用這個函數(shù)可以直接調(diào)用該Scrapy工程項(xiàng)目的爬蟲腳本,這個函數(shù)的執(zhí)行需要在爬蟲項(xiàng)目的父目錄下進(jìn)行。而第7行代碼的意思就是獲取當(dāng)前py文件的父目錄,省去我們直接復(fù)制路徑的精力和時間,同時也方便我們將該項(xiàng)目放到其他的平臺上去運(yùn)行,不會報路徑的錯誤。execute函數(shù)里邊的參數(shù)其實(shí)就是將Scrapy爬蟲執(zhí)行命令拆分,然后分別以一個字符的方式放到了一個數(shù)組中。
之后我們直接運(yùn)行這個main.py文件便可以調(diào)用Scrapy爬蟲程序了。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?