深挖網(wǎng)絡(luò)爬蟲技術(shù)及Crawl4J應(yīng)用
配置介紹:
config.setMaxDepthOfCrawling(int maxDepthOfCrawling):抓取深度限制,默認(rèn)抓取深度不受限制(設(shè)定值為-1也不受限制)。如種子頁(yè)面為A,A鏈接到B,B鏈接到C,C鏈接到D。種子頁(yè)面A的深度為0,B的深度為1,以此類推。如果設(shè)定值為2,就不會(huì)抓取到D鏈接的內(nèi)容。
config.setPolitenessDelay(int politenessDelay):每次請(qǐng)求前等待毫秒數(shù),默認(rèn)不等待?梢苑乐棺ト≌(qǐng)求過快而被服務(wù)器端認(rèn)為是非法請(qǐng)求而終止訪問的情況。
可以通過如下代碼設(shè)定代理設(shè)置:
crawlConfig.setProxyHost("proxyserver.example.com");
crawlConfig.setProxyPort(8080);
如果代理需要認(rèn)證:
crawlConfig.setProxyUsername(username);
crawlConfig.getProxyPassword(password);
解析器
代碼解釋:
shouldVisit():用來實(shí)現(xiàn)滿足抓取數(shù)據(jù)的條件,如滿足抓取條件則返回true,返回false代表不滿足條件則放棄本次抓取。
visit(): 抓取返回的響應(yīng)結(jié)果,此示例中通過Jsoup來解析響應(yīng)內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求,對(duì)熟悉JavaScript的開發(fā)者使用起來比較方便易懂。
標(biāo)簽定位:HTML標(biāo)簽定位可以通過瀏覽器控制臺(tái)的方式進(jìn)行查看。
資源庫(kù):
本示例中通過Java標(biāo)準(zhǔn)輸出流來替代資源庫(kù)的實(shí)現(xiàn)部分,未單獨(dú)實(shí)現(xiàn)資源庫(kù)的代碼。從輸出結(jié)果可以看出項(xiàng)目設(shè)定10個(gè)線程同時(shí)抓取滿足條件的第一級(jí)深度的博客文章共計(jì)21篇。
規(guī)避反爬蟲技術(shù)
在實(shí)際項(xiàng)目抓取的過程中應(yīng)該滿足君子協(xié)議即不違背robots.txt定義的抓取協(xié)議。同時(shí)爬蟲項(xiàng)目的開發(fā)中可能會(huì)遇被抓取的WEB網(wǎng)站對(duì)訪問頻繁程度的限制,異步Ajax動(dòng)態(tài)渲染數(shù)據(jù)等?梢詤⒖既缦路椒ń鉀Q:
通過設(shè)定動(dòng)態(tài)IP代理的方式,每抓取幾次之后動(dòng)態(tài)更換IP地址,讓服務(wù)器端判斷每次IP來源不同;
通過設(shè)定抓取前休眠時(shí)間來降低抓取頻度;
分析動(dòng)態(tài)Ajax請(qǐng)求,結(jié)合Jsoup進(jìn)行單獨(dú)的URL請(qǐng)求,獲取異步請(qǐng)求數(shù)據(jù)響應(yīng)內(nèi)容;
通過Selenium等相關(guān)自動(dòng)化測(cè)試工具,模擬真實(shí)的瀏覽器請(qǐng)求獲取Ajax異步請(qǐng)求渲染之后的數(shù)據(jù);
通過設(shè)定Header中的值,來規(guī)避相關(guān)請(qǐng)求參數(shù)的限制。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?