訂閱
糾錯(cuò)
加入自媒體

深挖網(wǎng)絡(luò)爬蟲技術(shù)及Crawl4J應(yīng)用

配置介紹:

config.setMaxDepthOfCrawling(int maxDepthOfCrawling):抓取深度限制,默認(rèn)抓取深度不受限制(設(shè)定值為-1也不受限制)。如種子頁(yè)面為A,A鏈接到B,B鏈接到C,C鏈接到D。種子頁(yè)面A的深度為0,B的深度為1,以此類推。如果設(shè)定值為2,就不會(huì)抓取到D鏈接的內(nèi)容。

config.setPolitenessDelay(int politenessDelay):每次請(qǐng)求前等待毫秒數(shù),默認(rèn)不等待?梢苑乐棺ト≌(qǐng)求過快而被服務(wù)器端認(rèn)為是非法請(qǐng)求而終止訪問的情況。

可以通過如下代碼設(shè)定代理設(shè)置:

crawlConfig.setProxyHost("proxyserver.example.com");

crawlConfig.setProxyPort(8080);

如果代理需要認(rèn)證:

crawlConfig.setProxyUsername(username);

crawlConfig.getProxyPassword(password);

解析器

代碼解釋:

shouldVisit():用來實(shí)現(xiàn)滿足抓取數(shù)據(jù)的條件,如滿足抓取條件則返回true,返回false代表不滿足條件則放棄本次抓取。

visit(): 抓取返回的響應(yīng)結(jié)果,此示例中通過Jsoup來解析響應(yīng)內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求,對(duì)熟悉JavaScript的開發(fā)者使用起來比較方便易懂。

標(biāo)簽定位:HTML標(biāo)簽定位可以通過瀏覽器控制臺(tái)的方式進(jìn)行查看。

資源庫(kù):

本示例中通過Java標(biāo)準(zhǔn)輸出流來替代資源庫(kù)的實(shí)現(xiàn)部分,未單獨(dú)實(shí)現(xiàn)資源庫(kù)的代碼。從輸出結(jié)果可以看出項(xiàng)目設(shè)定10個(gè)線程同時(shí)抓取滿足條件的第一級(jí)深度的博客文章共計(jì)21篇。

規(guī)避反爬蟲技術(shù)

在實(shí)際項(xiàng)目抓取的過程中應(yīng)該滿足君子協(xié)議即不違背robots.txt定義的抓取協(xié)議。同時(shí)爬蟲項(xiàng)目的開發(fā)中可能會(huì)遇被抓取的WEB網(wǎng)站對(duì)訪問頻繁程度的限制,異步Ajax動(dòng)態(tài)渲染數(shù)據(jù)等?梢詤⒖既缦路椒ń鉀Q:

通過設(shè)定動(dòng)態(tài)IP代理的方式,每抓取幾次之后動(dòng)態(tài)更換IP地址,讓服務(wù)器端判斷每次IP來源不同;

通過設(shè)定抓取前休眠時(shí)間來降低抓取頻度;

分析動(dòng)態(tài)Ajax請(qǐng)求,結(jié)合Jsoup進(jìn)行單獨(dú)的URL請(qǐng)求,獲取異步請(qǐng)求數(shù)據(jù)響應(yīng)內(nèi)容;

通過Selenium等相關(guān)自動(dòng)化測(cè)試工具,模擬真實(shí)的瀏覽器請(qǐng)求獲取Ajax異步請(qǐng)求渲染之后的數(shù)據(jù);

通過設(shè)定Header中的值,來規(guī)避相關(guān)請(qǐng)求參數(shù)的限制。

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)