導航:首頁 > 數據分析 > 為什麼集搜客沒有ms數據台

為什麼集搜客沒有ms數據台

發布時間:2024-03-28 18:30:04

① 如何翻頁抓取網頁數據

我們在抓取數據時,通常不會只抓取網頁當前頁面的數據,往往都會繼續抓取翻頁後的數據。本文就為大家介紹,集搜客GooSeeker網路爬蟲如何在進行數據抓取時,自動抓取翻頁後的數據。

在MS謀數台的爬蟲路線工作台有三種線索方式可以實現自動抓取翻頁後的數據,分別是定點線索、記號線索、相對線索。本文主要介紹比較常用的記號線索。

一、完成抓取內容映射

理箱中創建抓取內容,並完成映射。

具體操作步驟如下:

在整理箱中創建抓取內容,並完成映射,選擇網頁上要抓取的內容映射到整理箱後,跳轉到爬蟲路線工作台設置翻頁線索。

做完抓取內容基本操作後,為了抓取網頁上所有相同產品的數據本規則還使用了樣例復制管理功能

二、創建翻頁線索

具體操作步驟如下:

跳轉到爬蟲路線工作台。

點擊新建,創建一條線索。

選擇線索類型,設置翻頁線索時通常選擇記號線索,本文主要介紹的就是記號線索。

勾選連貫抓取,表示在執行抓取任務時,爬蟲可以在同一個DS打數機窗口內抓取完當前頁面後直接跳轉到下一個頁面進行抓取。

勾選連貫抓取後,目標主題名自動填寫當前規則主題名,在本規則內不應修改,表示翻頁後繼續使用當前規則進行抓取。

具體操作步驟如下:

在爬蟲路線工作台中點擊定位選項。

線索定位選擇偏好class。

網頁結構中的@id屬性每個頁面不同的幾率較大,如果線索定位偏好@id,容易導致在後續的抓取中翻頁失敗。所以一般我們手工修改選擇較為穩定不變的@class屬性,作為線索定位的首選項。

具體操作步驟如下:

1.在網頁上點擊翻頁標志「下一頁」,會彈出該信息的定位提示框,通常是定位到模塊節點(即包含多個下層節點,可雙擊展開,例如A節點)
2.展開A節點,找到「下一頁」對應text節點(text節點即為文本節點)
3.點擊對應text節點會在顯示工作台中顯示。
在網頁結構窗口中找到,對應節點後,即開始進行線索映射。

具體操作步驟如下:

選擇對應節點進行記號映射,右擊對應的text節點,選擇線索映射後點擊記號映射,在可爬蟲路線工作台記號值中看到「下一頁」,記號定位編號顯示「下一頁」text在網頁結構窗口中的對應編號。

在做完記號映射之後,要進行線索定位映射,就是選擇包含記號標志的范圍進行映射。

具體操作步驟如下:

1.選擇線索定位區塊,線索定位的區塊一般是包含"下一頁"翻頁標志的區塊節點,也就是網頁上的翻頁區塊(在網頁結構窗口中點擊包含 「下一頁」翻頁標志的區塊節點,會在瀏覽器窗口中顯示)。
2.進行線索定位映射,右擊翻頁區塊節點,選擇線索映射→定位→線索1 。完成後定位編號會顯示翻頁區塊節點的定位編號。
這樣就完成了網站翻頁規則的定義,可以使用DS打數機進行翻頁數據抓取。

閱讀全文

與為什麼集搜客沒有ms數據台相關的資料

熱點內容
引用文件內容的格式及範文 瀏覽:881
編程圖元屬性怎麼修改 瀏覽:828
word文檔的大括弧怎麼輸入 瀏覽:862
關於旅遊收入的數據從哪裡找 瀏覽:989
gson解析json集合問題 瀏覽:680
安卓ipsec標識符填什麼 瀏覽:215
在哪裡解壓文件第一分卷 瀏覽:63
奧維使用教程 瀏覽:324
編程程序怎麼轉到plc上 瀏覽:807
文件名沖突但是找不到 瀏覽:261
上海瑞金醫院app下載 瀏覽:998
qq群里的機器人買武器 瀏覽:428
捕魚達人歷史版本 瀏覽:73
mp4視頻文件解密軟體 瀏覽:62
多軸編程哪個軟體最方便 瀏覽:27
老平板哪個是顯示屏數據線插座 瀏覽:849
5sing上傳音頻文件格式 瀏覽:171
win10輸入文件滑鼠右鍵異常 瀏覽:634
聽幼兒故事用什麼app 瀏覽:514
iphone修改音頻文件名 瀏覽:53

友情鏈接