导航:首页 > 数据分析 > 为什么集搜客没有ms数据台

为什么集搜客没有ms数据台

发布时间:2024-03-28 18:30:04

① 如何翻页抓取网页数据

我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。

在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据,分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

一、完成抓取内容映射

理箱中创建抓取内容,并完成映射。

具体操作步骤如下:

在整理箱中创建抓取内容,并完成映射,选择网页上要抓取的内容映射到整理箱后,跳转到爬虫路线工作台设置翻页线索。

做完抓取内容基本操作后,为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能

二、创建翻页线索

具体操作步骤如下:

跳转到爬虫路线工作台。

点击新建,创建一条线索。

选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。

勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。

勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。

具体操作步骤如下:

在爬虫路线工作台中点击定位选项。

线索定位选择偏好class。

网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。

具体操作步骤如下:

1.在网页上点击翻页标志“下一页”,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)
2.展开A节点,找到“下一页”对应text节点(text节点即为文本节点)
3.点击对应text节点会在显示工作台中显示。
在网页结构窗口中找到,对应节点后,即开始进行线索映射。

具体操作步骤如下:

选择对应节点进行记号映射,右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。

具体操作步骤如下:

1.选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。
2.进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。
这样就完成了网站翻页规则的定义,可以使用DS打数机进行翻页数据抓取。

阅读全文

与为什么集搜客没有ms数据台相关的资料

热点内容
穿越一战欧洲类小说 浏览:948
韩国动漫电影爱情推理片 浏览:464
主角叫萧晨的重生小说 浏览:355
印度迷情杀机演员 浏览:194
微信朋友圈找不到视频文件夹 浏览:262
亚马逊原始森林电影大全 浏览:879
种子改文件名 浏览:617
javacookie客户端生成唯一 浏览:974
近几年的台湾爱情电影 浏览:427
欧美以小孩为主角的电影 浏览:513
苹果4s桌面图片尺寸 浏览:966
阿里旺旺不兼容版本号 浏览:23
比较靠谱的在线播放网站 浏览:218
主角叫林枫的娱乐小说 浏览:850
芭比公主所有的大电影免费 浏览:913
可以免费观看vip的网站 浏览:183
无删减电影网址 浏览:737
男主喜欢吃女主奶的小说 浏览:714
四点全露电影推荐 浏览:280
韩国羞污网站app 浏览:797

友情链接