导航:首页 > 数据分析 > 为什么集搜客没有ms数据台

为什么集搜客没有ms数据台

发布时间:2024-03-28 18:30:04

① 如何翻页抓取网页数据

我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。

在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据,分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

一、完成抓取内容映射

理箱中创建抓取内容,并完成映射。

具体操作步骤如下:

在整理箱中创建抓取内容,并完成映射,选择网页上要抓取的内容映射到整理箱后,跳转到爬虫路线工作台设置翻页线索。

做完抓取内容基本操作后,为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能

二、创建翻页线索

具体操作步骤如下:

跳转到爬虫路线工作台。

点击新建,创建一条线索。

选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。

勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。

勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。

具体操作步骤如下:

在爬虫路线工作台中点击定位选项。

线索定位选择偏好class。

网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。

具体操作步骤如下:

1.在网页上点击翻页标志“下一页”,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)
2.展开A节点,找到“下一页”对应text节点(text节点即为文本节点)
3.点击对应text节点会在显示工作台中显示。
在网页结构窗口中找到,对应节点后,即开始进行线索映射。

具体操作步骤如下:

选择对应节点进行记号映射,右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。

具体操作步骤如下:

1.选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。
2.进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。
这样就完成了网站翻页规则的定义,可以使用DS打数机进行翻页数据抓取。

阅读全文

与为什么集搜客没有ms数据台相关的资料

热点内容
引用文件内容的格式及范文 浏览:881
编程图元属性怎么修改 浏览:828
word文档的大括号怎么输入 浏览:862
关于旅游收入的数据从哪里找 浏览:989
gson解析json集合问题 浏览:680
安卓ipsec标识符填什么 浏览:215
在哪里解压文件第一分卷 浏览:63
奥维使用教程 浏览:324
编程程序怎么转到plc上 浏览:807
文件名冲突但是找不到 浏览:261
上海瑞金医院app下载 浏览:998
qq群里的机器人买武器 浏览:428
捕鱼达人历史版本 浏览:73
mp4视频文件解密软件 浏览:62
多轴编程哪个软件最方便 浏览:27
老平板哪个是显示屏数据线插座 浏览:849
5sing上传音频文件格式 浏览:171
win10输入文件鼠标右键异常 浏览:634
听幼儿故事用什么app 浏览:514
iphone修改音频文件名 浏览:53

友情链接