导航:首页 > 文件教程 > scrapy中文教程pdf

scrapy中文教程pdf

发布时间:2025-08-12 19:06:28

Ⅰ Python编程基础之(五)Scrapy爬虫框架

经过前面四章的学习,我们已经可以使用Requests库、Beautiful Soup库和Re库,编写基本的Python爬虫程序了。那么这一章就来学习一个专业的网络爬虫框架--Scrapy。没错,是框架,而不是像前面介绍的函数功能库。

Scrapy是一个快速、功能强大的网络爬虫框架。

可能大家还不太了解什么是框架,爬虫框架其实是实现爬虫功能的一个软件结构和功能组件的集合。

简而言之, Scrapy就是一个爬虫程序的半成品,可以帮助用户实现专业的网络爬虫。

使用Scrapy框架,不需要你编写大量的代码,Scrapy已经把大部分工作都做好了,允许你调用几句代码便自动生成爬虫程序,可以节省大量的时间。

当然,框架所生成的代码基本是一致的,如果遇到一些特定的爬虫任务时,就不如自己使用Requests库搭建来的方便了。

PyCharm安装

测试安装:

出现框架版本说明安装成功。

掌握Scrapy爬虫框架的结构是使用好Scrapy的重中之重!

先上图:

整个结构可以简单地概括为: “5+2”结构和3条数据流

5个主要模块(及功能):

(1)控制所有模块之间的数据流。

(2)可以根据条件触发事件。

(1)根据请求下载网页。

(1)对所有爬取请求进行调度管理。

(1)解析DOWNLOADER返回的响应--response。

(2)产生爬取项--scraped item。

(3)产生额外的爬取请求--request。

(1)以流水线方式处理SPIDER产生的爬取项。

(2)由一组操作顺序组成,类似流水线,每个操作是一个ITEM PIPELINES类型。

(3)清理、检查和查重爬取项中的HTML数据并将数据存储到数据库中。

2个中间键:

(1)对Engine、Scheler、Downloader之间进行用户可配置的控制。

(2)修改、丢弃、新增请求或响应。

(1)对请求和爬取项进行再处理。

(2)修改、丢弃、新增请求或爬取项。

3条数据流:

(1):图中数字 1-2

1:Engine从Spider处获得爬取请求--request。

2:Engine将爬取请求转发给Scheler,用于调度。

(2):图中数字 3-4-5-6

3:Engine从Scheler处获得下一个要爬取的请求。

4:Engine将爬取请求通过中间件发送给Downloader。

5:爬取网页后,Downloader形成响应--response,通过中间件发送给Engine。

6:Engine将收到的响应通过中间件发送给耐如Spider处理。

(3):图中数字 7-8-9

7:Spider处理响应后产生爬取项--scraped item。

8:Engine将爬取项发送给Item Pipelines。

9:Engine将爬取请求发送给Scheler。

任务处理流程:从Spider的初始爬取请求开始爬取,Engine控制各模块数据流,不间断从Scheler处获得爬取请求,直至请求为空,最后到Item Pipelines存储数据结束。

作为用户,只需配置好Scrapy框架的Spider和Item Pipelines,也就是数据流的入口与出口,便可完成一个爬虫程序的搭建激含。Scrapy提供了简单的爬虫命令语句,帮助用户一键配置剩余文件,那我们便来看看有哪些好用的命令吧。

Scrapy采用命令行创建和运行爬虫

PyCharm打开Terminal,启动Scrapy:

Scrapy基本命令行格式:

具体常用命令如下:

下面用一个例子来学习一下命令的使用:

1.建立一个Scrapy爬虫工程,在已启动的Scrapy中继续输入:

执行该命令,系统会在PyCharm的工程文件中自动创建一个工程,命明亩笑名为pythonDemo。

2.产生一个Scrapy爬虫,以教育部网站为例http://www.moe.gov.cn:

命令生成了一个名为demo的spider,并在Spiders目录下生成文件demo.py。

命令仅用于生成demo.py文件,该文件也可以手动生成。

观察一下demo.py文件:

3.配置产生的spider爬虫,也就是demo.py文件:

4.运行爬虫,爬取网页:

如果爬取成功,会发现在pythonDemo下多了一个t20210816_551472.html的文件,我们所爬取的网页内容都已经写入该文件了。

以上就是Scrapy框架的简单使用了。

Request对象表示一个HTTP请求,由Spider生成,由Downloader执行。

Response对象表示一个HTTP响应,由Downloader生成,有Spider处理。

Item对象表示一个从HTML页面中提取的信息内容,由Spider生成,由Item Pipelines处理。Item类似于字典类型,可以按照字典类型来操作。

Ⅱ GitHub 上有哪些值得推荐的开源电子书

语言无关类
操作系统

Ⅲ Mac安装Scrapy教程及安装成功后找不到Scrapy解决

安装步骤:
安装相关依赖

进入githup 中 setup.py查看相关依赖:

在终端中查看是否安装:

没有安装的直接pip install 直接安装就好了

最后安装Scrapy: pip3 install Scrapy(我的Mac有2.7 和3.5两个版本)

检验是否安装成功
scrapy -h
我已经安装成功但是提示老蠢 scrapy:command not found

为某一个文件在另外侍郑陪一个位置建立一个同不的链接,这个命令最常用的参数丛迅是-s,具体用法是:ln -s 源文件 目标文件

Ⅳ pycharm community2021安装教程 pycharmscrapy安装

PyCharm Community 2021 安装教程及 PyCharm 中 Scrapy 安装步骤

一、PyCharm Community 2021 安装教程

  1. 下载安装包

    • 前往 PyCharm 官方网站,根据自己的操作系统(如 Windows)选择对应的安装包。
    • 推荐下载 PyCharm Community 版本,因为它是开源且免费的,适合日常学习和使用。
  2. 安装软件

    • 双击下载的安装包,按照屏幕上的指示进行安装。
    • 在安装过程中,可以选择安装路径和其他相关设置,通常默认设置即可。
  3. 启动 PyCharm

    • 安装完成后,双击 PyCharm 图标启动软件。
    • 如果是首次启动,可能需要进行一些初始化设置,如选择项目路径、配置 Python 解释器等。

二、在 PyCharm 中安装 Scrapy

  1. 打开 PyCharm

    • 创建一个新项目或打开一个已有项目。
  2. 配置 Python 解释器

    • 在 PyCharm 的顶部菜单栏中选择“File” - “Settings”。
    • 在“Settings”窗口中,选择“Project” - “Project Interpreter”。
    • 确保已正确配置 Python 解释器,如果没有,可以点击“Add Interpreter”进行添加。
  3. 安装 Scrapy

    • 在“Project Interpreter”窗口中,点击右侧的“+”号按钮。
    • 在弹出的搜索框中输入“Scrapy”,然后点击“Install Package”进行安装。
    • 等待安装完成,Scrapy 将被添加到当前项目的 Python 解释器中。
  4. 使用 Scrapy

    • 安装完成后,可以在 PyCharm 的 Terminal(终端)中使用 Scrapy 命令。
    • 例如,可以输入 scrapy startproject myproject 来创建一个新的 Scrapy 项目。

三、注意事项

阅读全文

与scrapy中文教程pdf相关的资料

热点内容
word页眉设置成图片 浏览:26
苹果数据线授权给哪些品牌了 浏览:326
win7安装盘驱动程序 浏览:396
文件夹特别大却找不到大的文件 浏览:736
js所在字符串的位置 浏览:642
苹果6文件传输助手 浏览:753
挖掘机编程怎么取消 浏览:917
格力手机文件存哪里 浏览:745
看不到别人的qq签名档 浏览:671
上传文件发送出错请刷新页面后重试 浏览:366
华为设备如何设置限制网络跟踪 浏览:988
戴尔笔记本无线怎么连接无线网络 浏览:171
2014网络损失 浏览:929
地狱火堡垒装备去哪升级 浏览:924
所得税基础数据同步什么意思 浏览:996
电脑如何局域网共享文件夹 浏览:565
dnf90版本3000张深渊票 浏览:729
住外地哪个app好 浏览:627
bin文件软件打开软件打开 浏览:647
数据建模范式包括哪些 浏览:263

友情链接