導航:首頁 > 文件教程 > scrapy中文教程pdf

scrapy中文教程pdf

發布時間:2025-08-12 19:06:28

Ⅰ Python編程基礎之(五)Scrapy爬蟲框架

經過前面四章的學習,我們已經可以使用Requests庫、Beautiful Soup庫和Re庫,編寫基本的Python爬蟲程序了。那麼這一章就來學習一個專業的網路爬蟲框架--Scrapy。沒錯,是框架,而不是像前面介紹的函數功能庫。

Scrapy是一個快速、功能強大的網路爬蟲框架。

可能大家還不太了解什麼是框架,爬蟲框架其實是實現爬蟲功能的一個軟體結構和功能組件的集合。

簡而言之, Scrapy就是一個爬蟲程序的半成品,可以幫助用戶實現專業的網路爬蟲。

使用Scrapy框架,不需要你編寫大量的代碼,Scrapy已經把大部分工作都做好了,允許你調用幾句代碼便自動生成爬蟲程序,可以節省大量的時間。

當然,框架所生成的代碼基本是一致的,如果遇到一些特定的爬蟲任務時,就不如自己使用Requests庫搭建來的方便了。

PyCharm安裝

測試安裝:

出現框架版本說明安裝成功。

掌握Scrapy爬蟲框架的結構是使用好Scrapy的重中之重!

先上圖:

整個結構可以簡單地概括為: 「5+2」結構和3條數據流

5個主要模塊(及功能):

(1)控制所有模塊之間的數據流。

(2)可以根據條件觸發事件。

(1)根據請求下載網頁。

(1)對所有爬取請求進行調度管理。

(1)解析DOWNLOADER返回的響應--response。

(2)產生爬取項--scraped item。

(3)產生額外的爬取請求--request。

(1)以流水線方式處理SPIDER產生的爬取項。

(2)由一組操作順序組成,類似流水線,每個操作是一個ITEM PIPELINES類型。

(3)清理、檢查和查重爬取項中的HTML數據並將數據存儲到資料庫中。

2個中間鍵:

(1)對Engine、Scheler、Downloader之間進行用戶可配置的控制。

(2)修改、丟棄、新增請求或響應。

(1)對請求和爬取項進行再處理。

(2)修改、丟棄、新增請求或爬取項。

3條數據流:

(1):圖中數字 1-2

1:Engine從Spider處獲得爬取請求--request。

2:Engine將爬取請求轉發給Scheler,用於調度。

(2):圖中數字 3-4-5-6

3:Engine從Scheler處獲得下一個要爬取的請求。

4:Engine將爬取請求通過中間件發送給Downloader。

5:爬取網頁後,Downloader形成響應--response,通過中間件發送給Engine。

6:Engine將收到的響應通過中間件發送給耐如Spider處理。

(3):圖中數字 7-8-9

7:Spider處理響應後產生爬取項--scraped item。

8:Engine將爬取項發送給Item Pipelines。

9:Engine將爬取請求發送給Scheler。

任務處理流程:從Spider的初始爬取請求開始爬取,Engine控制各模塊數據流,不間斷從Scheler處獲得爬取請求,直至請求為空,最後到Item Pipelines存儲數據結束。

作為用戶,只需配置好Scrapy框架的Spider和Item Pipelines,也就是數據流的入口與出口,便可完成一個爬蟲程序的搭建激含。Scrapy提供了簡單的爬蟲命令語句,幫助用戶一鍵配置剩餘文件,那我們便來看看有哪些好用的命令吧。

Scrapy採用命令行創建和運行爬蟲

PyCharm打開Terminal,啟動Scrapy:

Scrapy基本命令行格式:

具體常用命令如下:

下面用一個例子來學習一下命令的使用:

1.建立一個Scrapy爬蟲工程,在已啟動的Scrapy中繼續輸入:

執行該命令,系統會在PyCharm的工程文件中自動創建一個工程,命明畝笑名為pythonDemo。

2.產生一個Scrapy爬蟲,以教育部網站為例http://www.moe.gov.cn:

命令生成了一個名為demo的spider,並在Spiders目錄下生成文件demo.py。

命令僅用於生成demo.py文件,該文件也可以手動生成。

觀察一下demo.py文件:

3.配置產生的spider爬蟲,也就是demo.py文件:

4.運行爬蟲,爬取網頁:

如果爬取成功,會發現在pythonDemo下多了一個t20210816_551472.html的文件,我們所爬取的網頁內容都已經寫入該文件了。

以上就是Scrapy框架的簡單使用了。

Request對象表示一個HTTP請求,由Spider生成,由Downloader執行。

Response對象表示一個HTTP響應,由Downloader生成,有Spider處理。

Item對象表示一個從HTML頁面中提取的信息內容,由Spider生成,由Item Pipelines處理。Item類似於字典類型,可以按照字典類型來操作。

Ⅱ GitHub 上有哪些值得推薦的開源電子書

語言無關類
操作系統

Ⅲ Mac安裝Scrapy教程及安裝成功後找不到Scrapy解決

安裝步驟:
安裝相關依賴

進入githup 中 setup.py查看相關依賴:

在終端中查看是否安裝:

沒有安裝的直接pip install 直接安裝就好了

最後安裝Scrapy: pip3 install Scrapy(我的Mac有2.7 和3.5兩個版本)

檢驗是否安裝成功
scrapy -h
我已經安裝成功但是提示老蠢 scrapy:command not found

為某一個文件在另外侍鄭陪一個位置建立一個同不的鏈接,這個命令最常用的參數叢迅是-s,具體用法是:ln -s 源文件 目標文件

Ⅳ pycharm community2021安裝教程 pycharmscrapy安裝

PyCharm Community 2021 安裝教程及 PyCharm 中 Scrapy 安裝步驟

一、PyCharm Community 2021 安裝教程

  1. 下載安裝包

    • 前往 PyCharm 官方網站,根據自己的操作系統(如 Windows)選擇對應的安裝包。
    • 推薦下載 PyCharm Community 版本,因為它是開源且免費的,適合日常學習和使用。
  2. 安裝軟體

    • 雙擊下載的安裝包,按照屏幕上的指示進行安裝。
    • 在安裝過程中,可以選擇安裝路徑和其他相關設置,通常默認設置即可。
  3. 啟動 PyCharm

    • 安裝完成後,雙擊 PyCharm 圖標啟動軟體。
    • 如果是首次啟動,可能需要進行一些初始化設置,如選擇項目路徑、配置 Python 解釋器等。

二、在 PyCharm 中安裝 Scrapy

  1. 打開 PyCharm

    • 創建一個新項目或打開一個已有項目。
  2. 配置 Python 解釋器

    • 在 PyCharm 的頂部菜單欄中選擇「File」 - 「Settings」。
    • 在「Settings」窗口中,選擇「Project」 - 「Project Interpreter」。
    • 確保已正確配置 Python 解釋器,如果沒有,可以點擊「Add Interpreter」進行添加。
  3. 安裝 Scrapy

    • 在「Project Interpreter」窗口中,點擊右側的「+」號按鈕。
    • 在彈出的搜索框中輸入「Scrapy」,然後點擊「Install Package」進行安裝。
    • 等待安裝完成,Scrapy 將被添加到當前項目的 Python 解釋器中。
  4. 使用 Scrapy

    • 安裝完成後,可以在 PyCharm 的 Terminal(終端)中使用 Scrapy 命令。
    • 例如,可以輸入 scrapy startproject myproject 來創建一個新的 Scrapy 項目。

三、注意事項

閱讀全文

與scrapy中文教程pdf相關的資料

熱點內容
蘋果數據線授權給哪些品牌了 瀏覽:326
win7安裝盤驅動程序 瀏覽:396
文件夾特別大卻找不到大的文件 瀏覽:736
js所在字元串的位置 瀏覽:642
蘋果6文件傳輸助手 瀏覽:753
挖掘機編程怎麼取消 瀏覽:917
格力手機文件存哪裡 瀏覽:745
看不到別人的qq簽名檔 瀏覽:671
上傳文件發送出錯請刷新頁面後重試 瀏覽:366
華為設備如何設置限制網路跟蹤 瀏覽:988
戴爾筆記本無線怎麼連接無線網路 瀏覽:171
2014網路損失 瀏覽:929
地獄火堡壘裝備去哪升級 瀏覽:924
所得稅基礎數據同步什麼意思 瀏覽:996
電腦如何區域網共享文件夾 瀏覽:565
dnf90版本3000張深淵票 瀏覽:729
住外地哪個app好 瀏覽:627
bin文件軟體打開軟體打開 瀏覽:647
數據建模範式包括哪些 瀏覽:263
折分word文件 瀏覽:963

友情鏈接