Scrapy框架的安装和简单使用

news/2024/7/23 19:14:00 标签: python

Scrapy框架的安装和简单使用

  • Scrapy框架的安装和简单使用
  • 前言
  • 一、环境准备
  • 二、安装步骤
    • 1.安装相关库
  • 三、创建和简单介绍
  • 总结

Scrapy框架的安装和简单使用

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • Scrapy框架的安装和简单使用
  • 前言
  • 一、环境准备
  • 二、安装步骤
    • 1.安装相关库
  • 三、创建和简单介绍
  • 总结


前言

工欲善其事,必先利其器。这是我第一次写文章,也算是记录一下自己的学习日常。

什么是Scrapy框架?

 Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架

Scrapy的用途:

 Scrapy用途非常广泛,主要用于抓取特定web站点的信息并从中提取特定结构的数据,除此之外,还可用于数据挖掘、监测、自动化测试、信息处理和历史片段(历史记录)打包等

了解完Scrapy框架后,我们就来看看怎么安装和使用吧


一、环境准备

win64 位
python 3.8

二、安装步骤

1.安装相关库

由于Scrapy的安装涉及很多库,如果直接在控制台安装可能受网速影响会很慢亦或者安装失败,所以这里推荐使用将包下载到本地,然后再控制台安装;还有一个办法是使用国内的源。(不过笔者对于Twisted库国内的一直安装失败,是在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载到本地然后安装的)

需要安装的库有:
1.wheel库

直接在控制台输入

pip install wheel -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

2.lxml库

直接在控制台输入

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

3.PyOpenssl库

直接在控制台输入

pip install PyOpenssl -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

4.Twisted库

两种方法:

(1) 在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 上找到对应的版本下载到本地。
例如
在这里插入图片描述
由于笔者这里是python 3.8 ,win64,所以下载 Twisted‑20.3.0‑cp38‑cp38‑win_amd64.whl 这一个。下载完成后找到文件的位置复制它的路径,例如C:\Users\CODER\Downloads,然后在控制台安装。

 pip install C:\Users\CODER\Downloads\Twisted-20.3.0-cp38-cp38-win_amd64.whl

(2)直接在控制台输入

pip install Twisted -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

5.Pywin32 库

直接在控制台输入

pip install Pywin32 -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

6.scrapy 库

直接在控制台输入

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

这样Scrapy框架就按照完成啦

如果以上库有按照失败的,都可以用Twisted库的安装方法,下载到本地再安装,方法命令同上。最后再推荐大家一个安装python 相关库的命令

pip install <包名> -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

其中
-i https://pypi.tuna.tsinghua.edu.cn/simple 表示使用清华源
–trusted-host pypi.tuna.tsinghua.edu.cn 表示添加信任

三、创建和简单介绍

1.首先是创建一个项目
在控制台,先进入你要创建项目的位置,然后输入执行

scrapy startproject <项目名>

例如
在这里插入图片描述
出现这样的提示即创建成功。
在这里插入图片描述
然后在pycharm中便可以打开这个项目

2.创建一个爬虫文件
我们的爬虫文件需要在 spiders目录中,所以我们需要先进入spiders路径,然后才能执行创建命令。

scrapy genspider <爬虫名> www.baidu.com

其中 www.baidu.com 为网站域名,这里用百度的域名作为示范。

在这里插入图片描述
出现这样的提示即创建成功。(必须先进入spiders路径哦!)
在这里插入图片描述
在项目中的spiders目录下即可看见刚刚创建的爬虫文件。
这样一个爬虫项目的创建便完成啦!

3.简单介绍

这里来解释一下各个文件的作用:

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件,负责对爬虫返回数据的处理

settings.py:爬虫程序设置,主要是一些爬虫速度并发和各优先级等等等等的设置(后面会专门写文章介绍)

scrapy.cfg:内容为scrapy的基础配置


总结

以上就是对于scrapy的安装及简单介绍,这是笔者第一次发表文章,希望对大家有所帮助,如有问题欢迎大家指出。后面我也会继续更新scrapy的相关使用,也算是一个个人学习笔记。


http://www.niftyadmin.cn/n/1143429.html

相关文章

python关于pip的常见命令汇总

python关于pip的常见命令 文章目录python关于pip的常见命令前言1.查看pip2.where pip3.安装库(1)直接安装(2)接入国内的信任源(3)先下载到本地&#xff0c;然后在通过本地安装4.pip的相关操作命令及对库的批量操作命令(1)查看pip的版本信息(2)pip更新版本(3)pip回退版本(4)查看…

Python 网络爬虫:爬取4K高清美图

爬取4K高清美图 这篇爬虫主要是用来爬取网站高清4K图片&#xff0c;这也是笔者学初学爬虫的时候最先写一个的爬虫脚本&#xff0c;现在回过头来重新梳理一下&#xff0c;也算是对从前知识的一个总结&#xff0c;希望对大家有所帮助&#xff01; 文章目录爬取4K高清美图1、分析…

将的脚本程序打包成一个exe可执行程序

将的脚本程序打包成一个exe可执行程序 文章目录将的脚本程序打包成一个exe可执行程序前言1.引入库2.具体使用&#xff08;1&#xff09;准备工作&#xff1a;&#xff08;2&#xff09;打包程序&#xff1a;补充总结前言 最近经常在空闲的时候写一些简单的小工具&#xff0c;正…

python 对txt文本的去重处理

python 对txt文本的去重处理 文章目录python 对txt文本的去重处理前言1.引入库2.完整代码(读取单个txt文件)3.完整代码(读取多个txt文件)总结前言 日常工作需要经常对数据进行去重的处理&#xff0c;在这里简单记录分享下 1.引入库 import os2.完整代码(读取单个txt文件) 代码…

Python 网络爬虫:初使用selenium爬取百度图片

初使用selenium爬取百度图片 文章目录初使用selenium爬取百度图片前言一、selenium是什么&#xff1f;二、安装配置步骤1.环境&#xff1a;python 3.8&#xff0c;win 10以及chrome和其对应的chromedriver.exe2.安裝selenium库3.安裝配置chrome4.配置环境变量5.测试是否可用三、…

Python 网络爬虫:Scrapy-selenium配置及selenium接管浏览器

Scrapy-selenium配置及selenium接管浏览器 下面笔者将继续介绍selenium以及将selenium配置到Scrapy中 文章目录Scrapy-selenium配置及selenium接管浏览器前言一、selenium被检测二、Selenium方法被检测识别出来的应对方案接管浏览器三、Scrapy-selenium 配置总结前言 继续学习…

一键格式化headers

格式化headers 直接运行即可 代码如下&#xff1a; import reheaders_str """ 这块把需要加标点的headers复制进去 """ pattern re.compile("^(.*?): (.*)$") for line in headers_str.splitlines():print(re.sub(pattern, "…

Python 网络爬虫:Scrapy-redis 的简单配置及初应用

Python 网络爬虫&#xff1a;Scrapy-redis 的简单配置及初应用 文章目录Python 网络爬虫&#xff1a;Scrapy-redis 的简单配置及初应用前言一、scrapy-redis是什么&#xff1f;二、使用步骤1.首先当然是安装redis啦2.scrapy-redis相关配置3.代码部分(1) 分析页面情况(2) 编写爬…