使用Scrapy框架爬取网页并保存到Mysql

小编小本本 • 2023年4月15日 am10:22 • VPS运维

使用Scrapy框架爬虫并保存到Mysql数据库中

尊敬的读者大家好，我是本际云服务器推荐网的小编小本本。接下来我将和大家分享使用Scrapy框架爬虫并保存到Mysql数据库中的方法。

使用Scrapy框架爬取网页并保存到Mysql

具体实现方法

首先，我们打开目标网站，使用xpath定位元素。接下来，创建一个Scrapy爬虫工程，在终端输入指令：“scrapystartprojecthuty”。

进入到“hpty/hpty/spiders”目录下创建一个爬虫文件，使用指令“scrapygenspidersww”，对整个爬虫工程相关的爬虫文件进行编辑。

编辑setting文件，将君子协议原本的True改为False，并打开被注释掉的代码。

编辑item文件，用来定义数据类型。

编辑最重要的爬虫文件，即“hpty”文件，使用xpath定位要爬取的数据，并将其保存到数据库中。

编辑pipelines文件，对保存数据到数据库的操作进行处理。

创建数据库和数据表，最后回到终端，输入指令“scrapycrawlsww”即可爬取目标网站并将数据保存到Mysql数据库中。

以上就是使用Scrapy框架爬虫并保存到Mysql数据库中的具体实现方法，希望对大家有所帮助。

原创文章，作者：小编小本本，如若转载，请注明出处：https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/7253.html

赞 (0)

小编小本本

Python的三种主要模块介绍

« 上一篇 2023年4月15日 am10:22

nginx日志存放位置及分析方法（附：详细教程）

下一篇 » 2023年4月15日 am10:22

VPS运维

Harbor镜像仓库清理小窍门

自我介绍我是本际云服务器推荐网的小编小本本，今天给大家分享一下关于Harbor镜像仓库的清理小窍门。阶段一：清理镜像标签随着各系统镜像不断push到Harbor，仓库磁盘空间…

2023年4月15日
VPS运维

OGG创建进程

小本本的OGG创建进程欢迎关注“IT那活儿”公众号，本文将为您介绍OGG创建进程的具体步骤以及相关配置方法，希望对您有所帮助。下载安装OGG软件包首先下载OGG软件包并解压，…

2023年4月18日
VPS运维

渠道货什么意思(李宁渠道货是什么意思？)

李宁渠道货和iphonex渠道货的含义李宁渠道货通常被称为“水货”，是指通过私人直接从制造商那里获得的商品，而不是通过正规程序在市场上流通的商品，这种渠道商品没有发票，也不退款。…

2023年4月19日
VPS运维

PostgreSQL实现job神器pg_cron

今天小编要给大家分享的是PostgreSQL实现job神器pg_cron。我们都知道PGAgent功能不错，但需要的依赖太多了，需要先装PGadmin以及一大堆的依赖包，使用起来非…

2023年4月18日
VPS运维

Pygame精准检测图象撞击问题

Pygame精准检测图像撞击作为本际云服务器推荐网的小编小本本，今天给大家介绍如何使用Pygame实现精准检测图像撞击。在使用Pygame写游戏时，有些人可能遇到两个Rect目标…

2023年4月19日
VPS运维

基于shell对主机资源的简单巡检

基于shell对主机资源的简单巡检我是本际云服务器推荐网的小编小本本，今天来为大家介绍一下基于shell对主机资源的简单巡检。监测目的监测CPU、磁盘、内存的使用情况，以更好…

2023年4月18日
VPS运维

北京服务器托管价格

北京服务器托管平均价格 vs UCloud优刻得乌兰察布数据中心价格大家好，我是本际云服务器推荐网的小编小本本。在选择服务器托管平台的时候，不仅要考虑价格，还需要考虑地理位置和质…

2023年4月17日
VPS运维

Pycharm出现问题与解决方法，下文给大家详解

Pycharm常见报错及解决方法我是本际云服务器推荐网的小编小本本，今天给大家介绍一下关于Pycharm的相关问题。在使用Pycharm过程中，常常会遇到各种各样的报错，下面将详…

2023年4月19日
VPS运维

k8s使用nfs持久化数据

安装部署NFS服务器 NFS是常用的远程存储，下面是安装和部署NFS服务器的过程。首先使用命令yum -y install nfs-utils安装NFS工具，然后使用systemc…

2023年4月16日
VPS运维

上海服务器托管IDC厂商排名

上海提供IDC托管服务的公司排名与介绍随着长三角经济一体化和智慧上海、数字上海、智慧上海的建设，信息化、数字化成为上海各公司的企业发展战略。一切数字化，都离不开IDC数据中心。而…

2023年4月17日