当前位置:首页 > python > 正文内容

scrapy创建项目与运行

zhangsir3年前 (2022-08-23)python310

打开命令行:

1. 创建爬虫的项目   scrapy startproject 项目的名字

                 注意:项目的名字不允许使用数字开头  也不能包含中文

2. 创建爬虫文件

                 要在spiders文件夹中去创建爬虫文件

                 cd 项目的名字\项目的名字\spiders

                 cd scrapy_baidu_091\scrapy_baidu_091\spiders


                 创建爬虫文件

                 scrapy genspider 爬虫文件的名字  要爬取网页

                 eg:scrapy genspider baidu  http://www.baidu.com

                 一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains

                 修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了

3. 运行爬虫代码

                 scrapy crawl 爬虫的名字

                 eg:

                 scrapy crawl baidu


zhangsir版权c3防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://mianka.xyz/post/13.html

标签: pythonscrapy
分享给朋友:

“scrapy创建项目与运行” 的相关文章

python之seleniumwire获取network(网络)信息

python之seleniumwire获取请求头参数import time from seleniumwire import webdriver # 创建Chrome驱动程序的新实例 driver = webdriver...

python 给电脑设置闹钟

python会自动触发windows桌面通知,提示重要事项,比如说:您已工作两小时,该休息了我们可以设定固定时间提示,比如隔10分钟、1小时等用到的第三方库:win10toast - 用于发送桌面通知的工具from win10toast import ToastNoti...

计算机学习视频教程

人工智能机器学习:Python&R实践课程介绍:https://www.aihorizon.cn/1百度网盘地址: https://pan.baidu.com/s/1a743NTKFRjsgexMTagWooA?pwd=e39j动手使用Python进行自然语言处理(NLP)课程介绍:http...

python Tesseract 验证码识别训练流程

1、用jTessBoxEditor把要训练样本图片文件合并成tif文件(样本图片一定要为有效的格式图片)点击顶栏的Tools选项,选择Merge TIFF..   进入你要训练的样本图片所在的目录,点击Ctrl+Alt+A,选择所有图片点击打开,然后保存文件名到指定目录,我这里保...

Python如何获得命令行输入的参数?

python获取命令行输入参数的方法:通过sys.argv通过这个方法,我们可以对一个参数的列表进行获取,获得到的第一个值是文件名的本身,如果要获得文件名后的第一个参数,可以通过sys.argv[1]操作,如果有多个参数的存在,那么每一个参数之间需要使用空格分割,举个例子:import s...

python在windows与Mac安装教程

以下是在Windows系统上安装Python的步骤:1.首先,你需要从Python官方网站上下载Python的安装程序。在网站上选择“Downloads”(下载)选项,然后选择适合你操作系统的Python版本进行下载。建议下载最新的稳定版本。2.运行下载好的安装程序,按照安装程序的指示进行安装。在安...