当前位置:首页 > python > 正文内容

scrapy创建项目与运行

zhangsir4年前 (2022-08-23)python378

打开命令行:

1. 创建爬虫的项目   scrapy startproject 项目的名字

                 注意:项目的名字不允许使用数字开头  也不能包含中文

2. 创建爬虫文件

                 要在spiders文件夹中去创建爬虫文件

                 cd 项目的名字\项目的名字\spiders

                 cd scrapy_baidu_091\scrapy_baidu_091\spiders


                 创建爬虫文件

                 scrapy genspider 爬虫文件的名字  要爬取网页

                 eg:scrapy genspider baidu  http://www.baidu.com

                 一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains

                 修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了

3. 运行爬虫代码

                 scrapy crawl 爬虫的名字

                 eg:

                 scrapy crawl baidu


zhangsir版权c3防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://mianka.xyz/post/13.html

标签: pythonscrapy
分享给朋友:

“scrapy创建项目与运行” 的相关文章

django框架的安装和创建第一个项目

安装Djangopip install -i https://pypi.douban.com/simple django创建项目django-admin startproject 项目名称例如 django-admin startproje...

python 给电脑设置闹钟

python会自动触发windows桌面通知,提示重要事项,比如说:您已工作两小时,该休息了我们可以设定固定时间提示,比如隔10分钟、1小时等用到的第三方库:win10toast - 用于发送桌面通知的工具from win10toast import ToastNoti...

python selenium 使用代理ip

代码如下:from selenium import webdriver chromeOptions = webdriver.ChromeOptions() chromeOptions.add_argument("--proxy-serv...

Linux系统下使用Python+selenium+谷歌浏览器下载文件

from seleniumwire import webdriver import time ch_options = webdriver.ChromeOptions() ch_options.add_argument("-...

python 实现快速扣背景图功能

一,实现快速扣背景图需要rembg这个三方库#引入rembg库 from rembg import remove #素材 input_path = 'input.jpg' #效果 output_path =&nbs...

python 使用PIL库进行验证码清晰处理

python 使用PIL库进行验证码清晰处理from PIL import Image import sys import os sys.setrecursionlimit(1000000) pixel_list = []...