当前位置:首页 > python > 正文内容

如何用python获取一个网页的所有连接

zhangsir3年前 (2022-09-21)python456

如何用python获取一个网页的所有连接

很简单直接上代码:

# -*- coding: utf-8 -*-
'''
如何用python获取一个网页的所有连接
author:zhangsir
'''
import requests
import time
from lxml import etree
#网址
url = 'https://www.baidu.com'
#请求头
headers={
"Host": "www.baidu.com",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36",
"Cookie": "BIDUPSID=C7465C07C18C65C97A99CA9252B157C5; PSTM=1663725617; BAIDUID=C7465C07C18C65C93CEFB95934D4AD90:FG=1; BD_HOME=1; H_PS_PSSID=36558_36462_36921_37300_36885_37345_36569_37405_37261_26350_37285_22157_37231; BD_UPN=1a314753; BAIDUID_BFESS=C7465C07C18C65C93CEFB95934D4AD90:FG=1; BA_HECTOR=84al0lal2184a4ah810lo25o1hiks0j19; ZFY=2znAwD2OEqUOkcGnGOgJBJQB89SW7H2KCibOnac:ALc4:C"
}
#爬虫
a = requests.get(url=url,headers=headers)
#获取源码
b = a.text
#转成lxml需要的格式
html = etree.HTML(b)
#获取a标签的所有连接
link = html.xpath('//a/@href')
#去重
list2 = list(set(link))
#打印
print(list2)


zhangsir版权f2防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://mianka.xyz/post/31.html

标签: python
分享给朋友:

“如何用python获取一个网页的所有连接” 的相关文章

权大师商标查询api

''' data:2022-10-15 autor:zhangsir 权大师商标查询api ''' import requests import json import time import h...

解决Django的request.POST获取不到请求参数的问题

这个是Django自身的问题:只要在请求头的添加"content-type":'application/x-www-form-urlencoded'就行。...

python—pymysql的增删改查操作实例展示

Python使用pymysql连接数据库1.导包import pymysql2.连接数据库connection = pymysql.connect(     host='',  # ...

python 实现快速扣背景图功能

一,实现快速扣背景图需要rembg这个三方库#引入rembg库 from rembg import remove #素材 input_path = 'input.jpg' #效果 output_path =&nbs...

Python如何获得命令行输入的参数?

python获取命令行输入参数的方法:通过sys.argv通过这个方法,我们可以对一个参数的列表进行获取,获得到的第一个值是文件名的本身,如果要获得文件名后的第一个参数,可以通过sys.argv[1]操作,如果有多个参数的存在,那么每一个参数之间需要使用空格分割,举个例子:import s...

怎么用python连接websocket

要使用 Python 连接 WebSocket,可以使用 websocket 模块或 websocket-client 库。以下是使用 websocket-client 库连接 WebSocket 的基本步骤:安装 websocket-client 库。可以使用 pip 进行安装:pip ...