当前位置:首页 > python > 正文内容

python 字符串里有中文与html代码,怎么去掉html代码

zhangsir3年前 (2023-03-29)python265

你可以使用Python的内置字符串操作和正则表达式来去除HTML代码。以下是一个示例代码,它将删除字符串中的所有HTML标记和Unicode字符:

import re
# 字符串示例
my_string = "这是一个 <b>示例</b> 字符串,其中包含<p>一些</p> HTML 代码和中文字符 &#8211; 删除它们!"
# 删除HTML标记和Unicode字符
no_tags = re.sub('<[^<]+?>', '', my_string)  # 删除HTML标记
no_unicode = no_tags.encode('ascii', 'ignore').decode('utf-8')  # 删除Unicode字符
print(no_unicode)
输出结果将是:
这是一个 示例 字符串,其中包含一些 HTML 代码和中文字符  删除它们!

这个示例代码使用了Python的re模块来删除HTML标记。正则表达式 <[^<]+?> 表示匹配任何以 < 开头、以 > 结尾的字符串,其中 [^<]+ 表示匹配除了 < 之外的任何字符,+ 表示至少匹配一个字符。encode 和 decode 函数是用来删除Unicode字符的。


zhangsir版权g4防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://mianka.xyz/post/161.html

分享给朋友:

“python 字符串里有中文与html代码,怎么去掉html代码” 的相关文章

如何向python 列表中添加元素

Python添加元素有三种方法:append、extend、insertappend:向列表添加元素,添加到尾部实例:list=[“my”,“name”,“is”,“mark”,“age”,18] print(“添加前:”,list) list.append(“test”) print(“添加...

Python三方库ddddocr实现验证码识别

Python三方库ddddocr实现验证码识别环境要求python >= 3.8安装三方库pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple参数说明:参数名参数类型默认值说明us...

权大师商标查询api

''' data:2022-10-15 autor:zhangsir 权大师商标查询api ''' import requests import json import time import h...

python 实现彩色图转素描图

python可以把彩色图片转化为铅笔素描草图,对人像、景色都有很好的效果。而且只需几行代码就可以一键生成,适合批量操作,非常的快捷。需要的第三方库:Opencv - 计算机视觉工具,可以实现多元化的图像视频处理,有Python接口""" Photo ...

计算机学习视频教程

人工智能机器学习:Python&R实践课程介绍:https://www.aihorizon.cn/1百度网盘地址: https://pan.baidu.com/s/1a743NTKFRjsgexMTagWooA?pwd=e39j动手使用Python进行自然语言处理(NLP)课程介绍:http...

python 多线程与多进程的代码实例

一.两者区别多进程和多线程的主要区别是:线程是进程的子集(部分),一个进程可能由多个线程组成。多进程的数据是分开的、共享复杂,需要用IPC;但同步简单。多线程共享进程数据,共享简单;但同步复杂。(1)多进程进程是程序在计算机上的一次执行活动,即正在运行中的应用程序,通常称为进程。当你运行一个程序,你...