扣丁学堂Python培训视频教程之处理HTML转义字符五种方式详解

助工

2020-10-15 15:19:55 打赏

　　今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式，首先大多数Python初学者觉得写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有JSON格式，有XML文档，不过大部分还是HTML文档，HTML经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

　　什么是转义字符

　　在HTML中<、>、&等字符有特殊含义(<，>用于标签中，&用于转义)，他们不能在HTML代码中直接使用，如果要在网页中显示这些符号，就需要使用HTML的转义字符串(EscapeSequence)，例如<的转义字符是<，浏览器渲染HTML页面时，会自动把转移字符串换成真实字符。

　　转义字符(EscapeSequence)由三部分组成：第一部分是一个&符号，第二部分是实体(Entity)名字，第三部分是一个分号。比如，要显示小于号(<)，就可以写<。

　　<小于<

　　空格

　　<小于<

　　>大于>

　　&&符号&

　　"双引号"

　　©版权©

　　®已注册商标®

　　Python转义字符串反转义

　　用Python来处理转义字符串有多种方式，而且py2和py3中处理方式不一样，在python2中，反转义的模块是HTMLParser。

　　#Python2

　　importHTMLParser

　　>>>HTMLParser().unescape('param=p1¶m=p2')

　　'param=p1¶m=p2'

　　Python3HTMLParser模块迁移到了html.parser

　　#Python3

　　>>>fromhtml.parserimportHTMLParser

　　>>>HTMLParser().unescape('param=p1¶m=p2')

　　'param=p1¶m=p2'

　　到python3.4以后的版本，在html模块新增了unescape方法。

　　#Python3.4

　　>>>importhtml

　　>>>html.unescape('param=p1¶m=p2')

　　'param=p1¶m=p2'

　　推荐最后一种写法，因为HTMLParser.unescape方法在Python3.4就已经被废弃掉不推荐使用了，意味着之后的版本会被彻底移除。

　　另外，xml的sax模块也有支持反转义的函数

　　>>>fromxml.sax.saxutilsimportunescape

　　>>>unescape('param=p1¶m=p2')

　　'param=p1¶m=p2'

　　以上就是关于扣丁学堂Python培训之处理HTML转义字符五种方式的详细介绍，最后想要了解更多关于Python发展前景趋势，请关注扣丁学堂官网、微信等平台，扣丁学堂IT职业在线学习教育平台为您提供权威的Python视频教程系统，通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程，让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python技术交流群：816572891。

共1条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
「破界·共生」——2026蓝牙技术变革与工程实战思辨会
【“龙虾”创意工坊征集令——用XClaw玩出最出乎意料的智能终端】有奖活动~
2026年“我要开发板活动”第三季，开始了！
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！

我要赚赏金打赏帖
片外存储Flash使用方法(Arduino IDE环境)被打赏￥22元
三分钟快速上手ESP-NOW(ArduinoIDE环境)被打赏￥23元
【S32K3XX】LPSPI参数配置说明被打赏￥21元
在WT9932C61-TINY上实现超声波测距被打赏￥22元
基于WT9932C61-TINY的环境构建及OLED屏驱动测试被打赏￥20元
【S32K3XX】Core-to-Core 中断使用被打赏￥21元
「AI编程记录--含源码」用一晚上的时间写一个esp32的示波器被打赏￥19元
STM32C0116DK开发探索记（3）被打赏￥30元
STM32C0116DK开发探索记（2）被打赏￥24元
STM32C0116DK开发探索记（1）被打赏￥29元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

扣丁学堂Python培训视频教程之处理HTML转义字符五种方式详解

回复