这些小活动你都参加了吗?快来围观一下吧!>>
电子产品世界 » 论坛首页 » 综合技术 » 基础知识 » 扣丁学堂Python培训视频教程之处理HTML转义字符五种方式详解

共1条 1/1 1 跳转至

扣丁学堂Python培训视频教程之处理HTML转义字符五种方式详解

助工
2020-10-15 15:19:55     打赏

  今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式,首先大多数Python初学者觉得写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有JSON格式,有XML文档,不过大部分还是HTML文档,HTML经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。

python3.jpg

  什么是转义字符


  在HTML中<、>、&等字符有特殊含义(<,>用于标签中,&用于转义),他们不能在HTML代码中直接使用,如果要在网页中显示这些符号,就需要使用HTML的转义字符串(EscapeSequence),例如<的转义字符是<,浏览器渲染HTML页面时,会自动把转移字符串换成真实字符。


  转义字符(EscapeSequence)由三部分组成:第一部分是一个&符号,第二部分是实体(Entity)名字,第三部分是一个分号。比如,要显示小于号(<),就可以写<。


  <小于<


  空格


  <小于<


  >大于>


  &&符号&


  "双引号"


  ©版权©


  ®已注册商标®


  Python转义字符串反转义


  用Python来处理转义字符串有多种方式,而且py2和py3中处理方式不一样,在python2中,反转义的模块是HTMLParser。


  #Python2


  importHTMLParser


  >>>HTMLParser().unescape('param=p1¶m=p2')


  'param=p1¶m=p2'


  Python3HTMLParser模块迁移到了html.parser


  #Python3


  >>>fromhtml.parserimportHTMLParser


  >>>HTMLParser().unescape('param=p1¶m=p2')


  'param=p1¶m=p2'


  到python3.4以后的版本,在html模块新增了unescape方法。


  #Python3.4


  >>>importhtml


  >>>html.unescape('param=p1¶m=p2')


  'param=p1¶m=p2'


  推荐最后一种写法,因为HTMLParser.unescape方法在Python3.4就已经被废弃掉不推荐使用了,意味着之后的版本会被彻底移除。


  另外,xml的sax模块也有支持反转义的函数


  >>>fromxml.sax.saxutilsimportunescape


  >>>unescape('param=p1¶m=p2')


  'param=p1¶m=p2'


  以上就是关于扣丁学堂Python培训之处理HTML转义字符五种方式的详细介绍,最后想要了解更多关于Python发展前景趋势,请关注扣丁学堂官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供权威的Python视频教程系统,通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程,让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python技术交流群:816572891。



共1条 1/1 1 跳转至

回复

匿名不能发帖!请先 [ 登陆 注册 ]