作家
登录

如何用Python解析HTML?

作者: 来源: 2018-03-28 00:03:06 阅读 我要评论

ALT="Edit examples" ALIGN=left>

它的一小部分输出如下所示:

  1. images/cmcanvas.png" title="Context Menu for the document canvas" alt="Context Menu for the document canvas" /></td></tr></table><br images/eps-imp1.png" title="EPS preview in a file dialog" alt="EPS preview in a file dialog" images/eps-imp5.png" title="Colors imported from an EPS file" alt="Colors imported from an EPS file" images/eps-imp4.png" title="EPS font substitution" alt="EPS font substitution" images/eps-imp2.png" title="EPS import progress" alt="EPS import progress" images/eps-imp3.png" title="Bitmap conversion failure" alt="Bitmap conversion failure"

乍一看,它看起来竽暌闺膳绫擎的输出类似,并且附带有去除图像的标签部分的好处,然则有令人费解的是还搀杂着表格标签和其他内容。 我认为这涉及到这个正则表达式 src=http://developer.51cto.com/art/201803/"(.*)/>,这被称为贪婪,意味着它不必定停止在碰到 /> 的第一个实例。我应当弥补一点,我也测验测验过 src=http://developer.51cto.com/art/201803/"(.*)",这真的没有什么更好的效不雅,我不是一个正则表达式专家(只是做了这个),找了各类办法来改进这一点然则并没什么竽暌姑。

做了一系列的工作之后,甚至测验测验了 Perl 的 HTML::Parser 模块,最终我试图将这与我为 Scribus 编写的一些脚本进行比较,这些脚本逐个字符的分析文本内容,然后采取一些行动。 为了最注目标,我终于想出了所有这些办法,并且完全不须要正则表达式或 HTML 解析器。 让我们回到展示的那个 img 标签的例子。

  1. <img src="images/edit_shapes.png" ALT="Edit examples" ALIGN=left>

我决定回到 src=http://developer.51cto.com/art/201803/ 这一块。 一种办法是等待 s 出现,然后看下一?字符是否是 r,下一?是 c,下一?是否 =。 如不雅是如许,那就匹配上了! 那么两个双引号之间的内容就是我所须要的。 这种办法的问题在于须要持续辨认膳绫擎如许的构造。 一种查看代表一行 HTML 文本的字符串的办法是:

	
				
			

  推荐阅读

  苹果秘密专利曝光:一支能在空中写字的Apple Pen

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 2015年,固执的苹不雅也推出了带压力感应的手写笔,然则迄今为止,这个笔如今只能在iPad Pro上应用,这让苹不雅>>>详细阅读


本文标题:如何用Python解析HTML?

地址:http://www.17bianji.com/lsqh/40963.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)