如何用Python解析HTML?

ALT="Edit examples" ALIGN=left>

它的一小部分输出如下所示：

images/cmcanvas.png" title="Context Menu for the document canvas" alt="Context Menu for the document canvas" /></td></tr></table><br images/eps-imp1.png" title="EPS preview in a file dialog" alt="EPS preview in a file dialog" images/eps-imp5.png" title="Colors imported from an EPS file" alt="Colors imported from an EPS file" images/eps-imp4.png" title="EPS font substitution" alt="EPS font substitution" images/eps-imp2.png" title="EPS import progress" alt="EPS import progress" images/eps-imp3.png" title="Bitmap conversion failure" alt="Bitmap conversion failure"

乍一看，它看起来竽暌闺膳绫擎的输出类似，并且附带有去除图像的标签部分的好处，然则有令人费解的是还搀杂着表格标签和其他内容。我认为这涉及到这个正则表达式 src=http://developer.51cto.com/art/201803/"(.*)/>，这被称为贪婪，意味着它不必定停止在碰到 /> 的第一个实例。我应当弥补一点，我也测验测验过 src=http://developer.51cto.com/art/201803/"(.*)"，这真的没有什么更好的效不雅，我不是一个正则表达式专家（只是做了这个），找了各类办法来改进这一点然则并没什么竽暌姑。

做了一系列的工作之后，甚至测验测验了 Perl 的 HTML::Parser 模块，最终我试图将这与我为 Scribus 编写的一些脚本进行比较，这些脚本逐个字符的分析文本内容，然后采取一些行动。为了最注目标，我终于想出了所有这些办法，并且完全不须要正则表达式或 HTML 解析器。让我们回到展示的那个 img 标签的例子。

<img src="images/edit_shapes.png" ALT="Edit examples" ALIGN=left>

我决定回到 src=http://developer.51cto.com/art/201803/ 这一块。一种办法是等待 s 出现，然后看下一?字符是否是 r，下一?是 c，下一?是否 =。如不雅是如许，那就匹配上了！那么两个双引号之间的内容就是我所须要的。这种办法的问题在于须要持续辨认膳绫擎如许的构造。一种查看代表一行 HTML 文本的字符串的办法是：

2/8 首页上一页 1 2 3 4 5 6 下一页尾页

　　推荐阅读

　　苹果秘密专利曝光：一支能在空中写字的Apple Pen

沙龙晃荡 | 3月31日京东、微博、华为拭魅战专家与你合营商量容器技巧实践！ 2015年，固执的苹不雅也推出了带压力感应的手写笔，然则迄今为止，这个笔如今只能在iPad Pro上应用，这让苹不雅>>>详细阅读

本文标题：如何用Python解析HTML?

地址：http://www.17bianji.com/lsqh/40963.html

1/2 1