如何用Python解析HTML?

for c in all_text:

然则这个逻辑太乱了，以至于不克不及持续匹配到前面的 c，还有之前的字符，更之前的字符，更更之前的字符。

最后，我决定专注于 = 并应用索引办法，以便我可以轻松地引用字符串中的任何先前或将来的字符。这里是搜刮部分：

我用第四个字符开端搜刮（索引大年夜 0 开端），所以我鄙人面没有出现索引缺点，并且实际上，在每一行的第四个字符之前不会有等号。第一个测试是看字符串中是否出现了 =，如不雅没有，我们就会进步。如不雅我们确切看到一个等号，那么我们会看前三个字符是否是 s、r 和 c。如不雅全都匹配了，就调用函数 imagefound：

def imagefound(all_text, imagelist, index):
    end = 0
    index += 2
    newimage = ''
    while end == 0:
        if (all_text[index] != '"'):
            newimage = newimage + all_text[index]
            index += 1
        else:
            newimage = newimage + '\n'
            imagelist.append(newimage)
            end = 1
            return

我们给函数发送当前索引，它代表着 =。我们知道下一?字符将会是 "，所以我们跳过两个字符，并开端向名为 newimage 的┞菲握字符串添加字符，直到我们发明下一? "，此时我们完成了一次匹配。我们将字符串加一个换行符（\n）添加到列表 imagelist 中并返回（return），请记住，在残剩的┞封个 HTML 字符串中可能会有更多图片标签，所以我们立时回到搜刮轮回中。

<img src="images/pdf-form-ht3.png"/><img src="images/pdf-form-ht4.png"/><img src="images/pdf-form-ht5.png"/><img	
			 3/8   首页 上一页 1 2 3 4 5 6 下一页 尾页	
			

　　推荐阅读
　　苹果秘密专利曝光：一支能在空中写字的Apple Pen
            沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践！
            2015年，固执的苹不雅也推出了带压力感应的手写笔，然则迄今为止，这个笔如今只能在iPad Pro上应用，这让苹不雅>>>详细阅读


本文标题：如何用Python解析HTML?
地址：http://www.17bianji.com/lsqh/40963.html
 1/2    1