for c in all_text:
然则这个逻辑太乱了,以至于不克不及持续匹配到前面的 c
,还有之前的字符,更之前的字符,更更之前的字符。
最后,我决定专注于 =
并应用索引办法,以便我可以轻松地引用字符串中的任何先前或将来的字符。 这里是搜刮部分:
我用第四个字符开端搜刮(索引大年夜 0 开端),所以我鄙人面没有出现索引缺点,并且实际上,在每一行的第四个字符之前不会有等号。 第一个测试是看字符串中是否出现了 =
,如不雅没有,我们就会进步。 如不雅我们确切看到一个等号,那么我们会看前三个字符是否是 s
、r
和 c
。 如不雅全都匹配了,就调用函数 imagefound
:
def imagefound(all_text, imagelist, index):
end = 0
index += 2
newimage = ''
while end == 0:
if (all_text[index] != '"'):
newimage = newimage + all_text[index]
index += 1
else:
newimage = newimage + '\n'
imagelist.append(newimage)
end = 1
return
我们给函数发送当前索引,它代表着 =
。 我们知道下一?字符将会是 "
,所以我们跳过两个字符,并开端向名为 newimage
的┞菲握字符串添加字符,直到我们发明下一? "
,此时我们完成了一次匹配。 我们将字符串加一个换行符(\n
)添加到列表 imagelist
中并返回(return
),请记住,在残剩的┞封个 HTML 字符串中可能会有更多图片标签,所以我们立时回到搜刮轮回中。
<img src="images/pdf-form-ht3.png"/><img src="images/pdf-form-ht4.png"/><img src="images/pdf-form-ht5.png"/><img
推荐阅读
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 2015年,固执的苹不雅也推出了带压力感应的手写笔,然则迄今为止,这个笔如今只能在iPad Pro上应用,这让苹不雅>>>详细阅读
本文标题:如何用Python解析HTML?
地址:http://www.17bianji.com/lsqh/40963.html
1/2 1