作家
登录

如何用Python解析HTML?

作者: 来源: 2018-03-28 00:03:06 阅读 我要评论

  1. for c in all_text:

然则这个逻辑太乱了,以至于不克不及持续匹配到前面的 c,还有之前的字符,更之前的字符,更更之前的字符。

最后,我决定专注于 = 并应用索引办法,以便我可以轻松地引用字符串中的任何先前或将来的字符。 这里是搜刮部分:

我用第四个字符开端搜刮(索引大年夜 0 开端),所以我鄙人面没有出现索引缺点,并且实际上,在每一行的第四个字符之前不会有等号。 第一个测试是看字符串中是否出现了 =,如不雅没有,我们就会进步。 如不雅我们确切看到一个等号,那么我们会看前三个字符是否是 src。 如不雅全都匹配了,就调用函数 imagefound

  1. def imagefound(all_text, imagelist, index):
  2. end = 0
  3. index += 2
  4. newimage = ''
  5. while end == 0:
  6. if (all_text[index] != '"'):
  7. newimage = newimage + all_text[index]
  8. index += 1
  9. else:
  10. newimage = newimage + '\n'
  11. imagelist.append(newimage)
  12. end = 1
  13. return

我们给函数发送当前索引,它代表着 =。 我们知道下一?字符将会是 ",所以我们跳过两个字符,并开端向名为 newimage 的┞菲握字符串添加字符,直到我们发明下一? ",此时我们完成了一次匹配。 我们将字符串加一个换行符(\n)添加到列表 imagelist 中并返回(return),请记住,在残剩的┞封个 HTML 字符串中可能会有更多图片标签,所以我们立时回到搜刮轮回中。

  1. <img src="images/pdf-form-ht3.png"/><img src="images/pdf-form-ht4.png"/><img src="images/pdf-form-ht5.png"/><img

      推荐阅读

      苹果秘密专利曝光:一支能在空中写字的Apple Pen

    沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 2015年,固执的苹不雅也推出了带压力感应的手写笔,然则迄今为止,这个笔如今只能在iPad Pro上应用,这让苹不雅>>>详细阅读


    本文标题:如何用Python解析HTML?

    地址:http://www.17bianji.com/lsqh/40963.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)