index += 1
else:
index += 1
else:
index += 1
outfile = open('/tmp/imagelist_parse4.txt', 'w')
outfile.writelines(imagelist)
outfile.close()
imageno = len(imagelist)
print str(imageno) + " images were found and saved"
脚本名称为 parseimg4.py
,这并不克不及真实反竽暌钩我陆续编写的脚本数量(包含微调的和大年夜改的以及丢弃并从新开端写的)。 请留意,我已经对这些目次和文件名进行了硬编码,然则很轻易变得通用化,让用户输入这些信息。 同样,因为它们是工作脚本,所以我将输出发送到 /tmp
目次,所以一旦从新启动体系,它们就会消掉。
这不是故事的结尾,因为下一?问题是:僵尸 HTML 文件怎么办? 任何未应用的文件都可能会引用图像,不克不及被前面的办法所找出。 我们有一个 menu.xml
文件作为联机手册的目次,但我还须要推敲 TOC(LCTT 译注:TOC 是 table of contents 的缩写)中列出的某些文件可能引用了不在 TOC 中的文件,是的,我确拭魅找到了一些如许的文件。
最后我可以说,这是一个比图像搜刮更简单的义务,并且开辟的过程对我有很大年夜的赞助。
【编辑推荐】
- 用Python构建你本身的RSS提示体系
- 小200行Python代码做了一个换脸法度榜样
- HTML5中手势道理分析与数学常识的实践
- 若何用一个Python示例入门TensorFlow?
- 5种应用Python代码轻松实现数据可视化的办法
推荐阅读
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 2015年,固执的苹不雅也推出了带压力感应的手写笔,然则迄今为止,这个笔如今只能在iPad Pro上应用,这让苹不雅>>>详细阅读
本文标题:如何用Python解析HTML?
地址:http://www.17bianji.com/lsqh/40963.html
1/2 1