Python网络爬虫1 – 简单的Http请求

最近这段时间会有需要写一个网络爬虫。会在这里将实现网络爬虫的经验记录下来。

爬虫什么的,只是一个名字罢了。简单地说,也都是从http请求开始的。

Python实现http请求主要依赖的是urllib.request模块。例如发送http get请求:

就是这么简单。

通常,在命令行打印出来的是网页的源代码。想从中过滤出来需要的信息需要进行匹配和筛选。比如使用正则式匹配获取title和body中的内容:

对于一些采集程序来说做到这里就够了。如果我们要的是网页的内容而非网页的html,则需要使用比正则表达式更强大的工具。在下一节会用一个实例介绍相关的内容。

附上完整的程序:

#########


发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据