• Python网络爬虫7 – 使用cookie

    很多时候,我们要查看的内容必须要先登录才能找到,比如知乎的回答,QQ空间的好友列表、微博上关注的人和粉丝等。要使用爬虫直接登录抓取这些信息时,有一个不太好解决的难题,就是这些网站设置的登录规则以及登录

    [阅读更多...]
  • Python网络爬虫6 – 网页编码

    在抓取网页时遇到了一段报错信息: 抓取网页的代码及网址如下: 在错误信息中提示了网页的编码不是utf-8。那么如何确认网页的编码形式呢?有如下几种方式: 从网页源码中查找chaset信息; 使用Fir

    [阅读更多...]
  • Python网络爬虫5 – 图片抓取

    这一节看下如何抓取网页中的图片。目标网址是:http://pp.163.com/longer-yowoo/pp/10069141.html。这里有一组我非常喜欢的图片。 要抓取网页首先就要找出图片的网

    [阅读更多...]
  • Python网络爬虫4 – 多线程抓取

    之前的内容已经大致实现了如何获取网页、分析网页、获取目标内容。接下来的目标是如何让网页抓取进行得更效率些。在进行抓取的时候,时间的消耗主要是在请求等待的时间上,所以一个最容易想到的优化方式就是使用多线

    [阅读更多...]
  • Python网络爬虫3 – 使用BeautifulSoup解析网页

    在第一节演示过如何使用正则表达式截取网页内容。不过html是比正则表达式更高一级的语言,仅仅使用正则表达式来获取内容还是有些困难的。 这次会使用一个新的工具:python的BeautifulSoup库

    [阅读更多...]
  • Python网络爬虫2 – 请求中遇到的几个问题

    这次尝试下怎样搜索电影并解析出磁力链接信息。 搜索的网址是:https://www.torrentkitty.tv/search/。 开始了! 使用FireFox打开上面的网址,输入要搜索的电影。在点

    [阅读更多...]
  • Python网络爬虫1 – 简单的Http请求

    最近这段时间会有需要写一个网络爬虫。会在这里将实现网络爬虫的经验记录下来。 爬虫什么的,只是一个名字罢了。简单地说,也都是从http请求开始的。 Python实现http请求主要依赖的是urllib.

    [阅读更多...]
  • 使用PyMySQL

    适用环境 python版本 >=2.6或3.3,mysql版本>=4.1。 安装 可以使用pip安装也可以手动下载安装。 使用pip安装,在命令行执行如下命令: 如需要手动安装,请先下载,

    [阅读更多...]
第 1 页,共 1 页1