白42 | 四维致一

Python网络爬虫6 – 网页编码

2016年8月21日作者：白42

暂无评论

在抓取网页时遇到了一段报错信息：抓取网页的代码及网址如下：在错误信息中提示了网页的编码不是utf-8。那么如何确认网页的编码形式呢？有如下几种方式：从网页源码中查找chaset信息；使用FireBug。重新打开网页，使用FireBu

[阅读更多...]

Python网络爬虫5 – 图片抓取

2016年8月21日作者：白42

暂无评论

这一节看下如何抓取网页中的图片。目标网址是：http://pp.163.com/longer-yowoo/pp/10069141.html。这里有一组我非常喜欢的图片。要抓取网页首先就要找出图片的网址。这里仍然是使用BeautifulSo

[阅读更多...]

Python网络爬虫4 – 多线程抓取

2016年8月13日作者：白42

1评论

之前的内容已经大致实现了如何获取网页、分析网页、获取目标内容。接下来的目标是如何让网页抓取进行得更效率些。在进行抓取的时候，时间的消耗主要是在请求等待的时间上，所以一个最容易想到的优化方式就是使用多线程。多线程多线程的实现还是比较简单的

[阅读更多...]

lambda表达式3 – 方法引用

2016年8月9日作者：白42

暂无评论

一个实例使用lambda表达式可以创建简洁的匿名方法。不过，有时候lambda表达式只是简单的调用了已有的方法。此时，使用方法引用无疑是一个更简洁易读的方案。再来看看之前使用过的Person类：假设所有的Person对象都保存在一个数

[阅读更多...]

intellij idea git ignore

2016年8月6日作者：白42

暂无评论

使用intellij idea时想将一个文件或目录排除在版本控制外，却找不到add to ignore选项。在使用git时，可以直接编辑.ignore文件，但是还是觉得有些不方便。所以安装一个插件好了：settings –> plug

[阅读更多...]

关于https的一个错误

2016年8月6日作者：白42

暂无评论

前两天我维护的服务出了一个问题，在请求一个连接时发生了Exception：异常大致说的是在进行https请求时，验证证书出了问题。服务基于JDK1.6，使用httpclient（版本是4.5.1）发送请求，调用的URL是https://

[阅读更多...]

Python网络爬虫3 – 使用BeautifulSoup解析网页

2016年8月4日作者：白42

暂无评论

在第一节演示过如何使用正则表达式截取网页内容。不过html是比正则表达式更高一级的语言，仅仅使用正则表达式来获取内容还是有些困难的。这次会使用一个新的工具：python的BeautifulSoup库，BeautifulSoup是用来从HT

[阅读更多...]

intellij idea查看scala sdk的源代码

2016年7月31日作者：白42

暂无评论

下载源代码点击这个链接：http://www.scala-lang.org/download/all.html；选择需要的版本点击打开；在新打开的网页下方找到源代码下载项：在intellij idea设置指向源代码在intelli

[阅读更多...]

Python网络爬虫2 – 请求中遇到的几个问题

2016年7月30日作者：白42

暂无评论

这次尝试下怎样搜索电影并解析出磁力链接信息。搜索的网址是：https://www.torrentkitty.tv/search/。开始了！使用FireFox打开上面的网址，输入要搜索的电影。在点击搜索按钮前记得打开FireBug，并激

[阅读更多...]

Python网络爬虫1 – 简单的Http请求

2016年7月27日作者：白42

暂无评论

最近这段时间会有需要写一个网络爬虫。会在这里将实现网络爬虫的经验记录下来。爬虫什么的，只是一个名字罢了。简单地说，也都是从http请求开始的。 Python实现http请求主要依赖的是urllib.request模块。例如发送http g

[阅读更多...]

Python网络爬虫6 – 网页编码

Python网络爬虫5 – 图片抓取

Python网络爬虫4 – 多线程抓取

lambda表达式3 – 方法引用

intellij idea git ignore

关于https的一个错误

Python网络爬虫3 – 使用BeautifulSoup解析网页

intellij idea查看scala sdk的源代码

Python网络爬虫2 – 请求中遇到的几个问题

Python网络爬虫1 – 简单的Http请求

我的专题

友情链接

其他操作

我的专题

友情链接

其他操作

标签云