在抓取网页时遇到了一段报错信息:
1 2 3 4 5 6 |
Traceback (most recent call last): File "D:/pythonDevelop/spider/pic_grab.py", line 14, in &l |
预则立,不预则废
在抓取网页时遇到了一段报错信息:
1 2 3 4 5 6 |
Traceback (most recent call last): File "D:/pythonDevelop/spider/pic_grab.py", line 14, in &l |
这一节看下如何抓取网页中的图片。目标网址是:http://pp.163.com/longer-yowoo/pp/10069141.html。这里有一组我非常喜欢的图片。
要抓取网页首先就要找出图片的网址。这里仍然是使用BeautifulSou…
之前的内容已经大致实现了如何获取网页、分析网页、获取目标内容。接下来的目标是如何让网页抓取进行得更效率些。在进行抓取的时候,时间的消耗主要是在请求等待的时间上,所以一个最容易想到的优化方式就是使用多线程。
多线程的实现还是比较简单的,下…
使用lambda表达式可以创建简洁的匿名方法。不过,有时候lambda表达式只是简单的调用了已有的方法。此时,使用方法引用无疑是一个更简洁易读的方案。
再来看看之前使用过的Person类:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
使用intellij idea时想将一个文件或目录排除在版本控制外,却找不到add to ignore选项。在使用git时,可以直接编辑.ignore文件,但是还是觉得有些不方便。所以安装一个插件好了:settings –> plugins –&…
前两天我维护的服务出了一个问题,在请求一个连接时发生了Exception:
1 2 3 4 5 6 |
Exception in thread "main" javax.net.ssl.SSLPeerUnverifiedException: Host name 't |
在第一节演示过如何使用正则表达式截取网页内容。不过html是比正则表达式更高一级的语言,仅仅使用正则表达式来获取内容还是有些困难的。
这次会使用一个新的工具:python的BeautifulSoup库,BeautifulSoup是用来从HTM…