Skip to main content

官网:https://pypi.org/project/xlwt/

安装:

写入示例:

官方示例:

阅读全文


官网:https://pypi.python.org/pypi/xlrd

安装:

读取示例

xlrd只能读,不能写,写需要类库:xlwt。

 


这一次抓取的站点稍微麻烦一点,每篇url没什么规律,图片加了防盗链。

先解决每篇地址的问题,查看了一下,每页的地址还是有规律的,那么就循环每页,然后从页面里面抓取每篇的地址,写入一个文本里。

save_page_url.py

阅读全文


pyquery允许你用类似jQuery的语法来操作HTML内容,它的API与jQuery很相似。下面是一些相关的资料和示例。

官网:https://pypi.python.org/pypi/pyquery

文档:http://pyquery.readthedocs.io/en/latest/

GitHub项目主页:https://github.com/gawel/pyquery

GitHub克隆地址:https://github.com/gawel/pyquery.git

GitHub下载地址:https://github.com/gawel/pyquery/archive/master.zip

阅读全文


Python 分析网页,抓取图片保存到本地。这是我第一次用Python写爬虫,或者说第一次用Python,代码写的很挫,不忍直视。

无意中发现一个图片站,没什么保护,并且结构简单。就拿来练练手。目标站点特别简单,甚至比我的站还简单。

每篇文章的路径类似:http://www.xxxx.com/banner/{n},没啥好说的,直接循环就可以爬到所有页面。

文章里没有正文,直接就是标题+图,底部有加载全部的按钮,js动态加载的,不能从html源码中得所有图片的地址,但是它的图片地址是:http://www.xxxx.com/img/2017/{n}.jpg,也可以通过循环来获取单篇里所有图片的地址的,每篇30-40张,数量不固定,可以通过判断状态来结束循环,遇到404,直接break。

网页抓取和解析用的类库分别是:requests,pyquery,下面直接看代码吧(为了避免目标站点被爬死,代码里把域名部分***了):

阅读全文