Skip to main content

这一次抓取的站点稍微麻烦一点,每篇url没什么规律,图片加了防盗链。

先解决每篇地址的问题,查看了一下,每页的地址还是有规律的,那么就循环每页,然后从页面里面抓取每篇的地址,写入一个文本里。

save_page_url.py

阅读全文


pyquery允许你用类似jQuery的语法来操作HTML内容,它的API与jQuery很相似。下面是一些相关的资料和示例。

官网:https://pypi.python.org/pypi/pyquery

文档:http://pyquery.readthedocs.io/en/latest/

GitHub项目主页:https://github.com/gawel/pyquery

GitHub克隆地址:https://github.com/gawel/pyquery.git

GitHub下载地址:https://github.com/gawel/pyquery/archive/master.zip

阅读全文


Python 分析网页,抓取图片保存到本地。这是我第一次用Python写爬虫,或者说第一次用Python,代码写的很挫,不忍直视。

无意中发现一个图片站,没什么保护,并且结构简单。就拿来练练手。目标站点特别简单,甚至比我的站还简单。

每篇文章的路径类似:http://www.xxxx.com/banner/{n},没啥好说的,直接循环就可以爬到所有页面。

文章里没有正文,直接就是标题+图,底部有加载全部的按钮,js动态加载的,不能从html源码中得所有图片的地址,但是它的图片地址是:http://www.xxxx.com/img/2017/{n}.jpg,也可以通过循环来获取单篇里所有图片的地址的,每篇30-40张,数量不固定,可以通过判断状态来结束循环,遇到404,直接break。

网页抓取和解析用的类库分别是:requests,pyquery,下面直接看代码吧(为了避免目标站点被爬死,代码里把域名部分***了):

阅读全文


在开发的项目中,有工作流审批功能,有些岗位的人员并不是一直在办公室的,这就需要在手机端审批。手机端是在企业号中的应用实现的,登录时需要获取企业员工的手机号,具体代码如下:

阅读全文


利用Spring MVC 的 Interceptor 实现个简易的性能监控,计算一下每个url的执行时间。

在 preHandle 方法中记录当前的时间戳到线程局部变量里,然后在afterCompletion方法中,用当前的时间戳剪掉线程局部变量里的时间戳得出个运行时间,并记录到log里。

这只是个简易的性能监控,如果想长期正式的监控性能,请选择其它成熟的产品。

Interceptor

阅读全文


昨天写 JPA的查询方式,里面关于QueryDSL的部分没有写,当时因为一直报错,现在错误解决了,补上 Spring Data JPA 通过 Query DSL 查询的实现。

另2篇:

Spring Data JPA 的查询方式
You need to run build with JDK or have tools.jar on the classpath

阅读全文


在配置QueryDSL的时候报的这个错误,在 stackoverflow.com 上找到了2个questions,按里面给出的答案修改后可用。

https://stackoverflow.com/questions/27619304/you-need-to-run-build-with-jdk-or-have-tools-jar-on-the-classpath

https://stackoverflow.com/questions/24482259/eclipse-issue-with-maven-build-and-jdk-when-generating-qclasses-in-querydsl

报错信息: 阅读全文


在用JPA的时候,如果每个实体都有一些共通的属性,例如创建时间,最后修改时间,那可以把这些属性放到一个公共实体里,用 @MappedSuperclass 标记,然后其它实体继承这个类即可。这个是简单的方式,下面说一下真正的实体继承。

先说一个场景,开发一个产品实体,过几天产品狗告诉你,有个特殊的产品钢笔,这里有2个特殊的属性,品牌和钢笔的粗细,在你还没发火之前,又告诉你还有另外一个特殊的产品订书器,它有长和宽。

按照面向对象的思维,你需要创建另外2个实体然后继承之前的实体来实现。代码如下:

阅读全文