webmagic
-
webmagic案例:下载结果到本地磁盘
需求:获取某IT培训班Python学习资源。代码:开启多线程,设置超时重连,获取到详情页后添加到待爬取容器。package com.jiagou1216.crawl
爬虫 webmagic -
webmagic使用css选择器案例
//获取h2标签内容page.putField("title1", page.getHtml().css("div.main h2").all());//获取h2标签的文本内容page.putField("ti
爬虫 webmagic CSS选择器 -
webmagic无法抓取只支持TLS1.2的https站点(protocol_version)
WebMagic默认的HttpClient只会用TLSv1去请求,对于某些只支持TLS1.2的站点(例如 https://juejin.im/) ,就会报错:javax.net.ssl.SSLExce
爬虫 webmagic -
Java爬虫第20课:代理的使用,分享两个提供免费代理的网站
代理的使用有些网站不允许爬虫进行数据爬取,因为会加大服务器的压力。其中一种最有效的方式是通过ip+时间进行鉴别,因为正常人不可
爬虫 webmagic -
Java爬虫第19课:如何将GitHub上的SimHash源码导入其他项目中使用
需求背景SimHash算法个人实现比较麻烦,网上有大佬已经实现了,我们拿来用就可以了。源码仓库:https://github.com/CreekLou/simhash.g
爬虫 webmagic SimHash -
Java爬虫第18课:网页(文本)去重之SimHash算法使用
导入simhash工程参考项目:https://github.com/CreekLou/simhash.git这个项目不能直接使用,因为jar包的问题,需要进行改造。导入工程s
爬虫 webmagic SimHash -
Java爬虫第17课:网页(文本)去重之SimHash算法
流程介绍simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步:1、分词,把需要判断文本分词形成这个文
爬虫 webmagic SimHash -
Java爬虫第16课:网页去重方案
网页去重之前我们对下载的url地址进行了去重操作,避免同样的url下载多次。其实不光url需要去重,我们对下载的内容也需要去重。在网
爬虫 webmagic -
Java爬虫第15课:爬虫结合Spring Task定时任务
定时任务在案例中我们使用的是Spring内置的Spring Task,这是Spring3.0加入的定时任务功能。我们使用注解的方式定时启动爬虫进行数
爬虫 webmagic spring task -
Java爬虫第14课:webmagic自定义Pipeline
使用和定制Pipeline在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通
爬虫 webmagic -
Java爬虫第13课:如何实现布隆过滤器?
以下是一个布隆过滤器的实现,可以参考://布隆过滤器public class BloomFilter { /* BitSet初始分配2^24个bit */ private stati
爬虫 webmagic -
Java爬虫第12课:三种常用去重方法(HashSet、Redis和布隆过滤器)
三种去重方式去重就有三种实现方式,那有什么不同呢?HashSet使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。缺
爬虫 webmagic -
Java爬虫第11课:webmagic中URL保存与去重
在解析页面的时候,很可能会解析出相同的url地址(例如商品标题和商品图片超链接,而且url一样),如果不进行处理,同样的url会解析处理多
爬虫 webmagic -
Java爬虫第10课:webmagic爬虫配置、启动和终止
爬虫的配置、启动和终止SpiderSpider是爬虫启动的入口。在启动爬虫之前,我们需要使用一个PageProcessor创建一个Spider对象,然后使
爬虫 webmagic -
Java爬虫第9课:webmagic保存结果之Pipeline
使用Pipeline保存结果WebMagic用于保存结果的组件叫做Pipeline。我们现在通过“控制台输出结果”这件事也是通过一个内置的Pipeli
爬虫 webmagic -
Java爬虫第8课:webmagic抽取元素的三种方式
3.1.实现PageProcessor3.1.1.抽取元素SelectableWebMagic里主要使用了三种抽取技术:XPath、正则表达式和CSS选择器。另外,对于JSON
爬虫 webmagic -
Java爬虫第7课:webmagic入门案例
加入依赖创建Maven工程,并加入以下依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0
爬虫 webmagic -
Java爬虫第6课:webmagic介绍
今天我们要学习一款爬虫框架的使用就是WebMagic。其底层用的技术也是HttpClient和Jsoup,让我们能够更方便的开发爬虫。WebMagic项
爬虫 webmagic