爬虫
-
webmagic案例:下载结果到本地磁盘
需求:获取某IT培训班Python学习资源。代码:开启多线程,设置超时重连,获取到详情页后添加到待爬取容器。package com.jiagou1216.crawl
爬虫 webmagic -
webmagic使用css选择器案例
//获取h2标签内容page.putField("title1", page.getHtml().css("div.main h2").all());//获取h2标签的文本内容page.putField("ti
爬虫 webmagic CSS选择器 -
webmagic无法抓取只支持TLS1.2的https站点(protocol_version)
WebMagic默认的HttpClient只会用TLSv1去请求,对于某些只支持TLS1.2的站点(例如 https://juejin.im/) ,就会报错:javax.net.ssl.SSLExce
爬虫 webmagic -
爬虫工具xpath helper浏览器插件
xpath helper下载地址:https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl?utm_source=c
爬虫 xpath -
【网络爬虫】黑马程序员3天搞定java爬虫
网络爬虫 第1天1.能够完成爬虫入门程序2.能够说出爬虫解决的问题3.能够使用HttpClient的Get请求4.能够使用HttpClient的Post请求5
网络爬虫 -
Java爬虫第20课:代理的使用,分享两个提供免费代理的网站
代理的使用有些网站不允许爬虫进行数据爬取,因为会加大服务器的压力。其中一种最有效的方式是通过ip+时间进行鉴别,因为正常人不可
爬虫 webmagic -
Java爬虫第19课:如何将GitHub上的SimHash源码导入其他项目中使用
需求背景SimHash算法个人实现比较麻烦,网上有大佬已经实现了,我们拿来用就可以了。源码仓库:https://github.com/CreekLou/simhash.g
爬虫 webmagic SimHash -
Java爬虫第18课:网页(文本)去重之SimHash算法使用
导入simhash工程参考项目:https://github.com/CreekLou/simhash.git这个项目不能直接使用,因为jar包的问题,需要进行改造。导入工程s
爬虫 webmagic SimHash -
Java爬虫第17课:网页(文本)去重之SimHash算法
流程介绍simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步:1、分词,把需要判断文本分词形成这个文
爬虫 webmagic SimHash -
Java爬虫第16课:网页去重方案
网页去重之前我们对下载的url地址进行了去重操作,避免同样的url下载多次。其实不光url需要去重,我们对下载的内容也需要去重。在网
爬虫 webmagic -
Java爬虫第15课:爬虫结合Spring Task定时任务
定时任务在案例中我们使用的是Spring内置的Spring Task,这是Spring3.0加入的定时任务功能。我们使用注解的方式定时启动爬虫进行数
爬虫 webmagic spring task -
Java爬虫第14课:webmagic自定义Pipeline
使用和定制Pipeline在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通
爬虫 webmagic -
Java爬虫第13课:如何实现布隆过滤器?
以下是一个布隆过滤器的实现,可以参考://布隆过滤器public class BloomFilter { /* BitSet初始分配2^24个bit */ private stati
爬虫 webmagic -
Java爬虫第12课:三种常用去重方法(HashSet、Redis和布隆过滤器)
三种去重方式去重就有三种实现方式,那有什么不同呢?HashSet使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。缺
爬虫 webmagic -
Java爬虫第11课:webmagic中URL保存与去重
在解析页面的时候,很可能会解析出相同的url地址(例如商品标题和商品图片超链接,而且url一样),如果不进行处理,同样的url会解析处理多
爬虫 webmagic -
Java爬虫第10课:webmagic爬虫配置、启动和终止
爬虫的配置、启动和终止SpiderSpider是爬虫启动的入口。在启动爬虫之前,我们需要使用一个PageProcessor创建一个Spider对象,然后使
爬虫 webmagic -
Java爬虫第9课:webmagic保存结果之Pipeline
使用Pipeline保存结果WebMagic用于保存结果的组件叫做Pipeline。我们现在通过“控制台输出结果”这件事也是通过一个内置的Pipeli
爬虫 webmagic -
Java爬虫第8课:webmagic抽取元素的三种方式
3.1.实现PageProcessor3.1.1.抽取元素SelectableWebMagic里主要使用了三种抽取技术:XPath、正则表达式和CSS选择器。另外,对于JSON
爬虫 webmagic -
Java爬虫第7课:webmagic入门案例
加入依赖创建Maven工程,并加入以下依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0
爬虫 webmagic -
Java爬虫第6课:webmagic介绍
今天我们要学习一款爬虫框架的使用就是WebMagic。其底层用的技术也是HttpClient和Jsoup,让我们能够更方便的开发爬虫。WebMagic项
爬虫 webmagic -
Java爬虫第5课:jsonp解析示例
5.2.jsoup解析5.2.1.解析url引入jsonp依赖jar包,<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactI
爬虫 -
Java爬虫第4课:jsonp介绍
5.Jsoup我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很
爬虫 -
Java爬虫第3课:HTTP协议客户端HttpClient(连接池,连接时间等)
4.HttpClient网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在
爬虫 -
Java爬虫第2课:网络爬虫介绍
网络爬虫介绍在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成
爬虫 -
Java爬虫第1课:爬虫入门程序
1.课程计划1.入门程序2.网络爬虫介绍3.HttpClient抓取数据4.Jsoup解析数据5.爬虫案例2.网络爬虫网络爬虫(Web crawler),是一种按照一
爬虫