Java数据采集-1.准备工作

Java数据采集-1.准备工作

作者: 韩云飞 | 来源:发表于2017-07-21 21:39 被阅读0次

Java数据采集-1.准备工作
携程的数据采集系统架构
Java+web+jmeter接口监控平台开发以及搭建（二）
前嗅ForeSpider数据建表和高级配置界面介绍
(十)大数据学习之sqoop
数据采集
项目配置与单元测试
瑞雪采集云互联网大数据采集SaaS开放平台
3.阿里大数据——数据同步
android rtmp推流直播学习（二）----视频软编码x2

前言：自从2014年4月大一开始接触Java，7月开始接触网络爬虫至今已经两年的时间，共抓取非同类型网站150余个，其中包括一些超大型网站，比如百度文库，亚马逊，魔方格，学科网等。也在学长五年经验留下来的代码的基础上，整合成一个小型的爬虫框架，主要用于抓取期刊之类的数据型网站，包括元数据抓取和文件下载。在此感谢曾经给我指导方向，帮助我学习的学长们。

关于本系列博文：主要基于Java语言，使用Jsoup解析网页源码，HttpClient模拟请求，MySql数据持久化存储等，包括模拟登陆，数据抓取，代理IP，验证码识别等。

本系列文章原本在CSDN更新（Geekfly的专栏），时隔一年，在此重新拾起来了，打算继续更新，并迁移到简书，后续有将此项目开源的准备。

样例源码：https://github.com/geekfly2016/Spider

学习前的准备工作：

1.关于Java基础

此文档主要以Jsoup解析 + mysql数据库存储讲解数据抓取，需要具备一定的Java基础和数据库基础。

由于在实际抓取中经常使用到Java中对String的操作，如indexOf,subString,split,replace等，请重点回顾相关用法及有可能抛出的异常。

对于一些复杂的网站只靠Jsoup解析+String操作远远不够，有时候也需要使用正则表达式，也需要适当了解。

2.关于开发必备软件

开发工具使用Eclipse系列，注意修改工作空间编码为UTF-8。

下载地址：

http://www.eclipse.org/downloads/packages/eclipse-ide-java-ee-developers/mars1

浏览器使用火狐或者谷歌，请自行选择。

火狐浏览器下载地址：

http://download.firefox.com.cn/releases/stub/official/zh-CN/Firefox-latest.exe

谷歌浏览器下载地址：

http://w.x.baidu.com/alading/anquan_soft_down_ub/14744

3.关于Jsoup

解析网页源码使用的是Jsoup，使用前请先查看一下文档学习。

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

-- 百度百科

教程网址：http://www.open-open.com/jsoup/（重点）

Jsoup解析网页源码时常用的Element(s)类：http://blog.csdn.net/TMaskBoy/article/details/49076727

4. 关于HttpClient

HttpClient在发送Url请求方面，比Java自带的UrlConnect强大了很多，能实现普通的Get和Post请求，实现Https请求等。另外在文件流下载和代理IP等方面，都比较简单。

相关文章

Java数据采集-1.准备工作
前言：自从2014年4月大一开始接触Java，7月开始接触网络爬虫至今已经两年的时间，共抓取非同类型网站150余个...
携程的数据采集系统架构
实时数据采集系统原文链接 1. 典型的数据采集分析系统数据采集数据传输数据清洗/建模/存储数据统计/分析/挖掘...
Java+web+jmeter接口监控平台开发以及搭建（二）
三、准备工作1.框架：java serverlet2.数据库设计说明：bzname表示业务线名称frequenc...
前嗅ForeSpider数据建表和高级配置界面介绍
一、数据建表 1.采集表单数据采集之后需要存入数据库，在ForeSpider中创建的表单，就是数据采集入库的表结...
(十)大数据学习之sqoop
Sqoop 1.架构： (1)flume数据采集采集日志数据(2)sqoop数据迁移 hdfs->mysql(3...
数据采集
数据采集概述： 1.采集目的：获取数据，用户后续的建设，建立数据仓库提供统一的数据分析准备。 2.采集的数据源：...
项目配置与单元测试
准备工作主配置数据连接：DataSourceConfiguration.java SessionFactory...
瑞雪采集云互联网大数据采集SaaS开放平台
瑞雪采集云是瑞雪科技自主研发的互联网大数据采集平台，历时三年，是业内首个基于Java语言的互联网数据采集SaaS在...
3.阿里大数据——数据同步
数据采集：日志采集数据同步一、数据同步数据从业务系统同步进入数据仓库 1.源数据类型关系数据库的结构化数...
android rtmp推流直播学习（二）----视频软编码x2
上篇文章我们已经采集到了视频源数据,这篇文章将介绍对视屏源数据的编码准备工作：1.x264开源库:http://...

网友评论

Java数据采集

本文标题：Java数据采集-1.准备工作

本文链接：https://www.haomeiwen.com/subject/uvqykxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Java数据采集

热点阅读

Java数据采集

Java数据采集-1.准备工作

关于我们|服务条款|联系我们|Java数据采集-1.准备工作|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！