最简单的万能爬虫器

作者: 雨落文染丶 | 来源:发表于2018-09-20 09:58 被阅读4次

最简单的万能爬虫器
Golang实现简单爬虫框架（4）——队列实现并发任务调度
Python开发简单爬虫--学习笔记
2018-12-28
爬虫基础
Python爬虫学习--爬虫基本架构
最简单的爬虫
Python 爬虫学习笔记（一）
简单爬虫架构的实现
Python开发简单爬虫（慕课网学习资料总结）

最简单的万能爬虫器

项目介绍

爬取指定网站url所有图片以及描述信息
爬取指定网站中任何标签下的任意属性

效果展示

效果图嗯哼.jpg

1.获取所有图片以及描述信息

    ImageResult(name='142847_16a48_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/142847_16a48_236.jpg', desc='艺妓的诱惑 日系美女水嫩性感柔媚多情', extendOne='')
    ImageResult(name='146379_12c46_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/146379_12c46_236.jpg', desc='美到喷血! 尤果女神韩安琪美艳性感尽显成熟女人味', extendOne='')
    ImageResult(name='144268_27c28_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/144268_27c28_236.jpg', desc='妩媚小女人张馨彤为诱惑而生 水湿白衬衫酥胸诱人', extendOne='')
    ImageResult(name='137510_05b45_236.jpg', url='http://i.meizitu.net/thumbs/2018/06/137510_05b45_236.jpg', desc='尤果女神李莉莉高清写真 雪白酥胸诱惑满满', extendOne='')
    ImageResult(name='147468_20f29_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/147468_20f29_236.jpg', desc='气质满分！美女尤物美人骆雪淇白嫩美腿妩媚动人', extendOne='')
    ImageResult(name='150001_07b63_236.jpg', url='http://i.meizitu.net/thumbs/2018/09/150001_07b63_236.jpg', desc='微胖小姐姐白晓白 轻熟的气质让你欲罢不能', extendOne='')
    ImageResult(name='140752_29b05_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/140752_29b05_236.jpg', desc='尤果美女轮番上阵诱惑升级 清凉陪你度过甜蜜盛夏', extendOne='')
    ImageResult(name='147534_20e07_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/147534_20e07_236.jpg', desc='还是熟妇最有味道 成熟端庄万种风情', extendOne='')

2.获取指定标签（img）下面指定属性（"data-original", "alt"）

    [http://i.meizitu.net/thumbs/2018/08/148211_26b29_236.jpg, 尤果女神方子萱奶大腿长屁股翘，动作挑逗引人遐想]
    [http://i.meizitu.net/thumbs/2018/06/140460_28c43_236.jpg, 妩媚轻熟女极品美臀大胆露出 惹火身材完美勾魂]
    [http://i.meizitu.net/thumbs/2018/06/138976_16y03_236.jpg, 气质小姐姐清爽优雅魅力难挡 性感妩媚尽显轻熟女范]
    [http://i.meizitu.net/thumbs/2018/06/140116_25c19_236.jpg, 御姐气息十足，尤果模特莫妮卡尽显精致小女人气质]
    [http://i.meizitu.net/thumbs/2018/08/145201_02a09_236.jpg, 妖艳御姐萌汉药萌汉药baby撩衣露乳激情销魂]

最简单使用方式

1. Add it in your root build.gradle at the end of repositories:

allprojects {
        repositories {
            ...
            maven { url 'https://jitpack.io' }
        }
    }

2. Add the dependency

dependencies {
            implementation 'com.github.pengMaster:SpiderTool:1.0.0'
    }

3. Add use to activity


         案例： 获取妹子图网站所有图片
           //妹子图网站Url
           val url = "http://www.mzitu.com/tag/ugirls/"
           //kotlin 获取该网站所有图片以及描述信息
           SpiderUtil.getImageByUrl(url, object : ImageResultListener {
                override fun result(imageList: HashSet<ImageResult>) {
                    mTvContent.text = imageList.toString()
                    imageList.forEach {
                        Log.e("getImageByUrl", it.toString())
                    }

                }
            })

           //java 版
            SpiderUtil.Companion.getImageByUrl(url, new ImageResultListener() {
                @Override
                public void result(@NotNull HashSet<ImageResult> imageList) {

                }
            });

          案例： 获取妹子图网站所有img标签下"data-original", "alt"
            //标签
            val tag = "img"
            //要获取属性集合
            val attributeList = listOf<String>("data-original", "alt")
            SpiderUtil.getAttributeByTag(url, tag, attributeList, object : ResultListener {
                override fun result(list: HashSet<ArrayList<String>>) {
                    mTvContent.text = list.toString()
                    list.forEach {
                        Log.e("getAttributeByTag", it.toString())
                    }
                }
            })

4. add permission to your menifest

    <!--联网-->
    <uses-permission android:name="android.permission.INTERNET" />

注意

1.比如妹子图网站获取的图片url如果进行展示或者下载，需要进行防盗链处理操作
2.获取指定标签下的指定属性
例如："<img width='236' height='354' class='lazy' alt='清纯中带着性感 尤果网女神美替极品身材一览无遗' src='http://i.meizitu.net/pfiles/img/lazy.png' data-original='http://i.meizitu.net/thumbs/2018/09/150833_14c39_236.jpg' />"

获取img标签下  alt  src 属性
tag = img
list = ("alt",  "src")

参与贡献

Fork 本项目
新建 Feat_xxx 分支
提交代码
新建 Pull Request

github地址

项目地址：https://github.com/pengMaster/SpiderTool

最简单的万能爬虫器
最简单的万能爬虫器项目介绍爬取指定网站url所有图片以及描述信息爬取指定网站中任何标签下的任意属性效果展示...
Golang实现简单爬虫框架（4）——队列实现并发任务调度
前言在上一篇文章《Golang实现简单爬虫框架（3）——简单并发版》中我们实现了一个最简单并发爬虫，调度器为每一...
Python开发简单爬虫--学习笔记
一、概述目标掌握开发轻量级爬虫内容爬虫简介简单爬虫架构URL管理器网页下载器(urllib2)网页解析器(B...
2018-12-28
简单爬虫项目（一）简单爬虫的基础模块 url下载器 url管理器网页解析器网页解析方式有很多种，可自行百度，...
爬虫基础
在编写一个爬虫之前，来学习下爬虫的基础知识: 爬虫：简单的可以理解为模拟浏览器向服务器发送HTTP请求，服务器接收...
Python爬虫学习--爬虫基本架构
一个简单的爬虫架构由爬虫调度端、URL管理器、网页下载器和网页解析器四部分构成。它们之间的关系如下图： ● 爬虫调...
最简单的爬虫
抓取网址bt蚂蚁搜一个烂片试试,比如长城http://www.btans.com/search/%E9%95%BF...
Python 爬虫学习笔记（一）
视频教程：慕课网 Python开发简单爬虫 1.简单爬虫架构 2.爬虫架构的运行流程 3.URL管理器 4.UR...
简单爬虫架构的实现
在我的上一篇文章里简单介绍了一下最简单的爬虫架构：《浅谈简单爬虫架构》如下图所示简单爬虫架构框架 mySpide...
Python开发简单爬虫（慕课网学习资料总结）
本文是在慕课网学习Python简单爬虫后做以总结。视频地址一、简单爬虫架构运行流程 1、调度器询问URL管...

网友评论