美文网首页程序员Android技术栈公众号【麦小丁】征集优质文章
建站四部曲之Python爬虫+数据准备篇(selenium)

建站四部曲之Python爬虫+数据准备篇(selenium)

作者: e4e52c116681 | 来源:发表于2018-12-12 10:19 被阅读2次
    本系列分为四篇:

    零、前言

    本系列为了总结一下手上的知识,致敬我的2018
    本篇的重点在于:使用python爬取数据写入文件,使用okhttp3访问后台接口插入数据
    本篇总结的技术点:Python数据抓取okhttp3访问api接口插入数据库java文件的简单操作
    Python是我在学完JavaScript的ES6之后学的,三个字---这么像
    于是乎,花了三天看看语法、算算向量、做做爬虫、数数花生后也就没在深究了


    一、简书网页分析:

    1.问题所在
    简书.png
    默认加载9个条目,滚到底再加载9个条目
    现在问题在于:直接用链接请求,只能加载9条,怎么能让它自己滚动  
    是问题肯定有解决方案,百度下呗,满目的selenium,好吧,就决定是你了
    

    2.网页标签分析:

    需要的数据在note-list的ul中,其中一个li如下:
    需要的数据有:content的div下的a标签:href和内容
    abstract的p的内容,time的span下的:data-shared-at

    <li id="note-38135290" data-note-id="38135290" class="have-img">
        <a class="wrap-img" href="/p/0baa4b4b81f4" target="_blank">
          <img class="  img-blur-done" src="https://img.haomeiwen.com/i9414344/c7c823aafe6938de.png?imageMogr2/auto-orient/strip|imageView2/1/w/300/h/240" alt="120">
        </a>
      <div class="content">
        <a class="title" target="_blank" href="/p/0baa4b4b81f4">建站三部曲之后端接口篇(SpringBoot+上线)</a>
        <p class="abstract">
          本系列分为三篇: 建站三部曲之后端接口篇(SpringBoot+上线) 建站三部曲之前端显示篇(React+上线) 建站三部曲之移动端篇(And...
        </p>
        <div class="meta">
          <a target="_blank" href="/p/0baa4b4b81f4">
            <i class="iconfont ic-list-read"></i> 3
    </a>        <a target="_blank" href="/p/0baa4b4b81f4#comments">
              <i class="iconfont ic-list-comments"></i> 0
    </a>      <span><i class="iconfont ic-list-like"></i> 0</span>
          <span class="time" data-shared-at="2018-12-11T13:16:57+08:00">43分钟前</span>
    

    二、二十分钟入手selenium

    1.添加依赖:
    pip install selenium
    

    2.下载浏览器插件(我是用Chrome,下载地址:)

    注意对应版本下载

    下载插件.png
    3.使用:
    from selenium import webdriver #导包
    
    driver = webdriver.Chrome("I:\Python\chromedriver.exe")#创建driver,参数为插件的路径
    driver.get("https://www.jianshu.com/u/e4e52c116681")#打开网页
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')#下滑
    
    使用.png
    4.间隔时间任务:

    问题又来了,貌似只能执行一次,那就用轮训任务吧

    TimeTask.py
    from datetime import datetime, timedelta
    
    class TimeTask:
        def __init__(self):
            self.count = 0  # 成员变量(实例变量)
    
        def runTask(self, func, day=0, hour=0, min=0, second=1, count=20):
            now = datetime.now()
            period = timedelta(days=day, hours=hour, minutes=min, seconds=second)
            next_time = now + period
            strnext_time = next_time.strftime('%Y-%m-%d %H:%M:%S')
            while self.count < count:
                # Get system current time
                iter_now = datetime.now()
                iter_now_time = iter_now.strftime('%Y-%m-%d %H:%M:%S')
                if str(iter_now_time) == str(strnext_time):
                    func()
                    self.count += 1
                    iter_time = iter_now + period
                    strnext_time = iter_time.strftime('%Y-%m-%d %H:%M:%S')
                    continue
    
    getHtml.py
    from selenium import webdriver
    from utils.TimeTask import TimeTask
    
    def fetch():
        driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    
    if __name__ == '__main__':
        driver = webdriver.Chrome("I:\Python\chromedriver.exe")
        driver.get("https://www.jianshu.com/u/e4e52c116681")
        timeTask = TimeTask()
        timeTask.runTask(fetch, 0, 0, 0, 1, 5)
    
    滚动五次.gif

    三、获取需要的数据:

    1.获取名称

    selenium的强大之处在于可以查询dom结构,哈哈,css没白学
    需要的数据都在content类下,选择器为:.note-list li .content
    使用find_elements_by_css_selector可以使用css选择器获取一个list

    content = driver.find_elements_by_css_selector('.note-list li .content')
    
    #遍历content就行了
    for i in content:
        a = i.find_element_by_css_selector(' a.title') #获取a标签
        print(a.text) #打印
    

    白花花的数据就到手里


    获取数据.png

    2.接下来一样的思路
    for i in content:
        a = i.find_element_by_css_selector(' a.title')
        info = i.find_element_by_css_selector(' p.abstract')
        time = i.find_element_by_css_selector('span.time')
        href = a.get_attribute('href')
        print(a.text)
        print(href)
        print(info.text)
        print(time.get_attribute("data-shared-at"))
    
    数据.png
    3.将字符串写入文件中

    将数据稍微装饰一下,以&&&分割每个条目,以```分割每个字段

    str = ''
    for i in content:
        a = i.find_element_by_css_selector(' a.title')
        info = i.find_element_by_css_selector(' p.abstract')
        time = i.find_element_by_css_selector('span.time')
        href = a.get_attribute('href')
        str += a.text + "```"
        str += href + "```"
        str += info.text + "```"
        str += time.get_attribute("data-shared-at").split('T')[0] + "```"
        str += "&&&"
    print(str)
    name = 'I:\\Python\\android_data_fetcher\\data\\data.txt'
    dirs = os.path.split(name)[0]
    is_exist = os.path.exists(dirs)
    if not is_exist:
        os.makedirs(dirs)
    f = open(name, "w")
    f.write(str)  # 存储到文件中
    f.close()
    
    读取文件,分割字段
    3.添加okhttp依赖
     <!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
     <dependency>
         <groupId>com.squareup.okhttp3</groupId>
         <artifactId>okhttp</artifactId>
         <version>3.12.0</version>
     </dependency>
    

    4.post请求插入数据的方法
    private static void doPost(String url, String name, String info, String jianshuUrl, String createTime) {
        //1.HttpClient对象
        OkHttpClient okHttpClient = new OkHttpClient();
        //2.构造RequestBody
        FormBody body = new FormBody.Builder()
                .add("type", "C")
                .add("name", name)
                .add("localPath", "null")
                .add("jianshuUrl", jianshuUrl)
                .add("juejinUrl", "null")
                .add("info", info)
                .add("imgUrl", name + ".png")
                .add("createTime", createTime)
                .build();
        Request request = new Request.Builder().url(url).post(body).build();
        //3.将Request封装为Call对象
        Call call = okHttpClient.newCall(request);
        //4.执行Call
        call.enqueue(new Callback() {
            public void onFailure(Call call, IOException e) {
            }
            public void onResponse(Call call, Response response) throws IOException {
                System.out.println(response.body().string());
            }
        });
    }
    

    5.遍历字段时进行插入数据:请求接口见上篇
    public static void main(String[] args) {
        String url = "http://192.168.43.60:8089/api/android/note";
        String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
        String[] split = result.split("&&&");
        for (String s : split) {
            String[] item = s.split("```");
            String name = item[0];
            String jianshuUrl = item[1];
            String info = item[2];
            String time = item[3];
            System.out.println(name+"  "+jianshuUrl);
            try {
                Thread.sleep(10);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            doPost(url,name,info,jianshuUrl,time);
        }
    }
    
    重命名完成.png

    4.小问题:

    发现有些名字不能做文件名,好吧,考虑步骤,MD5处理一下

    image
    //插入数据库时: 
    .add("imgUrl", Md5Util.getMD5(name) + ".png")
    
    //重命名时:
    file.renameTo(new File(file.getParent(), Md5Util.getMD5(names.get(i)) + ".png"));
    
    public class Md5Util {
        /**
         * 获取一个字符串的Md5值
         *
         * @param content 内容
         * @return Md5值
         */
        public static String getMD5(String content) {
            content = content + "芝麻开门";
            try {
                MessageDigest digest = MessageDigest.getInstance("MD5");
                digest.update(content.getBytes());
                return getHashString(digest);
            } catch (NoSuchAlgorithmException e) {
                e.printStackTrace();
            }
            return null;
        }
    
        private static String getHashString(MessageDigest digest) {
            StringBuilder builder = new StringBuilder();
            for (byte b : digest.digest()) {
                builder.append(Integer.toHexString((b >> 4) & 0xf));
                builder.append(Integer.toHexString(b & 0xf));
            }
            return builder.toString();
        }
    }
    
    
    图片访问.png

    ok,数据和图片准备齐全,下一站React前端


    后记:捷文规范

    1.本文成长记录及勘误表
    项目源码 日期 备注
    V0.1 2018-12-12 建站四部曲之Python爬虫+数据准备篇(selenium)
    2.更多关于我
    笔名 QQ 微信 爱好
    张风捷特烈 1981462002 zdl1994328 语言
    我的github 我的简书 我的掘金 个人网站
    3.声明

    1----本文由张风捷特烈原创,转载请注明
    2----欢迎广大编程爱好者共同交流
    3----个人能力有限,如有不正之处欢迎大家批评指证,必定虚心改正
    4----看到这里,我在此感谢你的喜欢与支持


    icon_wx_200.png

    相关文章

      网友评论

        本文标题:建站四部曲之Python爬虫+数据准备篇(selenium)

        本文链接:https://www.haomeiwen.com/subject/mbkuhqtx.html