建站四部曲之Python爬虫+数据准备篇(selenium)

作者: e4e52c116681 | 来源:发表于2018-12-12 10:19 被阅读2次

建站四部曲之Python爬虫+数据准备篇(selenium)
建站四部曲之移动端篇（Android+上线）
建站四部曲之前端显示篇（React+上线）
Django 创建第一个项目
selenium绕过爬虫特征检测
QQ空间爬虫，打造历时说说词云图，python来唤醒你的记忆！
python爬虫之selenium,谷歌无头浏览器
selenium和pantomjs学习
Python网络数据采集之图像识别与文字处理
Python+PhantomJS+selenium+Beauti

本系列分为四篇：

建站四部曲之后端接口篇（SpringBoot+上线）
建站四部曲之Python数据爬虫篇(selenium)
建站四部曲之前端显示篇（React+上线）
建站四部曲之移动端篇（Android）

零、前言

本系列为了总结一下手上的知识，致敬我的2018
本篇的重点在于：使用python爬取数据写入文件,使用okhttp3访问后台接口插入数据
本篇总结的技术点：Python数据抓取、okhttp3访问api接口插入数据库、java文件的简单操作
Python是我在学完JavaScript的ES6之后学的,三个字---这么像
于是乎，花了三天看看语法、算算向量、做做爬虫、数数花生后也就没在深究了

一、简书网页分析：

1.问题所在

简书.png

默认加载9个条目，滚到底再加载9个条目
现在问题在于：直接用链接请求,只能加载9条，怎么能让它自己滚动  
是问题肯定有解决方案，百度下呗，满目的selenium,好吧，就决定是你了

2.网页标签分析：

需要的数据在note-list的ul中，其中一个li如下：
需要的数据有：content的div下的a标签：href和内容
abstract的p的内容，time的span下的：data-shared-at

<li id="note-38135290" data-note-id="38135290" class="have-img">
    <a class="wrap-img" href="/p/0baa4b4b81f4" target="_blank">
      <img class="  img-blur-done" src="https://img.haomeiwen.com/i9414344/c7c823aafe6938de.png?imageMogr2/auto-orient/strip|imageView2/1/w/300/h/240" alt="120">
    </a>
  <div class="content">
    <a class="title" target="_blank" href="/p/0baa4b4b81f4">建站三部曲之后端接口篇（SpringBoot+上线）</a>
    <p class="abstract">
      本系列分为三篇： 建站三部曲之后端接口篇（SpringBoot+上线） 建站三部曲之前端显示篇（React+上线） 建站三部曲之移动端篇（And...
    </p>
    <div class="meta">
      <a target="_blank" href="/p/0baa4b4b81f4">
        <i class="iconfont ic-list-read"></i> 3
</a>        <a target="_blank" href="/p/0baa4b4b81f4#comments">
          <i class="iconfont ic-list-comments"></i> 0
</a>      <span><i class="iconfont ic-list-like"></i> 0</span>
      <span class="time" data-shared-at="2018-12-11T13:16:57+08:00">43分钟前</span>

二、二十分钟入手selenium

1.添加依赖：

pip install selenium

2.下载浏览器插件(我是用Chrome,下载地址：)

注意对应版本下载

下载插件.png

3.使用：

from selenium import webdriver #导包

driver = webdriver.Chrome("I:\Python\chromedriver.exe")#创建driver,参数为插件的路径
driver.get("https://www.jianshu.com/u/e4e52c116681")#打开网页
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')#下滑

使用.png

4.间隔时间任务：

问题又来了，貌似只能执行一次,那就用轮训任务吧

TimeTask.py

from datetime import datetime, timedelta

class TimeTask:
    def __init__(self):
        self.count = 0  # 成员变量（实例变量）

    def runTask(self, func, day=0, hour=0, min=0, second=1, count=20):
        now = datetime.now()
        period = timedelta(days=day, hours=hour, minutes=min, seconds=second)
        next_time = now + period
        strnext_time = next_time.strftime('%Y-%m-%d %H:%M:%S')
        while self.count < count:
            # Get system current time
            iter_now = datetime.now()
            iter_now_time = iter_now.strftime('%Y-%m-%d %H:%M:%S')
            if str(iter_now_time) == str(strnext_time):
                func()
                self.count += 1
                iter_time = iter_now + period
                strnext_time = iter_time.strftime('%Y-%m-%d %H:%M:%S')
                continue

getHtml.py

from selenium import webdriver
from utils.TimeTask import TimeTask

def fetch():
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')

if __name__ == '__main__':
    driver = webdriver.Chrome("I:\Python\chromedriver.exe")
    driver.get("https://www.jianshu.com/u/e4e52c116681")
    timeTask = TimeTask()
    timeTask.runTask(fetch, 0, 0, 0, 1, 5)

滚动五次.gif

三、获取需要的数据：

1.获取名称

selenium的强大之处在于可以查询dom结构，哈哈，css没白学
需要的数据都在content类下,选择器为：.note-list li .content
使用find_elements_by_css_selector可以使用css选择器获取一个list

content = driver.find_elements_by_css_selector('.note-list li .content')

#遍历content就行了
for i in content:
    a = i.find_element_by_css_selector(' a.title') #获取a标签
    print(a.text) #打印

白花花的数据就到手里

获取数据.png

2.接下来一样的思路

for i in content:
    a = i.find_element_by_css_selector(' a.title')
    info = i.find_element_by_css_selector(' p.abstract')
    time = i.find_element_by_css_selector('span.time')
    href = a.get_attribute('href')
    print(a.text)
    print(href)
    print(info.text)
    print(time.get_attribute("data-shared-at"))

数据.png

3.将字符串写入文件中

将数据稍微装饰一下，以&&&分割每个条目，以```分割每个字段

str = ''
for i in content:
    a = i.find_element_by_css_selector(' a.title')
    info = i.find_element_by_css_selector(' p.abstract')
    time = i.find_element_by_css_selector('span.time')
    href = a.get_attribute('href')
    str += a.text + "```"
    str += href + "```"
    str += info.text + "```"
    str += time.get_attribute("data-shared-at").split('T')[0] + "```"
    str += "&&&"
print(str)
name = 'I:\\Python\\android_data_fetcher\\data\\data.txt'
dirs = os.path.split(name)[0]
is_exist = os.path.exists(dirs)
if not is_exist:
    os.makedirs(dirs)
f = open(name, "w")
f.write(str)  # 存储到文件中
f.close()

读取文件，分割字段

3.添加okhttp依赖

 <!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
 <dependency>
     <groupId>com.squareup.okhttp3</groupId>
     <artifactId>okhttp</artifactId>
     <version>3.12.0</version>
 </dependency>

4.post请求插入数据的方法

private static void doPost(String url, String name, String info, String jianshuUrl, String createTime) {
    //1.HttpClient对象
    OkHttpClient okHttpClient = new OkHttpClient();
    //2.构造RequestBody
    FormBody body = new FormBody.Builder()
            .add("type", "C")
            .add("name", name)
            .add("localPath", "null")
            .add("jianshuUrl", jianshuUrl)
            .add("juejinUrl", "null")
            .add("info", info)
            .add("imgUrl", name + ".png")
            .add("createTime", createTime)
            .build();
    Request request = new Request.Builder().url(url).post(body).build();
    //3.将Request封装为Call对象
    Call call = okHttpClient.newCall(request);
    //4.执行Call
    call.enqueue(new Callback() {
        public void onFailure(Call call, IOException e) {
        }
        public void onResponse(Call call, Response response) throws IOException {
            System.out.println(response.body().string());
        }
    });
}

5.遍历字段时进行插入数据：请求接口见上篇

public static void main(String[] args) {
    String url = "http://192.168.43.60:8089/api/android/note";
    String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
    String[] split = result.split("&&&");
    for (String s : split) {
        String[] item = s.split("```");
        String name = item[0];
        String jianshuUrl = item[1];
        String info = item[2];
        String time = item[3];
        System.out.println(name+"  "+jianshuUrl);
        try {
            Thread.sleep(10);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        doPost(url,name,info,jianshuUrl,time);
    }
}

重命名完成.png

4.小问题：

发现有些名字不能做文件名，好吧，考虑步骤，MD5处理一下

image

//插入数据库时： 
.add("imgUrl", Md5Util.getMD5(name) + ".png")

//重命名时：
file.renameTo(new File(file.getParent(), Md5Util.getMD5(names.get(i)) + ".png"));

public class Md5Util {
    /**
     * 获取一个字符串的Md5值
     *
     * @param content 内容
     * @return Md5值
     */
    public static String getMD5(String content) {
        content = content + "芝麻开门";
        try {
            MessageDigest digest = MessageDigest.getInstance("MD5");
            digest.update(content.getBytes());
            return getHashString(digest);
        } catch (NoSuchAlgorithmException e) {
            e.printStackTrace();
        }
        return null;
    }

    private static String getHashString(MessageDigest digest) {
        StringBuilder builder = new StringBuilder();
        for (byte b : digest.digest()) {
            builder.append(Integer.toHexString((b >> 4) & 0xf));
            builder.append(Integer.toHexString(b & 0xf));
        }
        return builder.toString();
    }
}