实践中学python：评论喜欢简书文章

作者: 十一岁的加重 | 来源:发表于2017-08-22 09:32 被阅读332次

实践中学python：评论喜欢简书文章
长话短说
创作你的创作
js事件自动执行
写给新手｜换一个角度思考，让写作之路更顺畅
评论区中文字的足迹
摘自简书文章评论
实践中学python：刷简书阅读量
有趣的评论
喜欢简书的评论

#!/usr/bin/python
# coding=utf-8
import requests
import re

# 从一个网页里获取文章id
def getArticleIDStringFromWebAtUrlString(urlString):
    return getIDStringFromWebAtUrlString(urlString, '<a class="title" target="_blank" href="/p/(.*?)">')

# 从一个网页里获取专题id
def getTopicIDStringFromWebAtUrlString(urlString):
    return getIDStringFromWebAtUrlString(urlString,'<a class="collection-tag" target="_blank" href="/c/(.*?)">')

# 从一个网页里按正则获取对应的字符串集合
def getIDStringFromWebAtUrlString(urlString,regString):
    html = requests.get(urlString)
    commentsIDStrings = re.findall(regString,html.text,re.S)
    return commentsIDStrings

# 从文章网页里拿到评论的id
def getComentsIDStringFromArticleUrlString(urlString):
    html = requests.get(urlString)
    commentsIDStrings = re.findall('data-note-id="(.*?)">',html.text,re.S)
    return commentsIDStrings[0]

# 从文章网页里拿到文章id
def getArticleIDStringFromArticleUrlString(urlString):
    prefixStr = 'http://www.jianshu.com/p/'
    if prefixStr in urlString:
        articleIDString = urlString.replace(prefixStr, '')
        return articleIDString
    return 'this is not a articleUrlString'

# 评论一篇文章，文章地址，评论的内容
def commentArticle(articleUrlString, commentString):
    cookieString = 'remember_user_token=W1sxOTI1NjJdLCIkMmEkMTAkeUdIRkRGdFN4L0RpZldKV3lKalR6ZSIsIjE1MDMzMjY2NTMuODY3NTI3Il0%3D--7255eb9eb5c5465a41781ef8e5772b10e1b2d72e; _ga=GA1.2.714896647.1497170140; _gid=GA1.2.462532388.1503150885; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1503323642,1503323726,1503325746,1503326272; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1503326790; _session_id=ZkhpL1IzRzA4bEs2dTZRRlhSTlVaQ3JFMWQ0enc4akxtSjh1dlUrSlpCUGpJZGltZG42UDdDMmtodllJbkovZFZ1eEkxVlNjZDUzVG1RdVc1cysyQUZTVUxFZFBUUC9zL3dIZjNVdFJVeERsZWpET2NRK0J3dHFnN21xRkE3QlFuYlBPU1RZc09xTXFJRlBFNGwrU1U3Q0gzQnpTRnNmZXVvNmR1dzJOZ2J0MU5KMkQ4cnd5OTlpYlIyZXRyb21rdjBMeE9xS1lPWGRSL2t0UXlyeDN2bml2TWNwMDF4akpGSkVQaW5iSXBDdWJCNUxrZEJ3dGJDZUhnOU50a2wyV2N2b3g0dXkvd0M5VWkzNTh6eUtPRUdTZUJuUHo2REg1dXhqeGpNOExubm40enU5U3BPNG1xdnlOK0dxYTJFeU5GZVQ3OTlFTW1GdndUS043T0N6QlpGczY4VFJCYW5QTDlxUzRMOGJYN3RyeU05N2cvS0lDWDNidVJZNkgwbmF3aHVMY083TWgrc2RsRHRYVDBjYjIwZVJTdXRHc21MWnk4Z0I3VFdMWHNmOD0tLU8zaHdXcEFUZjNaLzVINWpIdUZnK0E9PQ%3D%3D--4ff5e23579bb725201c91a9bfa6d7bb5975bd076'
    ArticleIDString = getArticleIDStringFromArticleUrlString(articleUrlString)
    noteIDString = getComentsIDStringFromArticleUrlString(articleUrlString)
    data = {"content": commentString}
    #header
    headers = {'Host':'www.jianshu.com',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
    'Accept':'application/json',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Content-Type':'application/json',
    'Cookie':cookieString,
    'Referer':'http://www.jianshu.com/p/%s'%ArticleIDString,
    'Origin':'http://www.jianshu.com',
    'Connection':'keep-alive',
    'Accept-Encoding':'gzip, deflate',
    'DNT':'1'}
    response = requests.post(url='http://www.jianshu.com/notes/%s/comments'%noteIDString,headers=headers,json=data)
    print response.status_code, response.reason

# 喜欢一个专题里的文章
def likeTopic(topicUrlString):
    articleIDStrings = getArticleIDStringFromWebAtUrlString(topicUrlString)
    for articleIDString in articleIDStrings:
# 喜欢一个文章跟评论一个文章类似的写法
        likeArticle(articleIDString)


# 喜欢一文章
def likeArticle(articleUrlString):
    cookieString = 'remember_user_token=W1sxOTI1NjJdLCIkMmEkMTAkeUdIRkRGdFN4L0RpZldKV3lKalR6ZSIsIjE1MDMzMjY2NTMuODY3NTI3Il0%3D--7255eb9eb5c5465a41781ef8e5772b10e1b2d72e; _ga=GA1.2.714896647.1497170140; _gid=GA1.2.462532388.1503150885; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1503323642,1503323726,1503325746,1503326272; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1503326790; _session_id=ZkhpL1IzRzA4bEs2dTZRRlhSTlVaQ3JFMWQ0enc4akxtSjh1dlUrSlpCUGpJZGltZG42UDdDMmtodllJbkovZFZ1eEkxVlNjZDUzVG1RdVc1cysyQUZTVUxFZFBUUC9zL3dIZjNVdFJVeERsZWpET2NRK0J3dHFnN21xRkE3QlFuYlBPU1RZc09xTXFJRlBFNGwrU1U3Q0gzQnpTRnNmZXVvNmR1dzJOZ2J0MU5KMkQ4cnd5OTlpYlIyZXRyb21rdjBMeE9xS1lPWGRSL2t0UXlyeDN2bml2TWNwMDF4akpGSkVQaW5iSXBDdWJCNUxrZEJ3dGJDZUhnOU50a2wyV2N2b3g0dXkvd0M5VWkzNTh6eUtPRUdTZUJuUHo2REg1dXhqeGpNOExubm40enU5U3BPNG1xdnlOK0dxYTJFeU5GZVQ3OTlFTW1GdndUS043T0N6QlpGczY4VFJCYW5QTDlxUzRMOGJYN3RyeU05N2cvS0lDWDNidVJZNkgwbmF3aHVMY083TWgrc2RsRHRYVDBjYjIwZVJTdXRHc21MWnk4Z0I3VFdMWHNmOD0tLU8zaHdXcEFUZjNaLzVINWpIdUZnK0E9PQ%3D%3D--4ff5e23579bb725201c91a9bfa6d7bb5975bd076'
    prefixStr = 'http://www.jianshu.com/p/'
    if prefixStr not in articleUrlString:
        articleUrlString = prefixStr+articleUrlString
    noteIDString = getComentsIDStringFromArticleUrlString(articleUrlString)
    data = {}
    headers = {'Host':'www.jianshu.com',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
    'Accept':'application/json',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Content-Type':'application/json',
    'Cookie':cookieString,
    'Referer':articleUrlString,
    'Origin':'http://www.jianshu.com',
    'Connection':'keep-alive',
    'Accept-Encoding':'gzip, deflate',
    'DNT':'1'}
    response = requests.post(url='http://www.jianshu.com/notes/%s/like'%noteIDString,headers=headers,json=data)
    print response.status_code, response.reason

按上面我们会遇到一个问题，就是拿不到一个用户的所有文章，一个专题的所有文章，解决方案：离线网页，再抓取网页源码


# 从本地一个html文件中解析出文章的id
def getArticalIDStringFromLocalHtmlFile(localHtmlFilePath):
    with open(r'%s'%localHtmlFilePath, "r") as f:
        page = f.read()
    commentsIDStrings = re.findall('<a class="title" target="_blank" href="http://www.jianshu.com/p/(.*?)">',page,re.S)
    return commentsIDStrings

# 这里我们可以开始调用了，这里要写全路径 不能写 ~/Desktop
articalIDStrings = getArticalIDStringFromLocalHtmlFile('/Users/mac/Desktop/test.htm')
for articalIDString in articalIDStrings:
    likeArticle(articalIDString)

小弟新手请大神们赐教

网友评论

安英雅集:感兴趣可是看不懂啊
花与少年_:所以给我点的喜欢，是脚本跑的吗，我还兴奋了半天
十一岁的加重:@卤小蛋蛋其实忘了告诉你，我一直默默地关注你很久了，很多文章都一直收藏着，点赞分分钟的事
花与少年_:@十一岁的加重这什么手速啊不相信呢
十一岁的加重:@卤小蛋蛋手动的哈哈
豆志昂扬:跑个脚本把简📖的点赞系统搞瘫痪吧
十一岁的加重:@豆志昂扬小心封号
九剑仙:挺实用的
十一岁的加重:@九剑仙才学的，其实iOS也能做到，只是python写起来很精简
e0d70d9ebe00:代码？
十一岁的加重:就是代码
柏梨:厉害👍
篱笆影:瞪着你写的文字发呆
十一岁的加重:哈哈，我也是才学的，现学现用，实战操作
豆七晓保:好酷
十一岁的加重:不敢批量用，怕被封号
木头奶奶:一窍不通😛
十一岁的加重:@木头奶奶我也是昨晚才开始学习的
木头奶奶: @十一岁的加重很专业！是我不懂。
十一岁的加重:没事，我也是瞎写的
书香云舍:看不懂😂
奈斯藏:厉害了！就是看不懂
会红的眼:不懂不懂
十一岁的加重:@会红的眼 iOS开发自学python中
会红的眼: @十一岁的加重心碎💔
十一岁的加重:自动评论哈哈