需求
由于工作需要,公司要求爬取指定的微信公众号发布的文章,各大银行官网发布的营销信息。还有招标信息。进过调研后,发现使用python 的scrapy结合selenium模拟人工操作。用了一些时间完成了任务。特来记录一下。
开发环境
windows7/10
python 3.5.2
mysql 5.5
scrapy 1.6
pycharm2018
谷歌浏览器 70.0.3538.110(正式版本) (64 位)
安装
在windows上正常安装python3.5.2,我选用的是官网的64位版本,详细留意:https://www.python.org/search/?q=3.5.2&submit=
1、添加环境变量:
imagepython所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35;
pip所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;
解析:添加上述的2个路径到环境变量当中。
image image2、pycharm安装。
使用pycharm作为编辑器,是因为,他有强大的导入功能。他的一些导入包非常方便管理自己导入的第三方的包。
image image*******************************注意*****************************
如果在下载安装scrapy的时候,报出Twisted 版本的错误导致pip不成功的时候可以手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl
1)保证你的pip版本是最新的
2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
参考:https://www.jianshu.com/p/a294a4b2bcde
参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
Twisted-18.7.0-cp37-cp37m-win_amd64.whl这个我是在上述链接下载的
3、要使用selenium作为模拟人工操作的自动话测试,需要先下载对应浏览器的驱动
因为我使用谷歌浏览器的,所以我下载的也是谷歌浏览器的驱动
参考:http://npm.taobao.org/mirrors/chromedriver/
参考:https://blog.csdn.net/yoyocat915/article/details/80580066
现在你可以正式工作了!(手动狗头)
爬取微信搜狗
image image image因为微信公众号发布得最新文章,可以在微信搜狗页面上查到指定公众号发布的最新内容,所以我们的目标很明确,是在微信搜狗上爬取公众号发布的最新消息。
1、确定爬取链接
经过分析,带爬取的链接有如下特点:
链接构成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公众号号码
使用scrapy爬取到该链接对应的静态内容后,你会发现,链接对应的a标签会重定向到302输入验证码的页面,可能是微信搜狗的反扒技术吧。(不过有办法解决)
image image image这个时候我们要用强大的selenium作为模拟人工点击的自动化测试工具。这个第三方包在python能下载到。
直接上代码
class SeleniumMiddleware(object):
def __init__(self):
self.cookies_file_path = COOKIES_FILE_PATH
def process_request(self, request, spider):
options = webdriver.ChromeOptions()
# 设置中文
options.add_argument('lang=zh_CN.UTF-8')
#options.add_argument('--headless')
#options.add_argument('--disable-gpu')
#options.add_argument('--remote-debugging-port=9222')
# 更换头部
options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))
browser = webdriver.Chrome(
executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,
chrome_options=options)
wait = WebDriverWait(browser, 15)
browser.get(request.url)
'''设置selenium浏览器的cookie'''
with open(self.cookies_file_path, 'r')as f:
listCookie = json.loads(f.read())
time.sleep(1)
browser.delete_all_cookies();
for cookiein listCookie:
browser.add_cookie({
# 'domain': cookie['domain'],
# 'httpOnly': cookie['httpOnly'],
'name': cookie['name'],
# 'path': cookie['path'],
# 'secure': cookie['secure'],
'value': cookie['value'],
# 'expiry': None if 'expiry' not in cookie else cookie['expiry']
})
# browser.close()
browser.get(request.url)
time.sleep(5)
# 根据公众号查找
gzhDetail = wait.until(EC.element_to_be_clickable(
(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))
gzhDetail.click()
time.sleep(3)
# 更换到刚点击开的页面
newWindowHandler = browser.window_handles[-1]
browser.switch_to.window(newWindowHandler)
#返回页面
true_page = browser.page_source
res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)
#记录搜狗微信公众临时生成的gotoLink的地址,注意该地址是微信搜狗经常会切换的地址。
res.meta['wxsgGzhDetailUrl']=browser.current_url
browser.quit()
return res
def process_response(self, request, response, spider):
return CodeMiddleware().process_response(request,response,spider)
若果成功模拟人工点击是不会跳到302输入验证码的,这样就少了必须使用打码平台的考虑。成功点击后进入公众号的发布文章页面,这个时候就可以将公众号发布过的文章的标题,简介,图片爬取下来啦。(到了这个页面可以直接引用a标签进入到详细的文章内部,意味着具体的文章内容可以爬取下来啦。)
最后
我的github:里面有更加详细的代码。记得给个星星哦,还有其他的例子。本文例子在weixinsougou文件夹里面
备注
1、解决windows 命令行找不到pip命令的方法:
1)找到安装python.exe的文件夹
2)添加Script文件夹路径到环境变量当中。环境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts
2、解决安装scrapy会出现不能安装问题,报出Twisted 版本的错误时:
1)手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决
2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
参考:https://www.jianshu.com/p/a294a4b2bcde
参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
3、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。
参考:http://npm.taobao.org/mirrors/chromedriver/
参考:https://blog.csdn.net/yoyocat915/article/details/80580066
网友评论