美文网首页Python学习资料整理
python 爬虫 scrapy+selenium+mysql,

python 爬虫 scrapy+selenium+mysql,

作者: Zeng_桀 | 来源:发表于2019-04-30 15:42 被阅读108次

    需求

    由于工作需要,公司要求爬取指定的微信公众号发布的文章,各大银行官网发布的营销信息。还有招标信息。进过调研后,发现使用python 的scrapy结合selenium模拟人工操作。用了一些时间完成了任务。特来记录一下。


    开发环境

    windows7/10

    python 3.5.2

    mysql 5.5

    scrapy 1.6

    pycharm2018

    谷歌浏览器 70.0.3538.110(正式版本) (64 位)


    安装

    在windows上正常安装python3.5.2,我选用的是官网的64位版本,详细留意:https://www.python.org/search/?q=3.5.2&submit=

    1、添加环境变量:

    image

    python所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35;

    pip所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;

    解析:添加上述的2个路径到环境变量当中。

    image image

    2、pycharm安装。

    使用pycharm作为编辑器,是因为,他有强大的导入功能。他的一些导入包非常方便管理自己导入的第三方的包。

    image image

    *******************************注意*****************************

    如果在下载安装scrapy的时候,报出Twisted 版本的错误导致pip不成功的时候可以手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl

    1)保证你的pip版本是最新的

    2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

    参考:https://www.jianshu.com/p/a294a4b2bcde

    参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    Twisted-18.7.0-cp37-cp37m-win_amd64.whl这个我是在上述链接下载的

    3、要使用selenium作为模拟人工操作的自动话测试,需要先下载对应浏览器的驱动

    因为我使用谷歌浏览器的,所以我下载的也是谷歌浏览器的驱动

    参考:http://npm.taobao.org/mirrors/chromedriver/

    参考:https://blog.csdn.net/yoyocat915/article/details/80580066


    现在你可以正式工作了!(手动狗头)


    爬取微信搜狗

    image image image

    因为微信公众号发布得最新文章,可以在微信搜狗页面上查到指定公众号发布的最新内容,所以我们的目标很明确,是在微信搜狗上爬取公众号发布的最新消息。

    1、确定爬取链接

    经过分析,带爬取的链接有如下特点:

    链接构成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公众号号码

    使用scrapy爬取到该链接对应的静态内容后,你会发现,链接对应的a标签会重定向到302输入验证码的页面,可能是微信搜狗的反扒技术吧。(不过有办法解决)

    image image image

    这个时候我们要用强大的selenium作为模拟人工点击的自动化测试工具。这个第三方包在python能下载到。

    直接上代码

    
    class SeleniumMiddleware(object):
    
    def __init__(self):
    
    self.cookies_file_path = COOKIES_FILE_PATH
    
    def process_request(self, request, spider):
    
    options = webdriver.ChromeOptions()
    
    # 设置中文
    
            options.add_argument('lang=zh_CN.UTF-8')
    
    #options.add_argument('--headless')
    
    #options.add_argument('--disable-gpu')
    
    #options.add_argument('--remote-debugging-port=9222')
    
            # 更换头部
    
            options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))
    
    browser = webdriver.Chrome(
    
    executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,
    
                chrome_options=options)
    
    wait = WebDriverWait(browser, 15)
    
    browser.get(request.url)
    
    '''设置selenium浏览器的cookie'''
    
            with open(self.cookies_file_path, 'r')as f:
    
    listCookie = json.loads(f.read())
    
    time.sleep(1)
    
    browser.delete_all_cookies();
    
    for cookiein listCookie:
    
    browser.add_cookie({
    
    # 'domain': cookie['domain'],
    
    # 'httpOnly': cookie['httpOnly'],
    
                    'name': cookie['name'],
    
                  # 'path': cookie['path'],
    
    # 'secure': cookie['secure'],
    
                    'value': cookie['value'],
    
                  # 'expiry': None if 'expiry' not in cookie else cookie['expiry']
    
                })
    
    # browser.close()
    
            browser.get(request.url)
    
    time.sleep(5)
    
    # 根据公众号查找
    
            gzhDetail = wait.until(EC.element_to_be_clickable(
    
    (By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))
    
    gzhDetail.click()
    
    time.sleep(3)
    
    # 更换到刚点击开的页面
    
            newWindowHandler = browser.window_handles[-1]
    
    browser.switch_to.window(newWindowHandler)
    
    #返回页面
    
            true_page = browser.page_source
    
    res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)
    
    #记录搜狗微信公众临时生成的gotoLink的地址,注意该地址是微信搜狗经常会切换的地址。
    
            res.meta['wxsgGzhDetailUrl']=browser.current_url
    
    browser.quit()
    
    return res
    
    def process_response(self, request, response, spider):
    
    return CodeMiddleware().process_response(request,response,spider)
    
    

    若果成功模拟人工点击是不会跳到302输入验证码的,这样就少了必须使用打码平台的考虑。成功点击后进入公众号的发布文章页面,这个时候就可以将公众号发布过的文章的标题,简介,图片爬取下来啦。(到了这个页面可以直接引用a标签进入到详细的文章内部,意味着具体的文章内容可以爬取下来啦。)

    最后

    我的github:里面有更加详细的代码。记得给个星星哦,还有其他的例子。本文例子在weixinsougou文件夹里面

    备注

    1、解决windows 命令行找不到pip命令的方法:

      1)找到安装python.exe的文件夹
    
      2)添加Script文件夹路径到环境变量当中。环境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts
    

    2、解决安装scrapy会出现不能安装问题,报出Twisted 版本的错误时:

      1)手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决
    
      2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
    

    参考:https://www.jianshu.com/p/a294a4b2bcde

    参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    3、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。

    参考:http://npm.taobao.org/mirrors/chromedriver/

    参考:https://blog.csdn.net/yoyocat915/article/details/80580066

    相关文章

      网友评论

        本文标题:python 爬虫 scrapy+selenium+mysql,

        本文链接:https://www.haomeiwen.com/subject/bisvnqtx.html