信息获取工具

作者: 诺之林 | 来源:发表于2020-03-01 22:42 被阅读0次

信息获取工具
第十八章 Python psutil模块实现Linux 主机信息
根据openId 和 token 获取第三方用户信息
06,使用AndroidStudio查看创建的keystore信
如何更好的让工具成为人的第二大脑
获取远端系统信息的工具
【工具】获取窗口与控件信息
linux下查看硬件的工作状态
Netcat——TCP/IP连接工具(瑞士军刀)
Android逆向单手手柄getevent注册属性分析

工具

Requests
Selenium
Pyppeteer
Splash

Requests

Requests: 让 HTTP 服务人类

import requests

res = requests.get(url='https://www.baidu.com/')
txt = res.text
print(txt)

Selenium

Selenium automates browsers

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https:www.baidu.com')
print(browser.page_source)
browser.close()

Chrome浏览器安装ChromeDriver Firefox浏览器安装geckodriver

Pyppeteer

Unofficial Python port of puppeteer JavaScript (headless) chrome/chromium browser automation library

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.baidu.com')
    await page.screenshot({'path': 'baidu.png'})
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

Splash

Lightweight, scriptable browser as a service with an HTTP API

docker run --name py-splash -p 8050:8050 -d scrapinghub/splash

浏览器打开http://localhost:8050/

pipenv run scrapy startproject splash_demo

cd splash_demo

vim splash_demo/settings.py

ROBOTSTXT_OBEY = False

SPLASH_URL = 'http://localhost:8050'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

vim splash_demo/spiders/TaobaoSpider.py

import scrapy
from scrapy_splash import SplashRequest

class TaobaoSpider(scrapy.Spider):
    name = "taobao"
    allowed_domains = ["www.taobao.com"]
    start_urls = ['https://s.taobao.com/search?q=坚果&s=880&sort=sale-desc']

    def start_requests(self):
        for url in self.start_urls
            yield SplashRequest(url, self.parse, args={'wait': 0.5})

    def parse(self, response):
        print(response.text)

pipenv run scrapy crawl taobao

参考

网友评论

本文标题：信息获取工具

本文链接：https://www.haomeiwen.com/subject/flgphhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

信息获取工具

工具

Requests

Selenium

Pyppeteer

Splash

参考

相关文章

信息获取工具

第十八章 Python psutil模块实现Linux 主机信息

根据openId 和 token 获取第三方用户信息

06,使用AndroidStudio查看创建的keystore信

如何更好的让工具成为人的第二大脑

获取远端系统信息的工具

【工具】获取窗口与控件信息

linux下查看硬件的工作状态

Netcat——TCP/IP连接工具(瑞士军刀)

Android逆向单手手柄getevent注册属性分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读