爬虫思路及存储

爬虫思路及存储

作者: d1b0f55d8efb | 来源:发表于2017-09-26 19:58 被阅读20次

爬取步骤：

获取源码（获取json的源码，json.loads）
xpath或Beautifulsoup
xpath：

from lxml import etree
root_url='https://www.huxiu.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',
}
html=requests.get(root_url,headers=headers).text
select=etree.HTML(html)
zixun_infos=select.xpath('//ul[@class="header-column header-column1 header-column-zx menu-box"]/li/a')

Beautifulsoup：

from bs4 import BeautifulSoup
url='http://www.51hao.cc'
req=requests.get(url)
req.encoding="gb2312"
soup=BeautifulSoup(req.text,'lxml')
fkts=soup.find_all("div",class_="fkt")

解析源码
多层爬取先获取每个分页的url，存入列表在循环请求，一层一层逐渐请求到自己想要爬取得

存入数据：
具体可以参考http://www.cnblogs.com/moye13/p/5291156.html
我主要用两个方法：

存入字典在写入：（定义字典然后存入列表）

存入双重列表：（列表存列表）

存入数据库：

建好表格
连接数据库 conn=pymysql.connect()
创建游标 cur=conn.cursor()
游标下执行 Cur=cur.execute(sql语句)
提交游标数据到数据库 conn.commit
关闭游标 cur.close()
关闭数据库连接conn.close()

相关文章

网友评论

大婶N72:漂亮

本文标题：爬虫思路及存储

本文链接：https://www.haomeiwen.com/subject/htseextx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

颠覆你的Python实践

软件测试职业探索

热点阅读

颠覆你的Python实践

软件测试职业探索

关于我们|服务条款|联系我们|爬虫思路及存储|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！