美文网首页
爬虫基础02(存入数据库)

爬虫基础02(存入数据库)

作者: 探索1者 | 来源:发表于2018-12-27 19:50 被阅读0次
数据的分类

结构化数据
特点:有固定的格式,如:HTML XML JSON

非结构化数据
如:图片 视频,这类数据一般存储为二进制

贪婪匹配和非贪婪匹配

.*: 贪婪匹配,在整个表达式匹配成功的前提下,尽可能多的去匹配
.*?: 非贪婪匹配,在整个表达式匹配成功的前提下,尽可能少的去匹配

正则表达式分组(findall())
import re 
s = "A B C D"
p1 = re.compile('\w+\s+\w+')
print(p1.findall(s))
# 第1步 : 匹配整体正则['A B', 'C D']
# 第2步 : 匹配分组内容['A','C']
p2 = re.compile('(\w+)\s+\w+')
print(p2.findall(s))
# 第1步 : 匹配整体正则['A B']
# 第2步 : [('A','B')]
p3 = re.compile('(\w+)\s+(\w+)')
print(p3.findall(s))
爬取内涵段子脑筋急转弯
# 网址: www.neihan8.com
# 步骤: 
'''1.URL规律 
第一页:https://www.neihan8.com/njjzw/
第2页:https://www.neihan8.com/njjzw/index_2.html
2.用正则匹配内容 
3.保存'''
csv模块使用流程
1. 打开csv文件
     with open("测试.csv","w",newline="",encoding="gb18030") as f:
2. 初始化写入对象
     writer = csv.writer(f)
3. 写入数据
     writer.writerow(['韩晓凯',23])
数据持久化存储(mongodb)

pymongo基本命令

ubuntu 系统下执行
mongo 回车:进入MongoDB
show databases:显示所有的库
use film: 创建并使用 film 库
show collections: 查看所有的集合
db.t1.find().pretty(): 查看t1表中所有的数据

Anaconda安装其他包的命令
首先以管理员身份去打开 Anaconda Prompt 终端,
然后执行conda install pymongo

远程存入MySQL数据库
1. 开启远程连接,
sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf
注释掉: # bind-address=127.0.0.1
改完之后重启mysql服务
2. 添加授权用户
mysql> grant all privileges on *.* to "用户名"@"%" identified by "123456" with grant option;
3. 关闭防火墙 
sudo ufw disable
或者将第3步改为给防火墙添加规则
3. 添加规则允许外部访问3306端口
sudo ufw allow 3306
Ubuntu中防火墙(ufw)基本操作
  1. 打开 : sudo ufw enable
  2. 关闭 : sudo ufw disable
  3. 添加规则 : sudo ufw allow 端口号

相关文章

  • 爬虫基础02(存入数据库)

    数据的分类 结构化数据特点:有固定的格式,如:HTML XML JSON 非结构化数据如:图片 视频,这类数据一般...

  • python爬虫入门2

      有了上次爬虫的基础,本次教程主要把爬到的数据存入MongoDB数据库中。  MongoDB是一个介于关系数据库...

  • Python入门(2)-第一次爬虫

    一.爬虫目的 爬取webservice上提供的json格式的气象数据,解析后存入SQLServer数据库。 二.开...

  • 蔓蔓的学习之路😂

    前端:java语法基础,python语法基础,爬虫,各种大数据技术; 数据库:mysql,sql等等各种数据库 数...

  • 爬虫笔记(8)scrapy存数据进Mongodb

    scrapy存入数据库的问题是个简单的问题,官方例子代码如下: 在scrapy执行完爬虫代码中的parse函数之后...

  • python实现简单的爬虫

    目标:爬取虎嗅网24小时新闻,存入数据库。分析热词方案:爬虫有多种方案,我们采取requests + lxml/x...

  • 爬虫 之 数据存储

    爬虫采集下来的数据我们需要将其存储起来,可以存储为文本,也可以将其存到数据库中,下面简单介绍一下存入数据库中 首先...

  • 张大妈(SMZDM)爬虫

    张大妈(SMZDM)爬虫 说明 邮箱功能代码已完成,定时发送还没实现; 数据存入数据库前的判断还没有做; 实现的功...

  • 18.1.18

    之前在写爬虫代码的时候,将数据库的存入放到了爬取的代码中了,然后会造成第二天来看结果时,发现数据库的连接失效导致程...

  • Scrapy 模拟登录某乎

    最近看知乎的帖子太累了,所有想直接用爬虫爬取以后存入数据库再看。 废话不多说直接行动吧 点击www.zhihu.c...

网友评论

      本文标题:爬虫基础02(存入数据库)

      本文链接:https://www.haomeiwen.com/subject/ngwllqtx.html