由于实际工作中不太需要数据爬取的技能,数据已经存储在企业的数据库了,因此数据爬取这部分我将押后进行回顾。我们先来总结一些数据库的部分。
其实由于种种原因,包括本人学院不是正统计算机学院等原因,本人数据库学得并不好,因此只进行浅薄的总结,总结若有错误还请大家指正。
数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合
数据库管理系统DBMS是位于用户与操作系统之间的数据管理软件
数据库系统DBS是在计算机系统中引入数据库后的系统构成
数据库系统构成:
数据库、数据库管理工具、应用系统、数据库管理员
数据模型
数据模型主要分为两大类:
(一)概念模型。按用户的观点对数据建模,用于数据库设计
(二)逻辑模型和物理模型。
逻辑模型包括网状、层次、关系模型,按计算机系统观点对数据建模
物理模型是对数据最底层的抽象,描述了数据在系统中表示方式和存取方法,在磁盘或磁带上的存储方式方法。
人们从现实世界的数据抽取概念模型再转化为逻辑模型,再由DBMS将其转换为物理模型。
具体来说,概念模型是数据库设计的有力工具
基本概念有:
1、实体。客观存在并可相互区别的事物
2、属性。实体拥有的特性,如学生拥有的名字。
3、码(KEY)。唯一标识实体的属性集。
4、域。属性的取值范围。
5、实体型。用实体名及属性名集合来抽象刻画同类实体。
6、实体集。同一类型实体的集合。
7、联系。实体内部的联系是各属性的联系,实体之间的联系是不同实体集的联系。
两个实体的联系有1对1的联系、1对多的联系和多对多的联系
1:1 一个班级只有一个班长
1:n 一个班级有若干学生
m:n 多个课程有多个学生选修
而概念模型的表示方法主要是用实体-联系方法(E-R图),这是描述现实世界的概念模型
那么最常用的数据模型主要有
非关系模型(层次模型、网状模型)
关系模型
面向对象模型、对象关系模型等等
关系数据模型
关系:一个关系通常是一张表
元组:表中的一行即为一个元组
属性:表中一列为一个属性
主码:表中某个属性组,可以唯一确定一个元组
网友评论