A、组合数据类型概述
计算机不仅对单个变量表示的数据进行处理,更多情况,计算机需要对一组数据进行批量处理。例:
给定一组单词{python, data, function, list, loop},计算并输出每个单词的长度;
给定一个学院学生信息,统计一下男女生比例;
一次实验产生了很多组数据,对这些大量数据进行分析。
组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易
根据数据之间的关系,组合数据类型可以分为三类:
序列类型、集合类型和映射类型。
序列类型是一个元素向量,元素之间存在先后关系,通过序号访问,元素之间不排他。
集合类型是一个元素集合,元素之间无序,相同元素在集合中唯一存在。
映射类型是“键-值”数据项的组合,每个元素是一个键值对,表示为(key, value)。

B、集合类型和操作
集合类型与数学中集合的概念一致,即包含0个或多个数据项的无序组合。
集合中元素不可重复。
集合中,元素类型只能是固定数据类型,例如:整数、浮点数、字符串、元组等。
列表、字典和集合类型本身都是可变数据类型,不能作为集合的元素出现。
由于集合是无序组合,它没有索引和位置的概念,不能分片。
集合用大括号({})表示,元素间用,分隔。
集合中元素可以动态增加或删除。
建立集合类型: {} 和set()函数
建立空集合类型:必须使用set()

由于集合元素是无序的,集合的打印效果与定义顺序可以不一致。
由于集合元素独一无二,使用集合类型能够过滤掉重复元素。
上述操作符表达了集合类型的4种基本操作:
交集(&)、并集(|)、差集(-)、补集(^),操作逻辑与数学定义相同


集合类型的应用场景包含关系的比较
用集合数据表达这组数据,然后用其他元素与之比较

数据去重(进行数据重复处理)
集合类型与其他类型最大的不同在于它不包含重复元素

C、序列类型和操作
1.序列类型
序列是具有先后关系的一组元素
序列是一维元素向量
元素可以相同(有位置信息)
元素类型可以不同
类似数学中的S0 , S1 ,…, Sn-1 , Sn
元素间由序号引导,通过下标访问序列中的特定元素
由于元素之间存在顺序关系,所以序列中可以存在相同数值但位置不同的元素。
序列类型支持成员关系操作符(in)、长度计算函数(len())、分片([]),元素本身也可以是序列类型。
序列类型是一个基类类型,Python语言中有很多数据类型都是序列类型:
str(字符串) :单一字符的有序组合
tuple(元组):包含0个或多个数据项的不可变序列类型。元组生成后是固定的,其中任何数据项不能替换或删除。
list(列表):一个可以修改数据项的序列类型,使用也最灵活。

2.序列处理函数及方法



注意:不同类不能比
D、元组类型和操作
元组(tuple)是序列类型中比较特殊的类型,因为它一旦创建就不能被修改。
创建:使用()或tuple()
元组中元素用,分隔。
可以使用或者不使用小括号



元组类型在表达固定数据项、函数多返回值、多变量同步赋值、循环遍历等情况下十分有用。

元组中元素不可变,除了序列类型的通用函数和方法,无特殊操作。
E、列表类型和操作
1.列表类型的概念
列表(list)是包含0个或多个对象引用的有序序列,属于序列类型。
与元组不同,列表的长度和内容都是可变的,可自由对列表中数据项进行增加、删除或替换。
列表没有长度限制,元素类型可以不同,使用非常灵活。
列表属于序列类型,所以列表也支持成员关系操作符(in)、长度计算函数(len())、分片([])。
列表可以同时使用正向递增序号和反向递减序号,可以采用标准的比较操作符(<、<=、==、!=、>=、>)进行比较,列表的比较实际上是单个数据项的逐个比较。
列表用中括号([])表示,元素间用,分隔。
创建:使用[]或list()函数
list()函数可将元组或字符串转化成列表。直接使用list()函数会返回一个空列表。不会生成新的列表对象。

即:方括号[]真正创建与整数和字符串不同,列表要处理一组数据,因此列表必须通过显式的数据赋值才能生成,简单将一个列表赋值给另一个列表一个列表,赋值仅仅传递引用。

2.列表类型的操作



当使用一个列表改变另一个列表值时,Python不要求两个列表长度一样,但遵循“多增少减”的原则。



与元组一样,列表可以通过for…in语句对其元素进行遍历,基本语法结构如下:
for <任意变量名> in <列表名>:
语句块

列表是一个十分灵活的数据结构,它具有处理任意长度、混合类型的能力,并提供了丰富的基础操作符和方法。当程序需要使用组合数据类型管理批量数据时,请尽量使用列表类型。
3.序列类型应用场景
元组用于元素不改变的应用场景,更多用于固定搭配场景
列表更加灵活,是最常用的序列类型
最主要的作用:表示一组有序数据,进而操作它们
数据保护:如果不希望数据被程序所修改,转换为元组类型
4.序列特点
序列是元素的有序组合
序列是基类,扩展类型包括:字符串、元组、和列表
元组用()或者tuple()创建,列表用[]或者list()创建
元组操作和序列操作基本相同
列表操作在序列操作基础上,增加了更多的灵活性
F、映射类型
映射类型是“键-值”数据项的组合,或者叫索引和数据的对应。-- 属性&数据的对应关系
每个元素是一个键值对,即元素是一个二元关系(key, value),元素之间是无序的。

在Python中,映射类型主要以字典(dict)体现。

字典类型的计算
1.字典类型的基本概念
通过任意键信息查找一组数据中值信息的过程叫映射,Python语言中通过字典实现映射。
字典可以通过大括号({})和dict()建立,建立模式如下:
{<键1>:<值1>,… , <键n>:<值n>}
其中,键和值通过冒号连接,不同键值对通过逗号隔开。

字典打印出来的顺序与创建之初的顺序可能不同。
字典是集合类型的延续,各个元素并没有顺序之分。
字典是元素为键值对的集合
字典最主要的用法是查找与特定键相对应的值,通过索引符号来实现。
一般来说,字典中键值对的访问模式如下,采用中括号格式: <值> = <字典变量>[<键>]
字典中对某个键值的修改可以通过中括号的访问和赋值实现。
通过中括号([])可以增加新的元素

直接使用大括号({})可以创建一个空的字典,并通过中括号([])向其增加元素。

2.字典类型的操作




与其他组合类型一样,字典可以通过for…in语句对其元素进行遍历,基本语法结构如下:
for <索引值> in <字典名>:
语句块

3.字典类型的应用场景
字典的最主要应用场景:对映射的表达
映射无处不在,键值对无处不在
例如:统计数据出现的次数,数据是键,次数是值à(数据,出现次数)
最主要作用:表达键值对数据,进而操作它们
字典是实现键值对映射的数据结构,请理解如下基本原则:
字典类型使用{} 和 dict()创建
字典是一个键值对(key: value)的集合,该集合以键为索引,一个键信息只对应一个值信息;-- 1:1
字典中元素以键信息为索引访问(d[key]);
字典长度是可变的,可以通过对键信息赋值实现增加或修改键值对(d[key] = …)。
有一批操作方法和函数,最重要的是.get()
G、jieba库的使用
1.jieba库的概述
中文分词问题:中文单词之间没有分隔符
jieba是Python中一个重要的第三方中文分词函数库

jieba库是第三方库,不是安装包自带,需要通过pip指令安装
使用cmd命令行
pip install jieba 或者 pip3 install jieba
2.jieba库的功能
分词原理:将待分词的内容与中文词库进行对比
功能:
分词
用户添加自定义的中文单词
三种分词模式:
精确模式:精确切分,完整且不多余地组成原始文本 – 最常用
全模式:把句子中所有可以成词的词语都扫描出来,但是冗余性最大
搜索引擎模式:首先执行精确模式,然后再对其中的长词进一步切分


H、文本词频统计
英文:
单词分词简单
有大小写、标点符号等特殊符号 –– 文本的噪音处理
中文:
词语分词麻烦 –– jieba库
网友评论