匿名函数补充
我们见过的复杂排序形式
[{}, {}, {}]
[(), (), ()] 一般都是通过字典转化过来的
示例1
l1 = [{'name': '张三', 'grade': 56},
{'name': '张三', 'grade': 90},
{'name': '张三', 'grade': 6}]
# 按照成绩进行排序
def sort_by(w): # w这里相当于里面的字典
return w['grade']
l1.sort(key= sort_by)
# 等价于
l1.sort(key=lambda w:w['grade'])
print(l1)
示例2
d = {'煎饼果子': 90, '蛋炒饭': 56, '大馅水饺': 4}
# 转化成列表
# print(d.items())
# d_list = list(d)
# print(d_list) # ['煎饼果子', '蛋炒饭', '大馅水饺']
# d_list=list(d.items())
# print(d_list)
l2 = [('煎饼果子', 90), ('蛋炒饭', 56), ('大馅水饺', 4)]
# 排序
l2.sort(key=lambda x: x[1]) # x这里相当于里面的元组
print(l2)
小结案例:三国人物top10分析(补充)
逻辑引导:一般有一堆数据,要分成有用的数据counts,和没用的数据excludes,方便进行管理。
import jieba
import imageio
from wordcloud import WordCloud
# 读取文件
mask = imageio.imread('china.jpg')
with open('novel/threekingdom.txt', 'r', encoding='UTF-8') as f:
data = f.read()
# 分词
words_list = jieba.lcut(data)
print(words_list)
print(type(words_list)) # <class 'list'>
# 构建一个集合,定义无关词 ,用集合因为可以去重
excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "丞相",
"商议", "如何", "主公", "军士", "军马", "左右", "次日", "引兵",
"大喜", "天下", "东吴", "于是", "今日", "不敢", "魏兵", "陛下",
"都督", "人马", "不知", "孔明曰", "玄德曰", "刘备", "云长"}
# , ""
#构建一个容器,存储我们要的数据
#{"夏侯渊":34,"害怕":33...}\
counts = {}
print(type(counts)) # <class 'dict'>
# 遍历wordlist 目标是筛选出人名
for word in words_list:
# print(word)
if len(word) <= 1:
# 过滤无关词语即可
continue
else:
# 向字典counts里更新值
# counts[word] = 字典中原来该词出现的次数 + 1
# counts[word] = counts[word] + 1
# counts["正文"] = count["正文"] + 1
counts[word] = counts.get(word, 0) + 1
# print(counts)
# 指向同一个词的人进行合并 , 记得把合并的词变为无关词,放到excludes中
counts['孔明'] = counts['孔明'] + counts['孔明曰']
counts['玄德'] = counts['玄德'] + counts['玄德曰'] + counts['刘备']
counts['关公'] = counts['关公'] + counts['云长']
# 删除无关的词语
for word in excludes:
del counts[word]
# 排序筛选
# 把字典转化成列表[(),()] [{}]
items = list(counts.items())
print(items)
# 按照词频次数进行排序
items.sort(key=lambda x: x[1], reverse=True)
print(items)
# 显示出现词语前10的词
role_list = []
# role_list = ['孔明','孔明','孔明','',] # 生成的词云词语频次越多显示的越大,所以需要有这个列表
for i in range(10):
# 将返回的数据拆开,拆包
role, count = items[i]
print(role, count)
# i 临时变量如果不需要的话可以写成 _
# 优点是让读代码的人能够清晰的知道此处不需要使用 i
for _ in range(count):
role_list.append(role)
print(role_list)
# 将列表变成字符串
# text = "孔明 孔明 孔明 ......刘备 刘备 刘备 曹操 曹操"
text = " ".join(role_list)
print(text)
# 展示
WordCloud(
background_color='white',
mask=mask,
font_path='msyh.ttc',
# 是否包含两个词的搭配 设置为False即可
collocations=False
).generate(text).to_file('三国人物前十展示.png')
生成词云
生成词云
爬虫
爬虫爬虫需要的技术栈
搜索引擎的本质其实是爬虫
- 网页知识、浏览器、app爬虫
- 基础爬虫模块:requests,lxml,beautifulSoup,正则表达式(其中requests,lxml简单易学常用)
- 爬虫框架:scrapy爬虫框架、mongodb等nosql数据库
浏览器
- HTML:超文本标记语言,作用:网站的结构体、骨架,特点:以标签形式存在,大多数是以标签对形式存在。
- CSS:层叠样式表,作用:网站的美化。
- JavaScript:作用:网站的动态。javascript是解释型语言。(Ajax很有用)
解释型语言:逐行解释 python
编译型语言:先编译后执行 c
html
查询技术文档网址 :https://www.w3school.com.cn/
png与jpg区别:png可以透明
<!DOCTYPE html> <!--这里的意思是‘注意以下是HTML文档’-->
<html lang="en">
<head>
<meta charset="UTF-8"> <!--<meta> 标签提供关于 HTML 文档的元数据。它不会显示在页面上,
但是对于机器是可读的。可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),
或其他 web 服务。-->
<title>Title</title>
</head>
<body>
<h1>欢迎来到王者荣耀</h1>
<!--h1 标题标签,和我们学的markdown中的#是一个意思-->
<h2>欢迎来到王者荣耀</h2>
<p>阿萨德积分拉丝看得<br/>见拉萨的会计法</p>
<!--p 段落-->
<hr width="200">
<!--hr 水平标签-->
<!--<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>-->
<!--1.标签可以拥有多个属性,必须写在开始标签中,位于标签名后面。-->
<!--2.属性之间不分先后顺序,标签名与属性、属性与属性之间均以空格分开。-->
<!--3.任何标签的属性都有默认值,省略该属性则取默认值。-->
<!--采取 键值对 的格式 key="value" 的格式 -->
<!--无序列表-->
实现点击鲁班七号或者他的头像,都可以跳转至该英雄的详细介绍页
<ul>
<li><a href="https://pvp.qq.com/web201605/herodetail/112.shtml"><img src="https://game.gtimg.cn/images/yxzj/img201606/heroimg/112/112.jpg" alt="">鲁班七号</a></li>
<li>狄仁杰</li>
<li>安琪拉</li>
<li>貂蝉</li>
</ul>
<!--有序列表-->
<ol>
<li>后裔</li>
<li>伽罗</li>
<li>米莱迪</li>
</ol>
<!--div标签是一个容器,常用于div+css现代网页布局,非常常用,特点,无色无味,独占一行-->
<div>爬虫的学习先要了解网页标签的结构</div>
<div>王者荣耀英雄池</div>
<div>
<p>哈哈哈啊哈哈哈</p>
<!-- a标签用于链接-->
<a href="https://www.baidu.com">点击跳转至百度</a>
</div>
<!--src 和 alt 是img 标签的属性 . 在路径表达式里表示当前文件夹
/ 用于分割文件夹 alt是图片加载不出来时显示的文本-->
<!--加载本地图片-->
<img src="./image/china.jpg" alt="图片不见了">
<!--加载服务器图片-->
<img src="https://n.sinaimg.cn/news/transform/360/w680h480/20191024/715d-ihmipqw0086368.jpg" alt="">
</body>
</html>
显示效果
页面显示
网友评论