匿名函数补充

我们见过的复杂排序形式
[{}, {}, {}]
[(), (), ()] 一般都是通过字典转化过来的
示例1

l1 = [{'name': '张三', 'grade': 56},
      {'name': '张三', 'grade': 90},
      {'name': '张三', 'grade': 6}]
# 按照成绩进行排序
def sort_by(w):  # w这里相当于里面的字典
    return w['grade']
l1.sort(key= sort_by)
# 等价于
l1.sort(key=lambda w:w['grade'])
print(l1)

示例2

d = {'煎饼果子': 90, '蛋炒饭': 56, '大馅水饺': 4}
# 转化成列表
# print(d.items())
# d_list = list(d)
# print(d_list) # ['煎饼果子', '蛋炒饭', '大馅水饺']
# d_list=list(d.items())
# print(d_list)
l2 = [('煎饼果子', 90), ('蛋炒饭', 56), ('大馅水饺', 4)]
# 排序
l2.sort(key=lambda x: x[1]) # x这里相当于里面的元组
print(l2)

小结案例：三国人物top10分析（补充）

逻辑引导：一般有一堆数据，要分成有用的数据counts，和没用的数据excludes，方便进行管理。

import jieba
import imageio
from wordcloud import WordCloud
# 读取文件
mask = imageio.imread('china.jpg')
with open('novel/threekingdom.txt', 'r', encoding='UTF-8') as f:
    data = f.read()
    # 分词
    words_list = jieba.lcut(data)
    print(words_list)
    print(type(words_list)) # <class 'list'>

    # 构建一个集合，定义无关词   ，用集合因为可以去重
    excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "丞相",
                "商议", "如何", "主公", "军士", "军马", "左右", "次日", "引兵",
                "大喜", "天下", "东吴", "于是", "今日", "不敢", "魏兵", "陛下",
                "都督", "人马", "不知", "孔明曰", "玄德曰", "刘备", "云长"}
                # , ""
    #构建一个容器，存储我们要的数据
    #{"夏侯渊":34,"害怕":33...}\
    counts = {}
    print(type(counts)) # <class 'dict'>
    # 遍历wordlist 目标是筛选出人名
    for word in words_list:
        # print(word)
        if len(word) <= 1:
            # 过滤无关词语即可
            continue
        else:
            # 向字典counts里更新值
            # counts[word] = 字典中原来该词出现的次数 + 1
            # counts[word] = counts[word] + 1
            # counts["正文"] = count["正文"] + 1
            counts[word] = counts.get(word, 0) + 1
    # print(counts)

    # 指向同一个词的人进行合并 ， 记得把合并的词变为无关词，放到excludes中
    counts['孔明'] = counts['孔明'] + counts['孔明曰']
    counts['玄德'] = counts['玄德'] + counts['玄德曰'] + counts['刘备']
    counts['关公'] = counts['关公'] + counts['云长']

    # 删除无关的词语
    for word in excludes:
        del counts[word]

    # 排序筛选
    # 把字典转化成列表[(),()]  [{}]
    items = list(counts.items())
    print(items)
    # 按照词频次数进行排序
    items.sort(key=lambda x: x[1], reverse=True)
    print(items)
    # 显示出现词语前10的词

    role_list = []
    # role_list = ['孔明','孔明','孔明','',] # 生成的词云词语频次越多显示的越大，所以需要有这个列表
    for i in range(10):
        # 将返回的数据拆开，拆包
        role, count = items[i]
        print(role, count)
        # i 临时变量如果不需要的话可以写成 _
        # 优点是让读代码的人能够清晰的知道此处不需要使用 i
        for _ in range(count):
            role_list.append(role)

    print(role_list)
    # 将列表变成字符串
    # text = "孔明 孔明 孔明 ......刘备 刘备 刘备 曹操 曹操"
    text = " ".join(role_list)
    print(text)
    # 展示

    WordCloud(
        background_color='white',
        mask=mask,
        font_path='msyh.ttc',
        # 是否包含两个词的搭配 设置为False即可
        collocations=False
    ).generate(text).to_file('三国人物前十展示.png')

生成词云

爬虫

爬虫需要的技术栈

搜索引擎的本质其实是爬虫

网页知识、浏览器、app爬虫
基础爬虫模块：requests,lxml,beautifulSoup,正则表达式(其中requests,lxml简单易学常用）
爬虫框架：scrapy爬虫框架、mongodb等nosql数据库

浏览器

HTML：超文本标记语言，作用：网站的结构体、骨架，特点：以标签形式存在，大多数是以标签对形式存在。
CSS：层叠样式表，作用：网站的美化。
JavaScript：作用：网站的动态。javascript是解释型语言。（Ajax很有用）
解释型语言：逐行解释 python
编译型语言：先编译后执行 c

html

查询技术文档网址：https://www.w3school.com.cn/
png与jpg区别：png可以透明

<!DOCTYPE html>  <!--这里的意思是‘注意以下是HTML文档’-->
<html lang="en">
<head>
    <meta charset="UTF-8">  <!--<meta> 标签提供关于 HTML 文档的元数据。它不会显示在页面上，
但是对于机器是可读的。可用于浏览器（如何显示内容或重新加载页面），搜索引擎（关键词），
或其他 web 服务。-->
    <title>Title</title>
</head>
<body>
<h1>欢迎来到王者荣耀</h1>
<!--h1 标题标签，和我们学的markdown中的#是一个意思-->
<h2>欢迎来到王者荣耀</h2>
<p>阿萨德积分拉丝看得<br/>见拉萨的会计法</p>
<!--p 段落-->
<hr width="200">
<!--hr 水平标签-->

<!--<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>-->
<!--1.标签可以拥有多个属性，必须写在开始标签中，位于标签名后面。-->

<!--2.属性之间不分先后顺序，标签名与属性、属性与属性之间均以空格分开。-->

<!--3.任何标签的属性都有默认值，省略该属性则取默认值。-->

<!--采取  键值对 的格式   key="value"  的格式  -->

<!--无序列表-->
实现点击鲁班七号或者他的头像，都可以跳转至该英雄的详细介绍页
<ul>
    <li><a href="https://pvp.qq.com/web201605/herodetail/112.shtml"><img src="https://game.gtimg.cn/images/yxzj/img201606/heroimg/112/112.jpg" alt="">鲁班七号</a></li>
    <li>狄仁杰</li>
    <li>安琪拉</li>
    <li>貂蝉</li>
</ul>
<!--有序列表-->
<ol>
    <li>后裔</li>
    <li>伽罗</li>
    <li>米莱迪</li>
</ol>
<!--div标签是一个容器，常用于div+css现代网页布局，非常常用，特点，无色无味，独占一行-->
<div>爬虫的学习先要了解网页标签的结构</div>
<div>王者荣耀英雄池</div>
<div>
    <p>哈哈哈啊哈哈哈</p>
<!--    a标签用于链接-->
    <a href="https://www.baidu.com">点击跳转至百度</a>
</div>


<!--src 和 alt 是img 标签的属性 . 在路径表达式里表示当前文件夹
/ 用于分割文件夹 alt是图片加载不出来时显示的文本-->
<!--加载本地图片-->
<img src="./image/china.jpg" alt="图片不见了">
<!--加载服务器图片-->
<img src="https://n.sinaimg.cn/news/transform/360/w680h480/20191024/715d-ihmipqw0086368.jpg" alt="">
</body>
</html>

显示效果

页面显示