python第四天

作者: code与有荣焉 | 来源:发表于2019-10-24 19:09 被阅读0次

匿名函数补充

我们见过的复杂排序形式
[{}, {}, {}]
[(), (), ()] 一般都是通过字典转化过来的
示例1

l1 = [{'name': '张三', 'grade': 56},
      {'name': '张三', 'grade': 90},
      {'name': '张三', 'grade': 6}]
# 按照成绩进行排序
def sort_by(w):  # w这里相当于里面的字典
    return w['grade']
l1.sort(key= sort_by)
# 等价于
l1.sort(key=lambda w:w['grade'])
print(l1)

示例2

d = {'煎饼果子': 90, '蛋炒饭': 56, '大馅水饺': 4}
# 转化成列表
# print(d.items())
# d_list = list(d)
# print(d_list) # ['煎饼果子', '蛋炒饭', '大馅水饺']
# d_list=list(d.items())
# print(d_list)
l2 = [('煎饼果子', 90), ('蛋炒饭', 56), ('大馅水饺', 4)]
# 排序
l2.sort(key=lambda x: x[1]) # x这里相当于里面的元组
print(l2)

小结案例:三国人物top10分析(补充)

逻辑引导:一般有一堆数据,要分成有用的数据counts,和没用的数据excludes,方便进行管理。

import jieba
import imageio
from wordcloud import WordCloud
# 读取文件
mask = imageio.imread('china.jpg')
with open('novel/threekingdom.txt', 'r', encoding='UTF-8') as f:
    data = f.read()
    # 分词
    words_list = jieba.lcut(data)
    print(words_list)
    print(type(words_list)) # <class 'list'>

    # 构建一个集合,定义无关词   ,用集合因为可以去重
    excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "丞相",
                "商议", "如何", "主公", "军士", "军马", "左右", "次日", "引兵",
                "大喜", "天下", "东吴", "于是", "今日", "不敢", "魏兵", "陛下",
                "都督", "人马", "不知", "孔明曰", "玄德曰", "刘备", "云长"}
                # , ""
    #构建一个容器,存储我们要的数据
    #{"夏侯渊":34,"害怕":33...}\
    counts = {}
    print(type(counts)) # <class 'dict'>
    # 遍历wordlist 目标是筛选出人名
    for word in words_list:
        # print(word)
        if len(word) <= 1:
            # 过滤无关词语即可
            continue
        else:
            # 向字典counts里更新值
            # counts[word] = 字典中原来该词出现的次数 + 1
            # counts[word] = counts[word] + 1
            # counts["正文"] = count["正文"] + 1
            counts[word] = counts.get(word, 0) + 1
    # print(counts)

    # 指向同一个词的人进行合并 , 记得把合并的词变为无关词,放到excludes中
    counts['孔明'] = counts['孔明'] + counts['孔明曰']
    counts['玄德'] = counts['玄德'] + counts['玄德曰'] + counts['刘备']
    counts['关公'] = counts['关公'] + counts['云长']

    # 删除无关的词语
    for word in excludes:
        del counts[word]

    # 排序筛选
    # 把字典转化成列表[(),()]  [{}]
    items = list(counts.items())
    print(items)
    # 按照词频次数进行排序
    items.sort(key=lambda x: x[1], reverse=True)
    print(items)
    # 显示出现词语前10的词

    role_list = []
    # role_list = ['孔明','孔明','孔明','',] # 生成的词云词语频次越多显示的越大,所以需要有这个列表
    for i in range(10):
        # 将返回的数据拆开,拆包
        role, count = items[i]
        print(role, count)
        # i 临时变量如果不需要的话可以写成 _
        # 优点是让读代码的人能够清晰的知道此处不需要使用 i
        for _ in range(count):
            role_list.append(role)

    print(role_list)
    # 将列表变成字符串
    # text = "孔明 孔明 孔明 ......刘备 刘备 刘备 曹操 曹操"
    text = " ".join(role_list)
    print(text)
    # 展示

    WordCloud(
        background_color='white',
        mask=mask,
        font_path='msyh.ttc',
        # 是否包含两个词的搭配 设置为False即可
        collocations=False
    ).generate(text).to_file('三国人物前十展示.png')

生成词云


生成词云

爬虫

爬虫

爬虫需要的技术栈

搜索引擎的本质其实是爬虫

  • 网页知识、浏览器、app爬虫
  • 基础爬虫模块:requests,lxml,beautifulSoup,正则表达式(其中requests,lxml简单易学常用)
  • 爬虫框架:scrapy爬虫框架、mongodb等nosql数据库
浏览器
  1. HTML:超文本标记语言,作用:网站的结构体、骨架,特点:以标签形式存在,大多数是以标签对形式存在。
  2. CSS:层叠样式表,作用:网站的美化。
  3. JavaScript:作用:网站的动态。javascript是解释型语言。(Ajax很有用)
    解释型语言:逐行解释 python
    编译型语言:先编译后执行 c
html

查询技术文档网址 :https://www.w3school.com.cn/
png与jpg区别:png可以透明

<!DOCTYPE html>  <!--这里的意思是‘注意以下是HTML文档’-->
<html lang="en">
<head>
    <meta charset="UTF-8">  <!--<meta> 标签提供关于 HTML 文档的元数据。它不会显示在页面上,
但是对于机器是可读的。可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),
或其他 web 服务。-->
    <title>Title</title>
</head>
<body>
<h1>欢迎来到王者荣耀</h1>
<!--h1 标题标签,和我们学的markdown中的#是一个意思-->
<h2>欢迎来到王者荣耀</h2>
<p>阿萨德积分拉丝看得<br/>见拉萨的会计法</p>
<!--p 段落-->
<hr width="200">
<!--hr 水平标签-->

<!--<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>-->
<!--1.标签可以拥有多个属性,必须写在开始标签中,位于标签名后面。-->

<!--2.属性之间不分先后顺序,标签名与属性、属性与属性之间均以空格分开。-->

<!--3.任何标签的属性都有默认值,省略该属性则取默认值。-->

<!--采取  键值对 的格式   key="value"  的格式  -->

<!--无序列表-->
实现点击鲁班七号或者他的头像,都可以跳转至该英雄的详细介绍页
<ul>
    <li><a href="https://pvp.qq.com/web201605/herodetail/112.shtml"><img src="https://game.gtimg.cn/images/yxzj/img201606/heroimg/112/112.jpg" alt="">鲁班七号</a></li>
    <li>狄仁杰</li>
    <li>安琪拉</li>
    <li>貂蝉</li>
</ul>
<!--有序列表-->
<ol>
    <li>后裔</li>
    <li>伽罗</li>
    <li>米莱迪</li>
</ol>
<!--div标签是一个容器,常用于div+css现代网页布局,非常常用,特点,无色无味,独占一行-->
<div>爬虫的学习先要了解网页标签的结构</div>
<div>王者荣耀英雄池</div>
<div>
    <p>哈哈哈啊哈哈哈</p>
<!--    a标签用于链接-->
    <a href="https://www.baidu.com">点击跳转至百度</a>
</div>


<!--src 和 alt 是img 标签的属性 . 在路径表达式里表示当前文件夹
/ 用于分割文件夹 alt是图片加载不出来时显示的文本-->
<!--加载本地图片-->
<img src="./image/china.jpg" alt="图片不见了">
<!--加载服务器图片-->
<img src="https://n.sinaimg.cn/news/transform/360/w680h480/20191024/715d-ihmipqw0086368.jpg" alt="">
</body>
</html>

显示效果


页面显示

相关文章

  • 2019-10-10

    深度学习第四天 python基础: 求导: 优...

  • python3操作数据库 借助pycharm快速连接并操作mys

    2017年9月19日,自学Python第四天 今天学到了Python的mysql相关知识,至于如何安装mysql我...

  • 你要偷偷的学Python,然后惊呆所有人(第五天)

    标题无意冒犯,就是觉得这个广告挺好玩的 前言 前期回顾:你要偷偷学Python,然后惊呆所有人(第四天) 在第四天...

  • 碎碎念-day73

    【1】步数8000 【2】实习第四天:被师父安排日志分析 学习python框架,火锅with室友 ...

  • 摔断脚与Python

    开始学习Python的第四天,忽然想到把学习过程记录下来,放在简书里与大家分享,希望也想学习Python的新手小白...

  • Python第四天

    之前第三天文件读取代码错误,已修改 fp=open("c.txt","a+") 第二个参数忘了加引号 一、Map ...

  • Python第四天

    赶在12点睡觉前打开简书,今天上午起床时有点懒散,有个声音说要不别去图书馆了,留在宿舍多好,今天周日,舍友都在看剧...

  • Python第四天

    爬虫基础知识 1)提取本地html文件 (1)步骤 ✏ 需要自已先写一个html(或者本地已有一个html文件)✏...

  • python第四天

    匿名函数补充 我们见过的复杂排序形式[{}, {}, {}][(), (), ()] 一般都是通过字典转化过来的示...

  • Python学习笔记-第4天: 函数和面向对象

    第四天 函数和面向对象 学习项目及练习源码地址:GitHub源码 函数 Python中的函数必须先定义才能调用。 ...

网友评论

    本文标题:python第四天

    本文链接:https://www.haomeiwen.com/subject/prkdvctx.html