python第四天

作者: code与有荣焉 | 来源:发表于2019-10-24 19:09 被阅读0次

    匿名函数补充

    我们见过的复杂排序形式
    [{}, {}, {}]
    [(), (), ()] 一般都是通过字典转化过来的
    示例1

    l1 = [{'name': '张三', 'grade': 56},
          {'name': '张三', 'grade': 90},
          {'name': '张三', 'grade': 6}]
    # 按照成绩进行排序
    def sort_by(w):  # w这里相当于里面的字典
        return w['grade']
    l1.sort(key= sort_by)
    # 等价于
    l1.sort(key=lambda w:w['grade'])
    print(l1)
    

    示例2

    d = {'煎饼果子': 90, '蛋炒饭': 56, '大馅水饺': 4}
    # 转化成列表
    # print(d.items())
    # d_list = list(d)
    # print(d_list) # ['煎饼果子', '蛋炒饭', '大馅水饺']
    # d_list=list(d.items())
    # print(d_list)
    l2 = [('煎饼果子', 90), ('蛋炒饭', 56), ('大馅水饺', 4)]
    # 排序
    l2.sort(key=lambda x: x[1]) # x这里相当于里面的元组
    print(l2)
    

    小结案例:三国人物top10分析(补充)

    逻辑引导:一般有一堆数据,要分成有用的数据counts,和没用的数据excludes,方便进行管理。

    import jieba
    import imageio
    from wordcloud import WordCloud
    # 读取文件
    mask = imageio.imread('china.jpg')
    with open('novel/threekingdom.txt', 'r', encoding='UTF-8') as f:
        data = f.read()
        # 分词
        words_list = jieba.lcut(data)
        print(words_list)
        print(type(words_list)) # <class 'list'>
    
        # 构建一个集合,定义无关词   ,用集合因为可以去重
        excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "丞相",
                    "商议", "如何", "主公", "军士", "军马", "左右", "次日", "引兵",
                    "大喜", "天下", "东吴", "于是", "今日", "不敢", "魏兵", "陛下",
                    "都督", "人马", "不知", "孔明曰", "玄德曰", "刘备", "云长"}
                    # , ""
        #构建一个容器,存储我们要的数据
        #{"夏侯渊":34,"害怕":33...}\
        counts = {}
        print(type(counts)) # <class 'dict'>
        # 遍历wordlist 目标是筛选出人名
        for word in words_list:
            # print(word)
            if len(word) <= 1:
                # 过滤无关词语即可
                continue
            else:
                # 向字典counts里更新值
                # counts[word] = 字典中原来该词出现的次数 + 1
                # counts[word] = counts[word] + 1
                # counts["正文"] = count["正文"] + 1
                counts[word] = counts.get(word, 0) + 1
        # print(counts)
    
        # 指向同一个词的人进行合并 , 记得把合并的词变为无关词,放到excludes中
        counts['孔明'] = counts['孔明'] + counts['孔明曰']
        counts['玄德'] = counts['玄德'] + counts['玄德曰'] + counts['刘备']
        counts['关公'] = counts['关公'] + counts['云长']
    
        # 删除无关的词语
        for word in excludes:
            del counts[word]
    
        # 排序筛选
        # 把字典转化成列表[(),()]  [{}]
        items = list(counts.items())
        print(items)
        # 按照词频次数进行排序
        items.sort(key=lambda x: x[1], reverse=True)
        print(items)
        # 显示出现词语前10的词
    
        role_list = []
        # role_list = ['孔明','孔明','孔明','',] # 生成的词云词语频次越多显示的越大,所以需要有这个列表
        for i in range(10):
            # 将返回的数据拆开,拆包
            role, count = items[i]
            print(role, count)
            # i 临时变量如果不需要的话可以写成 _
            # 优点是让读代码的人能够清晰的知道此处不需要使用 i
            for _ in range(count):
                role_list.append(role)
    
        print(role_list)
        # 将列表变成字符串
        # text = "孔明 孔明 孔明 ......刘备 刘备 刘备 曹操 曹操"
        text = " ".join(role_list)
        print(text)
        # 展示
    
        WordCloud(
            background_color='white',
            mask=mask,
            font_path='msyh.ttc',
            # 是否包含两个词的搭配 设置为False即可
            collocations=False
        ).generate(text).to_file('三国人物前十展示.png')
    

    生成词云


    生成词云

    爬虫

    爬虫

    爬虫需要的技术栈

    搜索引擎的本质其实是爬虫

    • 网页知识、浏览器、app爬虫
    • 基础爬虫模块:requests,lxml,beautifulSoup,正则表达式(其中requests,lxml简单易学常用)
    • 爬虫框架:scrapy爬虫框架、mongodb等nosql数据库
    浏览器
    1. HTML:超文本标记语言,作用:网站的结构体、骨架,特点:以标签形式存在,大多数是以标签对形式存在。
    2. CSS:层叠样式表,作用:网站的美化。
    3. JavaScript:作用:网站的动态。javascript是解释型语言。(Ajax很有用)
      解释型语言:逐行解释 python
      编译型语言:先编译后执行 c
    html

    查询技术文档网址 :https://www.w3school.com.cn/
    png与jpg区别:png可以透明

    <!DOCTYPE html>  <!--这里的意思是‘注意以下是HTML文档’-->
    <html lang="en">
    <head>
        <meta charset="UTF-8">  <!--<meta> 标签提供关于 HTML 文档的元数据。它不会显示在页面上,
    但是对于机器是可读的。可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),
    或其他 web 服务。-->
        <title>Title</title>
    </head>
    <body>
    <h1>欢迎来到王者荣耀</h1>
    <!--h1 标题标签,和我们学的markdown中的#是一个意思-->
    <h2>欢迎来到王者荣耀</h2>
    <p>阿萨德积分拉丝看得<br/>见拉萨的会计法</p>
    <!--p 段落-->
    <hr width="200">
    <!--hr 水平标签-->
    
    <!--<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>-->
    <!--1.标签可以拥有多个属性,必须写在开始标签中,位于标签名后面。-->
    
    <!--2.属性之间不分先后顺序,标签名与属性、属性与属性之间均以空格分开。-->
    
    <!--3.任何标签的属性都有默认值,省略该属性则取默认值。-->
    
    <!--采取  键值对 的格式   key="value"  的格式  -->
    
    <!--无序列表-->
    实现点击鲁班七号或者他的头像,都可以跳转至该英雄的详细介绍页
    <ul>
        <li><a href="https://pvp.qq.com/web201605/herodetail/112.shtml"><img src="https://game.gtimg.cn/images/yxzj/img201606/heroimg/112/112.jpg" alt="">鲁班七号</a></li>
        <li>狄仁杰</li>
        <li>安琪拉</li>
        <li>貂蝉</li>
    </ul>
    <!--有序列表-->
    <ol>
        <li>后裔</li>
        <li>伽罗</li>
        <li>米莱迪</li>
    </ol>
    <!--div标签是一个容器,常用于div+css现代网页布局,非常常用,特点,无色无味,独占一行-->
    <div>爬虫的学习先要了解网页标签的结构</div>
    <div>王者荣耀英雄池</div>
    <div>
        <p>哈哈哈啊哈哈哈</p>
    <!--    a标签用于链接-->
        <a href="https://www.baidu.com">点击跳转至百度</a>
    </div>
    
    
    <!--src 和 alt 是img 标签的属性 . 在路径表达式里表示当前文件夹
    / 用于分割文件夹 alt是图片加载不出来时显示的文本-->
    <!--加载本地图片-->
    <img src="./image/china.jpg" alt="图片不见了">
    <!--加载服务器图片-->
    <img src="https://n.sinaimg.cn/news/transform/360/w680h480/20191024/715d-ihmipqw0086368.jpg" alt="">
    </body>
    </html>
    

    显示效果


    页面显示

    相关文章

      网友评论

        本文标题:python第四天

        本文链接:https://www.haomeiwen.com/subject/prkdvctx.html