美文网首页
python笔记12.06

python笔记12.06

作者: 皮皮鲁耍大刀 | 来源:发表于2019-12-06 18:30 被阅读0次

    已经这么多天没有更新了吗!时间跑的可真快;闲来无事,研究下如何用python爬东西,感觉很明显这是个很坑的东西,不过了解下也没啥问题

    爬虫基本原理(我理解的):

    通过python包把网页内容扒下来,然后进行解析并为爬取者所用的过程

    1.爬谁

    想好这个问题的关键是:爬虫本身不违法,爬什么有可能违法,毕竟我刚兴致勃勃的看完一篇入门文章后,贴心的cdsn马上在文章底部推送了下面这个文章


    劝退型推送

    至于说到底爬什么违法,这个问下学法律的同学就知道了。

    2.用啥爬

    作为纯小白,基本只是照抄了下某文章(点击传送),附我抄写的代码:

    import requests        #导入requests包
    import re
    import lxml
    from bs4 import BeautifulSoup #解析器
    url = 'https://bj.ke.com/ershoufang'
    #headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
    strhtml = requests.get(url)        #Get方式获取网页数据
    soup=BeautifulSoup(strhtml.text,'lxml')   #这里有个坑,文件格式不加引号(也可能这里是个方法,不是文件)
    k1=('#beike > div.sellListPage > div.content > div.leftContent > div:nth-child(4) > ul > li > div > div.title > a').replace(' ',"")
    data=soup.select(k1)
    print(data)
    rs_1=[]
    for item in data:
        result={
            'title':item.get_text(),
            'link':item.get('href')
        }
        rs_1.append(result)
    import pandas as pd
    import matplotlib.pyplot as plt
    rs_2=pd.DataFrame(rs_1)
    rs_2.rename(columns={'title':'标题','link':'超链接'},inplace=True)
    rs_2.style
    

    基本思路

    1. 查看网页数据:google浏览器右键使用:


      • 知识点:可以在需要获取的内容右击-检查,可以看到此内容对应的源码
    2. 使用requests 加载网页内容
    3. 使用soupbeautiful 解析网页内容
      +坑点:需要加载lxml模块才能正常解析,可能你需要这个文章帮忙python3.7安装lxml
    4. 然后我就没继续看了.....

    相关文章

      网友评论

          本文标题:python笔记12.06

          本文链接:https://www.haomeiwen.com/subject/qabegctx.html