美文网首页
python笔记12.06

python笔记12.06

作者: 皮皮鲁耍大刀 | 来源:发表于2019-12-06 18:30 被阅读0次

已经这么多天没有更新了吗!时间跑的可真快;闲来无事,研究下如何用python爬东西,感觉很明显这是个很坑的东西,不过了解下也没啥问题

爬虫基本原理(我理解的):

通过python包把网页内容扒下来,然后进行解析并为爬取者所用的过程

1.爬谁

想好这个问题的关键是:爬虫本身不违法,爬什么有可能违法,毕竟我刚兴致勃勃的看完一篇入门文章后,贴心的cdsn马上在文章底部推送了下面这个文章


劝退型推送

至于说到底爬什么违法,这个问下学法律的同学就知道了。

2.用啥爬

作为纯小白,基本只是照抄了下某文章(点击传送),附我抄写的代码:

import requests        #导入requests包
import re
import lxml
from bs4 import BeautifulSoup #解析器
url = 'https://bj.ke.com/ershoufang'
#headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
strhtml = requests.get(url)        #Get方式获取网页数据
soup=BeautifulSoup(strhtml.text,'lxml')   #这里有个坑,文件格式不加引号(也可能这里是个方法,不是文件)
k1=('#beike > div.sellListPage > div.content > div.leftContent > div:nth-child(4) > ul > li > div > div.title > a').replace(' ',"")
data=soup.select(k1)
print(data)
rs_1=[]
for item in data:
    result={
        'title':item.get_text(),
        'link':item.get('href')
    }
    rs_1.append(result)
import pandas as pd
import matplotlib.pyplot as plt
rs_2=pd.DataFrame(rs_1)
rs_2.rename(columns={'title':'标题','link':'超链接'},inplace=True)
rs_2.style

基本思路

  1. 查看网页数据:google浏览器右键使用:


    • 知识点:可以在需要获取的内容右击-检查,可以看到此内容对应的源码
  2. 使用requests 加载网页内容
  3. 使用soupbeautiful 解析网页内容
    +坑点:需要加载lxml模块才能正常解析,可能你需要这个文章帮忙python3.7安装lxml
  4. 然后我就没继续看了.....

相关文章

  • python笔记12.06

    已经这么多天没有更新了吗!时间跑的可真快;闲来无事,研究下如何用python爬东西,感觉很明显这是个很坑的东西,不...

  • 肝移植

    12.06

  • (Linux)上课笔记 12.06

    课堂知识点 文件结构 1.普通文件:-2.目录文件:d3.链接文件:l4.管道文件:p5.设备文件:b6.字符文件...

  • 2017-12-08

    12.06心情低落 很受影响

  • 一个月

    负419(11.25~12.06)12天。

  • 12.06

    这一周是我们学校的评估周,各种事情都处于被检查和检查之中运行。在经历了上周从越南来到我们学校讲学的讲座和工作坊后,...

  • 12.06

    关注唐嫣很多年了,从夏家三千金开始。 那时候我还是一个即将中考的初中生,每天不想学习,总是想着看一集再看一集,就算...

  • 12.06

    落叶秋风萧索,残阳血染云霞 寒鸦几点渡苍梧。 梅花无处觅,尺素寄离人。 罗帐青纱失色,对窗日换星移。 何言洗手作羹...

  • 12.06

    冬天,好冷。

  • 12.06

    早上的沈阳天很蓝很蓝,想让你看看,这样你会有一天的好心情 宝贝告诉我,众里寻他千百度 那人却在警院变魔术 我的那个...

网友评论

      本文标题:python笔记12.06

      本文链接:https://www.haomeiwen.com/subject/qabegctx.html