美文网首页
2019-07-12 1小时入门爬虫

2019-07-12 1小时入门爬虫

作者: 年画儿 | 来源:发表于2019-07-12 11:33 被阅读0次

    爬虫难点:
    页面的访问 反爬
    数据库mongodb

    对个人的发展,聚焦点应该聚焦在数据分析 而不是爬虫上面

    网页 标签 元素和属性颜色不同
    <a> 超链接标签 href
    img scr 图片
    div 大块 span小块
    功能 js脚本实现的

    div = soup.find(‘div’, id = ‘info’)
    span = div.find(‘span’, class_ = ‘pl’)
    span.text  #字
    div.find(‘a’)[‘href’] #属性
    div.find(‘a’).attrs[‘href’] #属性
    

    dataframe 转换数据格式和排序

    df['点评数量'] = df['点评数量'].astype(np.int)
    df.sort_values(by = '点评数量', inplace = True, ascending=False)
    
    屏幕快照 2019-07-12 上午11.31.49.png
    屏幕快照 2019-07-12 上午10.46.08.png

    相关文章

      网友评论

          本文标题:2019-07-12 1小时入门爬虫

          本文链接:https://www.haomeiwen.com/subject/wqlekctx.html