美文网首页
第一个简陋的爬虫

第一个简陋的爬虫

作者: 值得_e36c | 来源:发表于2018-11-08 16:43 被阅读0次

想要爬取的网址:二手手机论坛https://itbbs.pconline.com.cn/es/f240027.html

爬取内容:对市场上手机种类爬取以及进行流行程度分析

该论坛界面展示:

image.png

代码实现:

import requests
from bs4 import BeautifulSoup
import jieba
from collections import Counter
import pygal
import chardet

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print(r.encoding)
        return r.text
    except:
        return ""

def getImportantText(soup):
    taglist = soup.select('li > div > span > a[target="_blank"]')
    text = ""
    for i in taglist:
        text = text + i.string
    return text

def manageFirst(url):
    html = getHTMLText(url)
    soup = BeautifulSoup(html, "html.parser")
    text = getImportantText(soup)
    return text

def draw(text):
    phoneList = ['苹果', '华为', '荣耀', '魅族', '三星', '小米', 'vivo', 'oppo']
    jieba.load_userdict(phoneList)
    words = [x for x in jieba.cut(text) if len(x) >= 2]
    print(len(words))
    c = Counter(words).most_common(490)

    pie = pygal.Pie()
    for word in c:
        if word[0] in phoneList:
            print(word)
            pie.add(word[0], int(word[1]))
    pie.render_to_file("pie.svg")

def main():
    url = "https://itbbs.pconline.com.cn/es/f240027.html"
    text = manageFirst(url)
    url = "https://itbbs.pconline.com.cn/es/f240027_2.html"
    text2 = manageFirst(url)
    text = text + text2
    #print(len(text))
    draw(text)

main()

爬取结果展示:

image.png

相关文章

  • 第一个简陋的爬虫

    想要爬取的网址:二手手机论坛https://itbbs.pconline.com.cn/es/f240027.ht...

  • 简陋的分布式爬虫

    Ugly-Distributed-Crawler 建议先大概浏览一下项目结构 项目介绍 新手向,基于Redis构建...

  • Java爬虫:用java爬取小说

    Java也能做爬虫。 现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择, 下面给...

  • 第一个爬虫

    #第一个爬虫 --- 今天写了第一个爬虫,几点困难: 1. 开发环境设置: py3.5 vs py2.7,anac...

  • scrapy自定义Pipline

    第一个事mysql 同步Pipline,适用爬虫量小 异步mysql 的pipline, 适用爬虫量大。 自定义...

  • 河海大学教务系统成绩爬虫

    前两个月写好的爬虫,代码简陋得不行,只是发篇文章保存一下代码而已...... Tesseract识别模块 vcod...

  • 纯情

    “ 眼下世界里, 青草顶天而生, 爬虫昼追日, 夜逐月。 风是透明的河流, 雨是冰凉的流星。 只有我最简陋,最局...

  • 简陋

  • 简陋

    简陋代表成本低,不代表利润低。 小品牌要打拼上位,和大厂拼知名度是不可以的。能拼的只有质量和低价。

  • 简陋

    ——唐糖糖 过一个简陋的夜晚 星光散落的很随便 像这夜的黑一样 那么随便 吃一顿简陋的饭 和昨天一样的一...

网友评论

      本文标题:第一个简陋的爬虫

      本文链接:https://www.haomeiwen.com/subject/sabwxqtx.html