销售员实战（1）－－会刊网站爬虫

作者: 日月山人 | 来源:发表于2015-06-14 10:28 被阅读99次

销售员实战（1）－－会刊网站爬虫
基于python的Scrapy爬虫框架实战
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集
Python网络爬虫实战之六：静态网页爬取案例实战
Python网络爬虫实战之二：环境部署、基础语法、文件操作

销售最重要的就是数据，数据一般来源于网站，b2b, 还有一些会展的会刊。
这里要学习的，就是beautifulSoup网站，一段段小小的代码，5分钟可以帮你节约输入六个小时。
首先看看代码，

       __author__ = 'lixiang'
      #coding:utf-8
      from bs4 import BeautifulSoup
     import urllib2
     import re
     from openpyxl import Workbook

     urls = ['','','']  #网站保密
    links = []
    for url in urls:

    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    source = response.read()
    response.close()

    soup = BeautifulSoup(source)
    urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
    number = len(urlLink)
    for numbers in range(number):
    links.append(urlLink[numbers]['href'])
    count = 2
    wb = Workbook()
     ws =wb.active

      for url in links:
            thtext=[]
             tdtext=[]
             text=[]
             text1=[]
              request = urllib2.Request(url)
              response = urllib2.urlopen(request)

               source=response.read()
               response.close()
               soup =BeautifulSoup(source)
               thtext = soup.find_all("th")
              tdtext = soup.find_all("td")
             length = len(thtext)
         for i in range(length):
                a = thtext[i].string
                text.append(a)
         for j in range(length):
              try:
                    b = tdtext[j].string.lstrip()
             except AttributeError:
                   b = tdtext[j].string

           text1.append(b)

         print text1[1]

       if count >1 :
             ws.append([text[i]for i in range(length)])
             count = count -1
       else:
            pass
       ws.append([text1[j]for j in range(length)])
       wb.save('文件名.xlsx')

以上代码，比较满意的是，可以爬数据了，但是有几个问题，如何让源代码可读性，比如是否可以实现类。以及多线程加快爬虫速度。

这是下一次迭代的事情。

感谢互联网，感谢知识，这就是效率吧。

网友评论

本文标题：销售员实战（1）－－会刊网站爬虫

本文链接：https://www.haomeiwen.com/subject/tiojqttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

销售员实战（1）－－会刊网站爬虫

相关文章

销售员实战（1）－－会刊网站爬虫

基于python的Scrapy爬虫框架实战

Python网络爬虫实战之十四：Scrapy结合scrapy-s

Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

Python网络爬虫实战之八：动态网页爬取案例实战 Seleni

Python网络爬虫实战之九：Selenium进阶操作与爬取京东

Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集

Python网络爬虫实战之六：静态网页爬取案例实战

Python网络爬虫实战之二：环境部署、基础语法、文件操作

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

销售员实战 （1）－－会刊网站爬虫

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

销售员实战（1）－－会刊网站爬虫