美文网首页
销售员实战 (1)--会刊网站爬虫

销售员实战 (1)--会刊网站爬虫

作者: 日月山人 | 来源:发表于2015-06-14 10:28 被阅读99次

    销售最重要的就是数据 ,数据一般来源于网站,b2b, 还有一些会展的会刊。
    这里要学习的,就是beautifulSoup网站, 一段段小小的代码,5分钟可以帮你节约输入六个小时。
    首先看看代码,

           __author__ = 'lixiang'
          #coding:utf-8
          from bs4 import BeautifulSoup
         import urllib2
         import re
         from openpyxl import Workbook
    
         urls = ['','','']  #网站保密
        links = []
        for url in urls:
    
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        source = response.read()
        response.close()
    
        soup = BeautifulSoup(source)
        urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
        number = len(urlLink)
        for numbers in range(number):
        links.append(urlLink[numbers]['href'])
        count = 2
        wb = Workbook()
         ws =wb.active
    
          for url in links:
                thtext=[]
                 tdtext=[]
                 text=[]
                 text1=[]
                  request = urllib2.Request(url)
                  response = urllib2.urlopen(request)
    
                   source=response.read()
                   response.close()
                   soup =BeautifulSoup(source)
                   thtext = soup.find_all("th")
                  tdtext = soup.find_all("td")
                 length = len(thtext)
             for i in range(length):
                    a = thtext[i].string
                    text.append(a)
             for j in range(length):
                  try:
                        b = tdtext[j].string.lstrip()
                 except AttributeError:
                       b = tdtext[j].string
    
               text1.append(b)
    
             print text1[1]
    
           if count >1 :
                 ws.append([text[i]for i in range(length)])
                 count = count -1
           else:
                pass
           ws.append([text1[j]for j in range(length)])
           wb.save('文件名.xlsx')
    

    以上代码,比较满意的是,可以爬数据了,但是有几个问题, 如何让源代码可读性,比如是否可以实现类。 以及多线程加快爬虫速度。

    这是下一次迭代的事情。

    感谢互联网,感谢知识,这就是效率吧。

    相关文章

      网友评论

          本文标题:销售员实战 (1)--会刊网站爬虫

          本文链接:https://www.haomeiwen.com/subject/tiojqttx.html