美文网首页
销售员实战 (1)--会刊网站爬虫

销售员实战 (1)--会刊网站爬虫

作者: 日月山人 | 来源:发表于2015-06-14 10:28 被阅读99次

销售最重要的就是数据 ,数据一般来源于网站,b2b, 还有一些会展的会刊。
这里要学习的,就是beautifulSoup网站, 一段段小小的代码,5分钟可以帮你节约输入六个小时。
首先看看代码,

       __author__ = 'lixiang'
      #coding:utf-8
      from bs4 import BeautifulSoup
     import urllib2
     import re
     from openpyxl import Workbook

     urls = ['','','']  #网站保密
    links = []
    for url in urls:

    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    source = response.read()
    response.close()

    soup = BeautifulSoup(source)
    urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
    number = len(urlLink)
    for numbers in range(number):
    links.append(urlLink[numbers]['href'])
    count = 2
    wb = Workbook()
     ws =wb.active

      for url in links:
            thtext=[]
             tdtext=[]
             text=[]
             text1=[]
              request = urllib2.Request(url)
              response = urllib2.urlopen(request)

               source=response.read()
               response.close()
               soup =BeautifulSoup(source)
               thtext = soup.find_all("th")
              tdtext = soup.find_all("td")
             length = len(thtext)
         for i in range(length):
                a = thtext[i].string
                text.append(a)
         for j in range(length):
              try:
                    b = tdtext[j].string.lstrip()
             except AttributeError:
                   b = tdtext[j].string

           text1.append(b)

         print text1[1]

       if count >1 :
             ws.append([text[i]for i in range(length)])
             count = count -1
       else:
            pass
       ws.append([text1[j]for j in range(length)])
       wb.save('文件名.xlsx')

以上代码,比较满意的是,可以爬数据了,但是有几个问题, 如何让源代码可读性,比如是否可以实现类。 以及多线程加快爬虫速度。

这是下一次迭代的事情。

感谢互联网,感谢知识,这就是效率吧。

相关文章

网友评论

      本文标题:销售员实战 (1)--会刊网站爬虫

      本文链接:https://www.haomeiwen.com/subject/tiojqttx.html