菜鸟学Python:多线程的探究

作者: AdH | 来源:发表于2014-10-17 15:48 被阅读243次

    一、背景

    最近老爱提及背景这两个字,似乎没有背景就做不了事情。所以,工作上所有的事情都是有一个出发点,然后N多人会质疑你这个出发点对不对,出发点对了,也继续质疑你做的方法对不对…

    言归正传,这段代码的背景是这样的:有一个很长的文本,里面均是图片的url,想将每个图片的大小从http header上抓出来,写入到另外一个文件。简单来说就想得到3W多张图片各张图片的大小,然后再统计平均值。

    使用单线程下载,由于http访问的时候使用的是TCP三次握手,异常慢,可以利用多线程进行下载,亲测速度快了接近5倍。

    二、代码

    #!/usr/bin/python
    import os,sys,time,urllib2
    import threading
    
    def get(url):
      #使用urllib2的库对url进行访问
      r=urllib2.urlopen(url)
      #读取url的页面
      content=r.read()
      #从header获得content-length
      a=dict(r.headers).get('content-length', 0)
      output = open('/home/abc/httprequest_new/output.txt', 'a+')
      output.write(a+'\n')
      #print a
      #file(fname,'w').write(content)
    
    def main():
      urllist=open("/home/abc/httprequest.txt", "r")
      for i in urllist:
        url=i
        #name=url.replace('/','_')
        #print url,name
        while threading.activeCount()>300:
          time.sleep(0.1)
        t=threading.Thread(target=get,args=([url,]))
        t.start()
    
    
    if __name__=='__main__':
      main()
    

    总结

    使用Python的多线程不是很麻烦的事情,步骤:

    1. import threading
    2. t=threading.Thread(target=get,args=([url,]))
    3. t.start()

    作为Python初入门者,可以考虑多用这类的方法。

    相关文章

      网友评论

        本文标题:菜鸟学Python:多线程的探究

        本文链接:https://www.haomeiwen.com/subject/yvgutttx.html