美文网首页python爬虫学习
自动获取百度搜索结果的前N页标题

自动获取百度搜索结果的前N页标题

作者: tonyemail_st | 来源:发表于2017-10-20 21:29 被阅读2次

    百度网页的自动搜索

    import urllib.request,re
    keywd="Python"
    titles = []
    for i in range(1,11):
        pagenum=(i-1)*10
        url="http://www.baidu.com/s?wd=" + keywd + "&pn=" + str(pagenum)
        data=urllib.request.urlopen(url).read().decode("utf-8")
        pat= 'data-tools=\'{"title":"(.*?)"'
        pat1="data-tools=\"{title:'(.*?)'"
        rst=re.compile(pat).findall(data)
        rst1=re.compile(pat1).findall(data)
        for j in rst:
            print(j)
        for z in rst1:
            print(z)
    
    

    相关文章

      网友评论

        本文标题:自动获取百度搜索结果的前N页标题

        本文链接:https://www.haomeiwen.com/subject/plxbuxtx.html