美文网首页python爬虫学习
自动获取百度搜索结果的前N页标题

自动获取百度搜索结果的前N页标题

作者: tonyemail_st | 来源:发表于2017-10-20 21:29 被阅读2次

百度网页的自动搜索

import urllib.request,re
keywd="Python"
titles = []
for i in range(1,11):
    pagenum=(i-1)*10
    url="http://www.baidu.com/s?wd=" + keywd + "&pn=" + str(pagenum)
    data=urllib.request.urlopen(url).read().decode("utf-8")
    pat= 'data-tools=\'{"title":"(.*?)"'
    pat1="data-tools=\"{title:'(.*?)'"
    rst=re.compile(pat).findall(data)
    rst1=re.compile(pat1).findall(data)
    for j in rst:
        print(j)
    for z in rst1:
        print(z)

相关文章

网友评论

    本文标题:自动获取百度搜索结果的前N页标题

    本文链接:https://www.haomeiwen.com/subject/plxbuxtx.html