美文网首页
爬虫程序(获取新闻网站的URL)2018-11-03

爬虫程序(获取新闻网站的URL)2018-11-03

作者: 画奴 | 来源:发表于2018-11-03 23:30 被阅读0次

import pymysql

import requests as re

from bs4 import BeautifulSoup

try:

    for i in range(1,389):#389

        url="http://by.cuc.edu.cn/zcyw/"+str(i)

        r=re.get(url)

        #print(r.text)

        soup = BeautifulSoup(r.text,'html.parser')

        title=soup.find_all('h3',attrs={'class','tit'})

        print(i)

        for t in title:

            newsurl=t.find_all('a')

            urllen=str(newsurl[0]).find('target')

            print(str(newsurl[0])[9:urllen-2])

            print(t.get_text())

except:

    print("error") 

相关文章

  • 爬虫程序(获取新闻网站的URL)2018-11-03

    import pymysql import requests as re from bs4 import Beau...

  • 爬虫基础知识点

    什么是爬虫 就是一段自动获取互联网信息的程序。 爬虫基本的运作流程 首先确定目标网站,分析目标url 根据url发...

  • 爬虫基础知识总结

    什么是爬虫 爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 爬虫的基本流程 分析网站,得到目标url 根据url...

  • 爬虫基础系列urllib——构造请求头(3)

    爬虫与反爬虫 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 反扒机制1 判断用户是否是浏...

  • 数据采集——python3.xpath.urllib[*]

    1.入门程序 爬虫采集数据,主要采集网站数据,通常情况下操作步骤如下:1)确定目标网站url地址2)对目标url地...

  • 爬虫笔记

    爬虫:请求网站并提取数据的自动化程序。 爬虫的基本流程:发起请求 --> 获取响应的内容 --> 解析内容 -->...

  • 爬虫第一天 - 总结

    什么是爬虫? 就是一段自动获取互联网数据的程序 ( 网络爬虫就是为其提供信息来源的程序 ),,,请求网站并提取...

  • Python简单爬虫图片

    利用Python进行简单的一些图片网站爬虫。 我们分为三部分来完成这个爬虫获取页数的url - 解析页面的HTLM...

  • 爬虫的基本原理

    什么是爬虫? 请求网站并提取数据的自动化程序 爬虫基本流程 发起请求(request) 获取响应内容(respon...

  • 爬虫

    什么是爬虫? 就是一段自动获取互联网数据的程序 ( 网络爬虫就是为其提供信息来源的程序 ),,,请求网站并提取数据...

网友评论

      本文标题:爬虫程序(获取新闻网站的URL)2018-11-03

      本文链接:https://www.haomeiwen.com/subject/jbilxqtx.html