美文网首页
0008-HTML提出出正文

0008-HTML提出出正文

作者: gogoforit | 来源:发表于2017-08-17 19:00 被阅读0次

代码

import requests
import re


def request_get(url):
    response = requests.get(url)
    response.encoding = 'gb2312'   # 中文乱码处理
    text = response.text
    re_handle(text)


def re_handle(text):
    text = re.findall(r'<div id="twgg" class="gg">.*<p>\s+(.*?)</p>', text, re.S)[0]  # 跨行 re.S
    text = re.sub('<.*?>', '', text)
    text = re.sub('\s+', '', text)
    print_text(text)


def print_text(text):
    print(text)

if __name__ == '__main__':
    url = 'http://www.jjcom/jjart/412827.html'
    request_get(url)

新知识

requests.get中文乱码,指定编码格式

response = requests.get(url)
response.encoding = 'gb2312'
text = response.text

正则跨行匹配,要加re.S

text = re.findall(r'<div id="twgg" class="gg">.*<p>\s+(.*?)</p>', text, re.S)[0]  # 跨行 re.S

相关文章

  • 0008-HTML提出出正文

    代码 新知识 requests.get中文乱码,指定编码格式 正则跨行匹配,要加re.S

  • 高考作文太难难难难难难难难难了

    我写不出出出出出出出出出! 完结。 并不! 今天全国高考第一天,来凑热闹。以全国卷开个脑洞。 全国丙卷(三):我的...

  • 出出汗

    都快半夜十一点了,才有机会看看简书,发现一位基本已经退出简书的朋友,给我连点五个赞。看来还没忘了我,着实让我挺...

  • 出出汗

    流水不腐,户枢不蠹。 坚持一周两到三次,跑步三到五公里的习惯,暂停了两周多了。 不出意外的,不知是新冠后遗症还是不...

  • 2019-01-06

    【标题】想要通过读书成功进阶的建议【字数】650 【正文】 改变自身的处境提...

  • 2019-03-24

    【章节标题】《牛人创作课(基础版)》 【正文字数】734 【正文标题】我就是这么个牛人 有一个姑娘,她参加了一个提...

  • 付出出孝子

    很多人说寒门出孝子,那是50 60年代的年轻人的生活现实。但是这句话在今天不管用了,曾经看到一篇文章“寒门难处孝子...

  • 付出出孝子

    尊敬的刘珅宏导师宋姜华导师亲爱的家人们:晚上好 今日分享:感恩导师!感恩生命中的贵人。 办公室里有位老师说...

  • 坚持出出汗

    每天坚持适度的运动出汗,对人体的健康是很有好处的,具体如下: 1、适度的运动对人体心肺功能的改善,骨骼、肌肉的锻炼...

  • 深度工作

    0925 DAY 9 《深度工作》 正文字数:674 「专注做一件事带来的成果」 格兰特有两件成就值得我们来提一提...

网友评论

      本文标题:0008-HTML提出出正文

      本文链接:https://www.haomeiwen.com/subject/mppnrxtx.html