实习

作者: 韩其凯 | 来源:发表于2022-03-02 11:43 被阅读0次

入职第二天

用爬虫爬取网站音频数据

昨天是 入职第一天,晚上要下载数据,又玩了一会,有点累,没有写总结,今天上班的时候摸摸鱼,补上。

现在小公司都不带实习生的吗,上来就让干活。。。。有个声音的项目比较紧,所以第一天的任务是给我一个网站,搜集建筑工地的各种声音。幸好之前学过一些爬虫,用爬虫技术批量下载了建筑施工的一批数据,大约有14000多条,4.5G左右。

分享一下自己是如何做的:

用了最原始的爬虫技术:
# coding : utf-8
import socket
import re
import os
import ssl
from urllib.request import urlopen, Request, urlretrieve

socket.setdefaulttimeout(100)
ssl._create_default_https_context = ssl._create_unverified_context
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}


def create_file(key_words):
    if os.path.isdir(key_words):
        pass
    else:
        os.mkdir(key_words)


def getHtml(url):
    page = urlopen(url)
    html = page.read().decode('utf-8')
    return html


def getPage(html):
    pat = '''title="Last Page">(.*?)</a></li><p class="number_of_results">'''
    page_list = re.compile(pat).findall(html)
    return int(page_list[0])


def getVoice(html):
    x = 0
    ls = []
    pat = '''<a class="mp3_file" href="(.*?)" title="mp3 file">'''
    voicelist = re.compile(pat).findall(html)
    for voiceurl in voicelist:
        x += 1
        voiceurl = 'https://freesound.org' + voiceurl
        ls.append(voiceurl)
    return ls


def downloadvoice(url_list, key_words, count):
    x = count
    for i in url_list:
        try:
            urlretrieve(i, key_words+'/%s.mp3' % x)
            print("音频%s下载成功" % x)
            x += 1
        except:
            print("音频%s下载失败" % x)
            x += 1


if __name__ == '__main__':
    ls = []
    key_words = "mechanical_engine"
    create_file(key_words)
    html = getHtml('https://freesound.org/search/?q=' + key_words + '&page=1')
    page_number = getPage(html)
    print(page_number)
    for i in range(1, page_number):
        html = getHtml('https://freesound.org/search/?q=' + key_words + '&page=' + str(i))
        #page_number = getPage(html)
        #ls = getVoice(html, page_number)
        ls = getVoice(html)
        #print(ls)
        downloadvoice(ls, key_words, i * 15)

昨天用自己电脑跑了一夜,发现有重复的。。。无语,自己太菜了。

今天只能整改了。

相关文章

  • 护理实习

    护理实习护理实习护理实习护理实习护理实习护理实习护理实习护理实习护理实习护理实习实习实习学习操作实习实习实习

  • PwC Consulting Internship

    文章预览 实习工作 实习生活 Partner面试 一、实习工作 1.实习项目简介 实习第一天,所有实习生在offi...

  • 在芬兰找实习/工作,你最好知道...

    实习 这边的实习主要是分为平时的实习和寒暑假的实习。下面会分别介绍这两种实习。 平时的实习就是parttime j...

  • 人生实习 实习人生

    一个人一段人生 工作需要实习人生也需要实习 从懵懵懂懂到慢慢适应实习的过程常常伴随苦乐 每个人都在急切期盼着转正浮...

  • 实习报告

    目录 一、实习起止日期 二、实习主要部门 三、实习主要内容 四、实习感想与体会 五、实习收获和建议 六、参考文献 ...

  • 2018-10-15

    实习了 实习不让喝酒

  • 最后/第一节课

    前提:顶岗实习 选择了考研的道路,在实习抉择前夕改动了实习的方向,原本待定中的东莞实习最后还是没去,改为了顶岗实习...

  • 实习

    2018年3月19日 实习第一天

  • 实习

    今天实习结束了,一周的实习转眼就过完了,这周我们选择的是在郑州实习,有三天的时间一直在培训,通过这次实习也明白了以...

  • 实习?

    这么多天了,我想说一说: 孩子,无知不是你无理取闹的理由; 游客,门票不是你盛气凌人的资本; 员工们,这只是你们的...

网友评论

      本文标题:实习

      本文链接:https://www.haomeiwen.com/subject/lgvsrrtx.html