美文网首页
0.1 数据采集

0.1 数据采集

作者: bigdata张凯翔 | 来源:发表于2023-08-13 17:38 被阅读0次

*请以上市公司久其软件(股票代码002279)为例,根据网页数据:https://money.finance.sina.com.cn/corp/go.php/vFD_ProfitStatement/stockid/002279/ctrl/2022/displaytype/4.phtml,编写Python程序实现抓取,将抓取结果保存为json文件并对采集到的数据进行预处理,并完成以下需求:
好的,以下是一个使用Python实现抓取和预处理的示例程序:

import requests
import json
from bs4 import BeautifulSoup
 # 发起网络请求获取网页内容
url = "https://money.finance.sina.com.cn/corp/go.php/vFD_ProfitStatement/stockid/002279/ctrl/2022/displaytype/4.phtml"
response = requests.get(url)
html_content = response.content
 # 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')
 # 找到数据所在的表格
table = soup.find('table', class_='tab01')
 # 定义一个空的列表来保存抓取到的数据
data = []
 # 遍历表格的每一行
for row in table.find_all('tr'):
    # 定义一个空的字典来保存每一行的数据
    row_data = {}
    # 获取表格中每个单元格的数据
    cells = row.find_all('td')
    if len(cells) == 5:
        row_data['年份'] = cells[0].text.strip()
        row_data['营业收入'] = cells[1].text.strip()
        row_data['营业利润'] = cells[2].text.strip()
        row_data['净利润'] = cells[3].text.strip()
        row_data['每股收益'] = cells[4].text.strip()
        # 将每一行的数据添加到列表中
        data.append(row_data)
 # 将抓取结果保存为json文件
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)
 # 对采集到的数据进行预处理
# 这里可以根据需要进行数据清洗、转换等操作
 print("数据抓取和预处理完成!")

请确保您已经安装了 requestsbeautifulsoup4 等必要的Python库。运行以上代码后,会在当前目录下生成一个名为 data.json 的JSON文件,其中包含了从网页抓取到的数据。您可以根据需要对采集到的数据进行进一步的处理和分析。

相关文章

  • 数据仓库搭建

    全流程:数据采集->数据存储->数据分析->数据呈现 数据采集 首先我们从数据采集来说,数据采集的数据主要来自于日...

  • 产品要懂点数据分析(三)- 分析过程

    数据采集 数据分析的对象就是数据,通过数据采集来获得数据。数据采集在《产品要懂点数据分析(一)-数据采集和数据指标...

  • Python网络数据采集之图像识别与文字处理

    网络采集系列文章 Python网络数据采集之创建爬虫Python网络数据采集之HTML解析Python网络数据采集...

  • 用数据驱动产品和运营 之 数据处理流程

    数据处理流程: 数据金字塔:数据采集——数据建模——数据分析 (一)数据采集 数据采集问题:不准确、不完备、不细致...

  • 第一章 总述

    大数据系统体系:数据采集、数据计算、数据服务、数据应用 一. 数据采集层: 1)web端日志采集技术方案:Aplu...

  • 大数据之数据采集

    大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用 几大层次。 在数据采集层,主要分为 日志采集 和 ...

  • 扩展json

    json 计划 0:一次性数据 计划 1:采集数据 计划 2:计数 采集数据字典 0:方法内部采集 采集数据字典 ...

  • 高屋建瓴 | 阿里巴巴大数据之路

    阿里巴巴数据平台总共分为四个基本层级: 数据采集层:数据采集包括日志采集和数据库数据同步两部分,其中日志采集包括:...

  • redis监控指标

    服务器系统数据采集 Redis Server数据采集 Redis响应时间数据采集 Redis监控Screen 一、...

  • 无线数据采集器快速实时地准确地将数据传输到服务器

    无线数据采集器基本介绍 无线数据采集器在市面上可以分为多种:无线条码数据采集器、无线IC卡数据采集器等等。无线数据...

网友评论

      本文标题:0.1 数据采集

      本文链接:https://www.haomeiwen.com/subject/cqbfmdtx.html