机器学习是人工智能的核心。机器学习数据流水线是由若干个计算阶段组成的序列,每个阶段是一个转换模块或者估计模块。这些阶段会按顺序执行,输入数据在流水线中流经每个阶段时会被处理和转换。本文描述机器学习在光伏组串电流持续偏低故障预测过程中的应用。数据流水线如下图所示:

接下来介绍每个步骤的细节。
数据采集:从不同数据源采集光伏组串电流数据。实践经验表明,光伏组串电流数据规模是GB、TB甚至PB。数据源具有分布式、异构性(包括数据格式和存储介质)、易变性等特点。
特征工程:包括以下步骤。
(1)数据预处理:主要工作是数据清洗,数据清洗是流水线中的第一步,主要是要把输入数据转换成结构化数据,以方便后续的数据处理和预测性分析。由于原始数据总会存在各种各样的问题,例如数据不完整、数据不正确或不合法等,数据清洗过程采用不同的方法,包括补全默认值、数据格式转换等,对数据完成清洗任务。
(2)特征抽取:根据模型的需要,对清洗后的数据抽取有用特征,比如光伏组串电流显著特征是随着太阳辐射强度的变化而变化。
(3)特征转换:转化数据,使之成为有效的特征。一般采用标准化、归一化、特征的离散化等。
(4)特征选择:选择最适合模型的特征,一般采用方差选择法、相关系数法等选择最适合模型的特征。
模型训练:机器学习模型包括学习算法和模型。学习算法会从训练数据中发现光伏组串电流持续偏低模式,并生成输出模型。
模型验证:该环节包括模型评估和调整,以衡量用它来预测光伏组串电流持续偏低预测的有效性。
模型选择:分析光伏组串流水线数据,使用转换器和估计器选择适合参数。
模型部署:一旦选择了合适的模型,我们就可以开始部署,输入新数据并得到预测性的分析结果。
网友评论