怎么解决人工智能与数据质量难题？

作者: CPDA数据分析师培训 | 来源:发表于2020-11-11 09:52 被阅读0次

怎么解决人工智能与数据质量难题？
区块链+实体经济新年论坛暨盈链科技产品发布会
华为AI音箱评测：垃圾分类小能手，拥有两大独家杀手锏功能
科技企业的幕后推手，人工智能究竟有何魔力
云集品线上线下合力为中小企业解决难题
Apache Pulsar 在腾讯 Angel PowerFL
想报考大数据、人工智能相关的专业？看这个
数据挖掘中常用的数据清洗方法
领导力
第二章数据

来源：CPDA数据分析师网 / 作者：数据君

数据质量一直是数据库和数据收集系统中的问题

事务数据库已经建立了确保数据质量的程序，但是ML引起了新的关注范围，数据错误的类型及其潜在后果与基于事务的系统所经历的错误不同，使用非常大的数据源，流数据，复杂数据和非结构化数据会增加质量问题，并且通过建模和培训引起了新的关注，ML在训练模型以及在模型运行时利用非常大的数据集。此数据可能会受到系统性偏见的影响，这可能会造成严重的准确性问题，并可能违反法律和社会规范，偏差可能不会立即显现出来，尤其是在模型使用不太明显可疑的训练数据时，算法，数据和结果取决于问题及其解决方案的定义。例如，如果数据仅包括男性受访者，则该模型只能得出确定性仅适用于男性的结果。对于少数族裔和可能嵌入数据中的其他重要区别特征也是如此。

CPDA数据分析师

偏见问题在机器学习界已得到很好的认识，但这只是冰山一角

在ML中，模型和数据质量通过使用训练数据而固有地联系在一起，算法可以被视为一种科学实验；如果选择了错误的数据，则实验可能无法产生足够的结果，除了偏见问题外，还需要使用非常大的数据集，这会导致更常见的问题，例如噪声，值丢失，离群值，分布不平衡，不一致，冗余，异构，及时性，数据重复和集成，在缺乏准备和对细节的关注的地方，编码问题会蔓延开来。

庞大的数据集可以通过编程方法进行筛选和处理

其中一些方法包括ML或其他基于AI的方法，但是即使在这些情况下，也很难确保不会出现系统性偏见或错误的问题定义，为了确保数据质量，必须检查算法并针对各种数据对它们进行训练，需要根据所需结果来理解算法和数据，模型的质量问题为机器学习和人工智能准备的数据的另一个问题是，需要在培训完成后创建静态模型以供实时使用，尽管AI在发现模式和为特定情况创建可行模型方面提供了极大的灵活性，但数据流中反映的条件变化可能导致另一种错误，可以实时处理数据，但是使用静态模型意味着即使数据流中的微小变化也会产生错误的结果，因此需要对结果进行连续监控，以确保不会由于数据更改而得出新的偏差或错误的结论。

另一个令人担忧的原因是算法，训练，数据质量和结果之间的相互作用

该算法本身可以包括固有的偏见的数据定义，或者训练中使用的数据可能无法反映要使用该系统的全局数据，当从与训练数据和模型的原始用途完全不同的区域收集数据时，这个问题变得更加复杂，为了解决数据质量问题，您必须确保培训数据和工作数据存储库都具有足够高的质量来处理手头的任务。这要求：

数据分析，包括数据特征，分布，来源和相关性

审查异常值，例外情况以及对于所考虑的业务条件而言可疑的所有内容，由主题专家提供的领域专业知识来解释意外的数据模式，以便不会丢失潜在的有效信息，并且潜在的无效信息不会影响结果文档：所使用的过程必须透明且可重复。数据质量参考存储是维护元数据和有效性规则的好方法，这应该使新算法的创建和调整更加容易，此外需要根据先前分析的规则和经验对处理管道进行连续验证，尽管随着数据的变化可能需要调整具体细节，但是每个业务将具有自己的一组域规则，需要使用这些规则来确定有效性。

需要一个数据质量团队和一套足够的工具来对机器学习和AI程序中使用的数据进行操作

考虑到数据的复杂性和域的独特性，每种情况可能会有很大不同，通常复杂数据和非结构化数据的使用越多，需要进行的评估就越仔细，随着数字化转型的进行，越来越多的企业迅速进入ML潮流，并创建更大，更复杂的数据流，但数据质量面临更大的困难。质量工具将继续发展以响应。