机器学习如何为业务赋能

作者: 一猿小讲 | 来源:发表于2019-07-02 22:35 被阅读0次

机器学习如何为业务赋能
关于机器学习，你需要知道的三件事！
“赋能”究竟是什么？
2019-05-07 品牌的策划
如何为自己赋能
【2019.07.21】何为赋能团队？
什么是好组织？
防范协作孤岛化（7）：信息化+项目管理
如何做一个领导者
【高效运营*第五期】-高效赋能2022-05-12

01. 聊啥

Python + ?（带你尝甜点）

前段时间咱们聊过一次 Python，不知道大家是否还有印象，再稍微提一提。

Python 是一种胶水语言，可以粘很多家伙，例如：Python + 网站开发、Python + 自动化测试、Python + 自动化运维、Python + AI、Python + 数据分析 ... ...

一眼看上去 Python 确实能干很多，但是掌握 Python 固然重要，往往最重要的还是如何掌握 Python + 后面的家伙，如果只会 Python，那么也就只能写点小工具，小打小闹、满足一下自己一时的求知欲而已。

AI 为业务赋能的实践（带你吃大餐）

从事金融的，尤其是做过金融风控的都知道，如果能提前定位贷款客户是否为坏客户？如果能提前预测贷款客户下个月还款是否会逾期？那么将会把风险降低，平台也止损。

面对诸如此类的业务场景，机器学习能做什么呢？

其实近期我一直在摸索，用机器学习去解决业务场景，小有成果。下面简单总结一下摸索的过程，我自己也做个总结，同时也预防你们掉坑，顺道也给聪明的小白们，填补填补大脑认知的空白。

吃个核桃，坐稳，扶好，我们开始。

02. 开聊

站在高处看，一览无余

结合近期的亲自实践，简单画了个图，主要分五大步完成信贷逾期风控模型。

数据处理。主要是获取完成信贷逾期风控模型，所需要的表对应的数据，实践中全部保存成 csv 文件；然后进行单个表数据清洗操作，去除重复、没有意义的字段，清洗完成后存储为一系列的 xx_clean.csv 文件。

数据合并。主要是采用 python 提供的 pandas 来完成一系列的 xx_clean.csv 的 join 关联合并，形成一张数据表，存储为xx_merge.csv 文件，并针对关联之后的文件去除重复的字段。

特征处理。这一步应该是最难的，因为需要靠经验值来筛选哪些字段进行参与模型训练，如果有经验的人士，筛选出特征字段，那么接下来就进行特征字段的缺失值、异常值处理；然后优先按照最优分箱进行数据分箱，如果最优的分的不够理想，那么就选择等距进行分箱（看不懂没关系，下次再提这个词，知道在一猿小讲听过就算成功）。

模型训练。首先把数据按照三、七分成测试集、训练集，接着把数据集代入模型去训练，为了找出最优模型，实践的时候把所有模型都跑了一下。

模型评估。针对模型跑出的结果进行评估，为了让产品以及 BOSS 一眼能看懂，采用 matplotlib.pyplot 进行画图。

用到了哪些技术

Pandas 是 Python 的一个数据分析包。在项目中主要用于读写 csv 文件；两个DataFrame之间的合并、分组等等。其实用起来，类似 SQL 的操作，但是用起来超级简单，功能却比较强大、效果超级震撼。如果你有数据相关的操作，不妨拿去一用。

Sklearn 是机器学习中常用的第三方模块，对常用的机器学习方法进行了高级封装，能够让我们跳出数学的梦魇进行机器学习实践，大家都可以选择它作为入门的跳板。

NumPy 是 Python 语言的一个扩展程序库，提供强大的N维数组及相关操作的库。

Matplotlib 是 Python 的绘图库，可以说分分钟画出高大尚的图，让你的实现结果不单调，更直观的分析。如果你平时有画图的场景需求，不妨也尝试一下，因为之前的监控项目也是用这个画的，确实也很强大的。

一切技术都是纸老虎，打破纸老虎的方式莫过于亲身实践。

如果上面的都没有看懂，也没有跟上，一切都没有关系，因为下面我将带你们一起“入门”机器学习。

03. 带你入门（鸢尾花）

“鸢” 这个字怎么读（🤭）？

鸢尾花可以被分为 setosa、versicolor、virginica 三个品种，现在跟着我的思路，一步一步来实现：输入特定数据判定花是属于哪一类。

#第一步：获取数据

from sklearn.datasets import load_iris

iris_data = load_iris()

#第二步：拆分数据集

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(iris_data['data'],iris_data['target'], random_state=0)

#第三步：构建模型

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(x_train, y_train)

#第四步：模型训练评估，输出准确率

y_pred = knn.predict(x_test)

print("test set score:{:.2f}".format(knn.score(x_test, y_test)))

#第五步：预测,四个数据分别代表：花萼长度，花萼宽度，花瓣长度，花瓣宽度

newIRIS = [[4,1.0,2,1.0]]

pred = knn.predict(newIRIS)

print("predict target name: {}".format(iris_data['target_names'][pred]))

结果输出：

准确率为: 0.97

花的品种为: ['setosa']

到这，你们也一只脚迈进了机器学习的门槛，也不再是小白啦。其实细心的你们可以发现，python 代码其实也很简练，其实代码也不复杂，主要都是类库的使用，所以一切技术都是纸老虎，你们莫怕莫怕。

04. 写在最后

技术用啥语言实现不重要，重要的是思想、重要的是思想、重要的是思想（重要的事说三遍）。

还是那句话：技术不要逐个深入，但是要了解。尤其是从事技术管理者，在决策技术实现方案的时候肯定会有大帮助。

如果你是 python 小白，也不用惧怕，偶尔跳出日常忙碌的系统，站在系统之外，了解一下新思想，也未尝不可。

最后如果你也从事相关的工作，不妨按照实现思路落地一下，说不定领导会很喜欢，升职加薪指日可待。

人工智能时代，终身学习也是必然的，只要不停下学习的脚步，只要勤浇水，梦想终会长大。

欢迎关注微信公众号“一猿小讲”了解更多精彩分享。

网友评论

工作生活

本文标题：机器学习如何为业务赋能

本文链接：https://www.haomeiwen.com/subject/ghexhctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！