银河Soho某网约车公司数据挖掘面试题

作者: 海天一树X | 来源:发表于2018-05-02 16:19 被阅读68次

1 决策树有哪几种算法

答：ID3、C4.5、Cart

2 Kmeans缺点

(1) 在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用；
(2) 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；
(3) 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；
(4) 该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的；
(5) 若簇中含有异常点，将导致均值偏离严重（即:对噪声和孤立点数据敏感）；
(6) 不适用于发现非凸形状的簇或者大小差别很大的簇。

3 扩展Kmeans

答：有Kmeans++, ISODATA等

4 Python的基本数据类型

答：
Numbers（数字）、String（字符串）、List（列表）、Tuple（元组）、Dictionary（字典）。
tuple和list非常类似，但是tuple一旦初始化就不能修改，即不能增加、删除、更新，从而具有更高的安全性。

5 Pandas的数据类型

答：
Pandas所支持的数据类型:
(1) float
(2) int
(3) bool
(4) datetime64[ns]
(5) datetime64[ns, tz]
(6) timedelta[ns]
(7) category
(8) object
默认的数据类型是int64,float64

6 Pandas的数据结构

答：
pandas主要有Series（对映一维数组），DataFrame（对映二维数组），Panel（对映三维数组），Panel4D（对映四维数组），PanelND（多维）等数据结构。应用最多的就是Series和DataFrame了。

7 Pandas读写数据

答：
1）csv文件
read_csv, to_csv
2）excel文件
read_excel, to_excel

8 sklearn中的模块

答：
六大模块：分类、回归、聚类、降维、模型选择、预处理。

9 逻辑回归代价函数

10 逻辑回归多分类

答：所有类别之间明显互斥用softmax分类器，所有类别之间不互斥有交叉的情况下最好用 k个logistic分类器。

TopCoder & Codeforces & AtCoder交流QQ群：648202993
更多内容请关注微信公众号

wechat_public.jpg

银河Soho某网约车公司数据挖掘面试题

1 决策树有哪几种算法

2 Kmeans缺点

3 扩展Kmeans

4 Python的基本数据类型

5 Pandas的数据类型

6 Pandas的数据结构

7 Pandas读写数据

8 sklearn中的模块

9 逻辑回归代价函数

10 逻辑回归多分类

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

架构算法设计模式和编程理论

程序员

互联网科技

大数据，机器学习，人工智能

机器学习与数据挖掘

我爱编程