1 决策树有哪几种算法
答:ID3、C4.5、Cart
2 Kmeans缺点
(1) 在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用;
(2) 在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;
(3) 在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;
(4) 该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的;
(5) 若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感);
(6) 不适用于发现非凸形状的簇或者大小差别很大的簇。
3 扩展Kmeans
答:有Kmeans++, ISODATA等
4 Python的基本数据类型
答:
Numbers(数字)、String(字符串)、List(列表)、Tuple(元组)、Dictionary(字典)。
tuple和list非常类似,但是tuple一旦初始化就不能修改,即不能增加、删除、更新,从而具有更高的安全性。
5 Pandas的数据类型
答:
Pandas所支持的数据类型:
(1) float
(2) int
(3) bool
(4) datetime64[ns]
(5) datetime64[ns, tz]
(6) timedelta[ns]
(7) category
(8) object
默认的数据类型是int64,float64
6 Pandas的数据结构
答:
pandas主要有Series(对映一维数组),DataFrame(对映二维数组),Panel(对映三维数组),Panel4D(对映四维数组),PanelND(多维)等数据结构。应用最多的就是Series和DataFrame了。
7 Pandas读写数据
答:
1)csv文件
read_csv, to_csv
2)excel文件
read_excel, to_excel
8 sklearn中的模块
答:
六大模块:分类、回归、聚类、降维、模型选择、预处理。
9 逻辑回归代价函数
10 逻辑回归多分类
答:所有类别之间明显互斥用softmax分类器,所有类别之间不互斥有交叉的情况下最好用 k个logistic分类器。
TopCoder & Codeforces & AtCoder交流QQ群:648202993
更多内容请关注微信公众号
wechat_public.jpg
网友评论