银河Soho某网约车公司数据挖掘面试题

作者: 海天一树X | 来源:发表于2018-05-02 16:19 被阅读68次

    1 决策树有哪几种算法

    答:ID3、C4.5、Cart

    2 Kmeans缺点

    (1) 在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用;
    (2) 在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;
    (3) 在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;
    (4) 该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的;
    (5) 若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感);
    (6) 不适用于发现非凸形状的簇或者大小差别很大的簇。

    3 扩展Kmeans

    答:有Kmeans++, ISODATA等

    4 Python的基本数据类型

    答:
    Numbers(数字)、String(字符串)、List(列表)、Tuple(元组)、Dictionary(字典)。
    tuple和list非常类似,但是tuple一旦初始化就不能修改,即不能增加、删除、更新,从而具有更高的安全性。

    5 Pandas的数据类型

    答:
    Pandas所支持的数据类型:
    (1) float
    (2) int
    (3) bool
    (4) datetime64[ns]
    (5) datetime64[ns, tz]
    (6) timedelta[ns]
    (7) category
    (8) object
    默认的数据类型是int64,float64

    6 Pandas的数据结构

    答:
    pandas主要有Series(对映一维数组),DataFrame(对映二维数组),Panel(对映三维数组),Panel4D(对映四维数组),PanelND(多维)等数据结构。应用最多的就是Series和DataFrame了。

    7 Pandas读写数据

    答:
    1)csv文件
    read_csv, to_csv
    2)excel文件
    read_excel, to_excel

    8 sklearn中的模块

    答:
    六大模块:分类、回归、聚类、降维、模型选择、预处理。

    9 逻辑回归代价函数

    10 逻辑回归多分类

    答:所有类别之间明显互斥用softmax分类器,所有类别之间不互斥有交叉的情况下最好用 k个logistic分类器。

    TopCoder & Codeforces & AtCoder交流QQ群:648202993
    更多内容请关注微信公众号


    wechat_public.jpg

    相关文章

      网友评论

        本文标题:银河Soho某网约车公司数据挖掘面试题

        本文链接:https://www.haomeiwen.com/subject/pqycrftx.html