某公司自然语言处理算法笔试题

作者: 海天一树X | 来源:发表于2018-04-02 22:58 被阅读287次

某公司自然语言处理算法笔试题
汽车之家招聘-欢迎自荐与推荐
基础算法总监/应用算法总监/业务研发总监-Java ，地点：上海
异步社区本周半价电子书
Pytorch_Seq2Seq与Attention
自然语言处理之路：方法——深度学习基础
自然语言处理之路：方法——机器学习基础
混合精度训练
自然语言处理之路：工具——七种兵器
外行也能看懂的科普：这就叫自然语言处理

1 请列出几种文本特征提取算法

答：文档频率、信息增益、互信息、X^2统计、TF-IDF

2 简述几种自然语言处理开源工具包

答：LingPipe、FudanNLP、OpenNLP、CRF++、Standord CoreNLP、IKAnalyzer

3 简述无监督和有监督算法的区别

答：
（1）有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。
无监督学习：对没有概念标记（分类）的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记（分类）是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习
（2）有监督学习的样本全部带标记，无监督学习的样本全部不带标记。
PS:部分带标记的是半监督学习
（3）训练集有输入有输出是有监督，包括所有的回归算法分类算法，比如线性回归、决策树、神经网络、KNN、SVM等；训练集只有输入没有输出是无监督，包括所有的聚类算法，比如k-means 、PCA、 GMM等

4 请简述几种熟悉的分类算法

答：kNN，kMeans，决策树，随机森林等

5 以下代码是Java实现中文分词，请简述分词过程

public class SplitChineseCharacter {
    public static void main(String[] args) {
        String input = "太好了，今天是星期六啊";
        new Split(input).start();
    }
}

class Split {
    private String[] dictionary = {"今天", "是", "星期", "星期六"};
    private String input = null;
    
    public Split(String input) {
        this.input = input;
    }
    
    public void start() {
        String temp = null;
        System.out.println(this.input.length());
        for(int i = 0; i < this.input.length(); i++) {
            temp = this.input.substring(i);
            if(this.isInDictionay(temp)) {
                System.out.println(temp);
                this.input = this.input.replace(temp, "");
                i = - 1;
            } 
        } 
        
        if(null != this.input && !"".equals(this.input)) {
            this.input = this.input.substring(0, this.input.length() - 1);
            this.start();
        }
    }
    
    public boolean isInDictionay(String temp) {
        for(int i = 0; i < this.dictionary.length; i++) {
            if(temp.equals(this.dictionary[i])) {
                return true;
            }
        }
        
        return false;
    }
}

运行结果：

星期六
是
今天

更多内容请关注微信公众号

feicuisenlin_12x12.jpg

某公司自然语言处理算法笔试题
1 请列出几种文本特征提取算法答：文档频率、信息增益、互信息、X^2统计、TF-IDF 2 简述几种自然语言处理...
汽车之家招聘-欢迎自荐与推荐
下面所有的职位诱惑都包含下面这几条：技术类：广告算法工程师算法工程师自然语言处理工程师自然语言处理高级工...
基础算法总监/应用算法总监/业务研发总监-Java ，地点：上海
基础算法总监职位描述负责定位、POI、自然语言处理、图像处理等基础算法团队的组建 1、精通机器学习、深度学习相...
异步社区本周半价电子书
《文本上的算法——深入浅出自然语言处理》路彦雄著点击购买纸书本书结合作者多年学习和从事自然语言处理相关工...
Pytorch_Seq2Seq与Attention
自然语言处理是典型的序列问题，其底层算法在最近几年迅速发展，比如去年年底发布的BERT在11项自然语言处理任务中表...
自然语言处理之路：方法——深度学习基础
一个自然语言处理炼丹师的自白往期：自然语言处理之路：前提——英文自然语言处理之路：前提——数学自然语言处理之路：前...
自然语言处理之路：方法——机器学习基础
一个自然语言处理炼丹师的自白往期：自然语言处理之路：前提——英文自然语言处理之路：前提——数学自然语言处理之路：前...
混合精度训练
原文来自于机器学习算法与自然语言处理公众号混合精度训练《MIXED PRECISION TRAINING》这篇...
自然语言处理之路：工具——七种兵器
自然语言处理之路：工具——七种兵器一个自然语言处理炼丹师的自白往期：自然语言处理之路：前提——英文自然语言处理之...
外行也能看懂的科普：这就叫自然语言处理
自然语言处理 Natural Language Processing 一、什么是自然语言处理简单地说，自然语言处...