第一课

作者: 马尔克ov | 来源:发表于2017-08-24 09:03 被阅读36次

这一堂开学必修课，毕业10年的我才懂
手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫
我的科技梦
英语入门第1课第1节主语
基础素描
股票
开学第一课
我家的《开学第一课》
奋斗成就梦想
开学第一课

一. hyperopt

# 定义一个目标函数(去最小化)
def objective(args):
    case, val = args
    if case == 'case 1':
        return val
    else:
        return val ** 2

# 定义超参数的寻找范围
from hyperopt import hp
space = hp.choice('a',
    [
        ('case 1', 1 + hp.lognormal('c1', 0, 1)),
        ('case 2', hp.uniform('c2', -10, 10))
    ])

# 在某个space内, 用tpe.suggest算法, 最多迭代100次, 寻找objective函数的最小值
from hyperopt import fmin, tpe, space_eval
best = fmin(objective, space, algo=tpe.suggest, max_evals=1000)

print(best)
# -> {'a': 1, 'c2': 0.01420615366247227}
print(space_eval(space, best))
# -> ('case 2', 0.01420615366247227}

#    原本例子里迭代100次, 改成1000次后的结果, 更接近0了
#    {'a': 1, 'c2': 0.0014051587902801626}
#    ('case 2', 0.0014051587902801626)

二. Quora Question Pair

2.1 探索

import pandas as pd
df = pd.read_csv('/home/lyq/Downloads/quora_train.csv')

# 训练集行数
df.shape[0]

404290行

# 正负样本数 
vc = df['is_duplicate'].value_counts()
vc

0 255027 
1 149263 
Name: is_duplicate, dtype: int64

不重复的255027个
重复的149263个

# 正负样本的比例
vc/vc.sum()

0 0.630802
1 0.369198
Name: is_duplicate, dtype: float64

不重复的63%,重复的37%

# distinct问题数
import numpy as np
qs = np.append(df['qid1'],df['qid2'])
len(np.unique(qs))

537933

404290对样本中共包含537933个不重复的问题

# 多次出现的问题数
unique_elements, counts_elements = np.unique(qs, return_counts=True)
sum(counts_elements>1)

111780

404290对样本中111780个问题重复出现

# 出现几次的问题有多少个
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.hist(counts_elements, bins=50)
plt.yscale('log', nonposy='clip')

频率直方图

2.2 特征

A. 词嵌入

把one-hot表示的词向量用不同方法降维，变成稠密的表示。调用gensim包实现。向量化之后用各种距离（余弦距离，jaccard距离，hamming距离，dice距离等）即可计算相似度。

2.2.1 LSI 矩阵分解

利用SVD做矩阵分解，保留num_topics个最大的奇异值，对应num_topics个主题。不同主题中每个词的权重不同，不同样本（文档）中每个主题的权重不同。

2.2.2 LDA（Latent Dirichlet Allocation）

同样是求解每个样本的主题分布，每个主题的词分布。但是建模基于贝叶斯网络，概率分布，和LSI比权重都是正数。

2.2.3 Word2vec

用三层神经网络模型预测上下文。已经上下文单词预测中间的一个（CBOW）或者已经中心词预测上下文词（skip-gram）

2.2.4 Glove（Global vectors for word representation）

哪些词经常同时出现，说明他们的含义接近。比word2vec覆盖的范围更广，word2vec只能覆盖上下文的几个词。

B. NER命名实体识别

找出问题中重要的实体，比如名人名字，机构名字等等

2.2.5 题目中的重要实体

问题中包含哪个人/行业/学科.......

C. POS-tag词性标注

2.2.6 问题中是否包含动词

如何做一件xx事？
xxx为什么是xx？
如何评价xxx？
几种问题的形式有很大区别

2.2.7 问题中包含的疑问词是哪个

what why when who where how

2.2.8 问题中是否包含数字

D. 其他补充

2.2.9编辑距离

每增删一个字母+1，看变更多少次可以把两个问题变成一样的

2.2.10特征组合

比如：问题中包含的疑问词是哪个&是否包含数字。总共6*2=12种取值

网友评论

本文标题：第一课

本文链接：https://www.haomeiwen.com/subject/mvrarxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第一课

一. hyperopt

二. Quora Question Pair

2.1 探索

2.2 特征

A. 词嵌入

2.2.1 LSI 矩阵分解

2.2.2 LDA（Latent Dirichlet Allocation）

2.2.3 Word2vec

2.2.4 Glove（Global vectors for word representation）

B. NER命名实体识别

2.2.5 题目中的重要实体

C. POS-tag词性标注

2.2.6 问题中是否包含动词

2.2.7 问题中包含的疑问词是哪个

2.2.8 问题中是否包含数字

D. 其他补充

2.2.9编辑距离

2.2.10特征组合

相关文章

这一堂开学必修课，毕业10年的我才懂

手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫

我的科技梦

英语入门第1课第1节主语

基础素描

股票

开学第一课

我家的《开学第一课》

奋斗成就梦想

开学第一课

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读