Python真的太强了！居然能开发出一个Drake饶舌歌词生成器

作者: 919b0c54458f | 来源:发表于2018-06-15 15:49 被阅读2次

importurllib.requestasurllib2from bs4importBeautifulSoupimportpandasaspdimportrefrom unidecodeimportunidecodequote_page ='http://metrolyrics.com/{}-lyrics-drake.html'filename ='drake-songs.csv'songs = pd.read_csv(filename)forindex, rowinsongs.iterrows():page= urllib2.urlopen(quote_page.format(row['song'])) soup = BeautifulSoup(page,'html.parser') verses = soup.find_all('p', attrs={'class':'verse'}) lyrics =''forverseinverses:text= verse.text.strip()text= re.sub(r"\[.*\]\n","", unidecode(text))iflyrics =='': lyrics = lyrics +text.replace('\n','|-|')else: lyrics = lyrics +'|-|'+text.replace('\n','|-|') songs.at[index,'lyrics'] = lyrics print('saving {}'.format(row['song'])) songs.head()print('writing to .csv')songs.to_csv(filename, sep=',', encoding='utf-8')

用DataFrame存储了所有的歌曲歌词

运行爬虫之后，我就得到了以合适的结构存储歌词的csv文件，下一步开始对数据进行预处理并且搭建模型。

模型介绍

现在我们来看看模型是如何生成文本的，这部分你要着重理解，因为这是真正的干货。我将先从模型设计和生成歌词模型中的关键组成部分讲起，然后，我们就可以直接进入实施阶段。

图3. 词汇级模型生成词汇的迭代过程

现在在这个模型中，我们以一个词汇为单位向前寻找下一个词汇，而非字符。因此，我们想找到概率P(new_word|seed)的最大值，其中new_word是任一词汇。

这里要注意的是，这里我们搜索的范围比字符级要大得多。字符集模型中，我们只需从字符表中查找大概30个字符，但词汇级中每次迭代搜索的范围远远大于这个数量，因此每次迭代的运行速度更慢，但既然我们生成的是一整个词而不只是一个字符，所以也不算太糟糕。

关于词汇级模型，我最后想说明一点，我们可以通过在数据集中搜索独特的词汇来生成更加多样的词汇（这一步通常在数据预处理阶段进行）。由于词汇量可以无限大，我们其实有很多提高生成词汇性能的算法，比如词嵌入，不过关于这个问题可以再写一篇文章了。

图4. 用滑动窗口获得输入/输出

我们通过每次平移一个字符，得到相应长度为20个字符的模型输入和长度为1个字符的模型输出。每次只平移一格的额外好处就是大大扩展了数据集的大小。

4.标注编码训练序列

最后，我们不想直接处理原始字符（尽管理论上讲每个字符都是一个数字，所以你也可以说ASCII码已经帮我们为每个字符完成了编码）。我们要做的是用唯一的数字和每个字符一一对应，这一步就是所谓的标签编码。同时，我们要建立两个非常重要的映射：character-to-index （字符到索引）和index-to-character（索引到字符）。有了这两个映射，我们就能将字母表中任意的字符编码成对应的数字，同理，也能将模型输出的数字索引解码获得相应的字符。

3.建立模型

我们将用循环神经网络（RNN），更具体的说是长短期记忆网络（LSTM），基于前面出现的字符集来预测下一个字符。如果这两个概念都听着陌生的话，我也提供了相关概念的快速复习

RNN快速复习

通常，你看到的网络就是一个网状，从很多点汇聚到一个单点输出。如下图所示：

图5. 神经网络示意图

这里的神经网络是单点输入，单点输出。它适用于输入是不连续的情况，因为输入的顺序不会影响到输出结果。但是在我们的案例中，输入字符的顺序是非常重要的，因为顺序决定了对应的单词。

而RNN可以接收连续的输入，同时将前一个节点的输出作为参数输入下一个节点，从而解决输入顺序的问题。

图6. 简易RNN示意图

图7. LSTM示意图，摘自Andrew Ng的深度学习课程

不仅传递前一个元胞的输出a ，同时包含之前元胞输入信息的c 也作为了下一个元胞的输入的一部分。这使得LSTM能够更好地保留上下文的信息，并适用于语言建模的预测。

编程建模

我之前学过一点Keras，所以这次就以Keras为框架编程搭建模型。其实也可以选择自己搭建模型框架，但这样会花费更多的时间。

# create sequential network, because we are passing activations# down the networkmodel = Sequential()# add LSTM layermodel.add(LSTM(128, input_shape=(maxlen,len(chars))))# add Softmax layer to output one charactermodel.add(Dense(len(chars)))model.add(Activation('softmax'))# compile the model and pick the loss and optimizermodel.compile(loss='categorical_crossentropy', optimizer=RMSprop(lr=0.01))# train the modelmodel.fit(x, y, batch_size=128, epochs=30)

你可能会注意到，生成的单词有的是没有意义的，这是字符级模型的一个常见问题。这是因为输入序列经常在单词的中间被切断，使得神经网络模型学习并生成对其输入而言是有意义，但是我们看来很奇怪的新单词。

这也是在词汇级模型中可以解决的问题，但是对于仅以200行代码建立的模型来说，字符级模型所达到的效果仍然令人印象深刻。

其他应用

在这里演示的字符级模型的歌词预测功能可以被扩展到其他更有用的应用上。

例如，可以利用相同的原理对iPhone键盘上要输入的下一个单词进行预测。

图8. 键盘输入预测下一个单词

进群：125240963 即可获取源码！

网友评论

python热爱者

本文标题：Python真的太强了！居然能开发出一个Drake饶舌歌词生成器

本文链接：https://www.haomeiwen.com/subject/ypjmeftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python真的太强了！居然能开发出一个Drake饶舌歌词生成器

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python热爱者