极客故事：这个深度学习和NLP研究员，展示了NLP领域真实的学习

作者: 智能观 | 来源:发表于2018-10-13 11:41 被阅读4次

极客故事：这个深度学习和NLP研究员，展示了NLP领域真实的学习
历史回顾——NLP问题解决方案的演变史
NLP领域中更有效的迁移学习方法
比较全的NLP参考资源
NLP深度学习(pytorch)教程
NLP领域中更有效的迁移学习方法
自然语言处理（NLP） Bert与Lstm结合
2018年自然语言处理最值得关注的研究、论文和代码
Bert学习
[转载]如何在NLP领域第一次做成一件事

我最近在自学机器学习方面有所进展。但实际上，如果没有网上整个学术社区和大家的帮助，这是不可能完成的。我和那些给予我灵感的人们交谈，他们都是值得尊敬的前辈。在过去的一些交谈中，我有幸接触到一些Kaggle竞赛大牛、技术主管和从业者。

之所以分享给大家这些对话，是希望大家从这些我有幸接触到的大牛身上学到一些东西，发掘一些共有的特质。

这一次非常荣幸能和Sebastian Ruder交流，他是一名我认为在整个Fast.AI社区都很杰出的自然语言处理(NLP)研究员。Sebastian是AYLIEN（爱尔兰一家NLP公司）的一名科学研究者，还是都柏林大学洞察力研究中心数据分析组的博士生。

Sebastian Ruder

Q：你好，Sebastian。感谢你忙中抽闲。

A：我还要感谢你邀请我呢。

Q：你目前在AYLIEN作为一个研究者，还是都柏林大学洞察力研究中心数据分析小组的博士。能告诉我们你是如何开始学术之旅的吗？什么让你对NLP和深度学习产生了兴趣？

A：我高中的时候对语言和数学非常感兴趣，参加了很多竞赛。对于学业，我想将数学的逻辑和语言的创造力结合起来，但是当时还不知道这个领域的存在。那时我突然发现了计算语言学，这是一个研究计算机科学和语言学很好的交叉学科。

我在德国海德堡大学完成了计算机语言专业的本科学习，并且对机器学习产生了极大兴趣，所以通过实习和网上的课程充分接触机器学习的知识。

2015年我硕士毕业的时候，还只知道word2vec这个算法，后来读了深度学习的博士。一年后，我觉得这是一个有趣的方向，于是决定专注在这个方面。

Q：你在毕业之后马上开始了科研。什么让你选择了学术界而非工业界呢？

A：毕业之后，我开始计划去一些初创公司工作以获得经验。博士一直是我的梦想，但是那时我还没有认真考虑这个选择。当我面试都柏林一家NLP初创公司AYLIEN的时候，他们向我介绍了在职博士培养计划，一个由大学和公司共同发起的项目，感觉非常适合我。

虽然兼顾科研和业界工作极具挑战性，但整体上来说，这给我带来了极大的收益。最重要的是，我认为那家公司也非常适合我。

Q：你现在已经作为研究者3年了，这几年最喜欢的项目是什么？

A：就学习而言，深入一个我不太了解的新领域，阅读论文，与伟大的人合作。本着这种精神，我在哥本哈根大学从事多任务学习的项目是一次伟大的、非常刺激的经历。

就影响而言，能够与Jeremy合作，与Fast.AI社区的人互动，并看着人们发现我们在语言模型方面的工作很有用。

Q：NLP领域一直有争议，说落后于计算机视觉领域。你对现状有什么看法呢？现在是从事NLP研究的好时机吗？

A：我认为是的。和前几年只是用词嵌入或者现成的模型相比，现在的技术已经趋于成熟，你可以结合不同的成分组成自己的模型，比如运用不同的层结构，预训练模型以及辅助损失函数，等等。

现在领域内越来越多的人认为一些典型问题已经被解决了，比如词性标注、在“宾州树库”上的依赖性分析、情感分析以及电影评论分析等，所以我们希望在更多有挑战性的问题上取得进展，比如进一步的自然语言理解或者创造出可以充分泛化的模型。从这些问题的角度来看，我认为NLP研究员能从大家新的思考角度和想法中获益。

另外，因为我们在为很多实际的项目训练模型，比如实现高精度的语句分类和序列标注，需要把这些技术应用到其他语言。如果你说着其他一门语言，完全可以创建一个别人可以拿来评估、训练模型的数据集。

Q：对于那些对NLP感兴趣的读者、初学者，你有什么好建议呢？

A：通过浏览NLP发展历程，先找到一个感兴趣的任务。如果你喜欢做科研，选择一个不是大家都在做的、特别的子任务。比如，情感分类是基于对话的，所以不适用于电影评论任务。

总的来说，读一些过去的论文而不是新论文。读一些和自己研究领域相关的论文，尝试着理解那些先进的算法是如何工作的。尝试那些有开源代码的、你自己可以实现的任务。一旦你对这些基本的原理有了大体了解，对于科研，想一想你是否被某篇论文所启发。想一想你的模型会出什么错误，并想方设法地解决它们，比如我们可以尝试错误分析，并使用一些合成工具来判断模型是否包含了某种信息。

如果你有想法建立一个更加现实而充满挑战性的任务，那么尝试建立一个数据集，并用现有的模型跑一遍。尝试将这些数据集翻译成自己的语言，再看看是否得到了相同的结果。

Q：很多深度学习、机器学习的岗位都要求博士文凭且一定的科研经验。对于想要把机器学习作为职业道路的读者，你觉得科研经历是必须的吗？

A：我认为科研经历能够证明你对基本的模型有熟悉度，并能创新地提出自己的解决方案。你不需要读个博士或者科研研究员来掌握这些技能。积极主动一些，主动学习、亲身实践感兴趣的问题，尝试优化你的模型，把自己的经验写下来，也是起步的方法，这能使你获得上述一样的技能。

在很多应用型机器学习的模型中，你不会被允许完全用一个新的方法。参加一些机器学习和数据科学的竞赛，同样的，也能够帮你把自己理论所学应用于实际。

Q：考虑到学术研究的迅猛发展，如何时刻保持在领域前沿呢？

A：我每天都会去arXiv看日常更新，添加一些相关的论文到我的阅读清单里，成批地完成阅读。Jeff Dean最近在一个深度学习大会上说，粗略地读10篇论文比精钻1篇论文要好。

我非常赞同他的看法，你要尽可能多地阅读，这样心中就能了解大概，并能在日后的工作中获得启发。有一个良好的论文管理体系也是关键，我一直都在用Mendeley。最近我在用arXiv的整理工具来保存相关的论文。

Q：你一直坚持写博文，我也是拜读者之一。请问你能分享一些高效书写科技类文章的经验吗？

A：写博客是一种能使我加深对某个特定领域理解的绝好方式。如果你发现自己要费很大劲才能培养学术直觉，或者要做大量研究才能掌握一门学科，那么，把这个过程写进博客，这样你就能在将来加速其他人的学习。

科研论文通常没有足够的篇幅，详细阐述进行的工作，充分说明自己灵感来源和学术直觉。而博客就能让这些技术部分显得更加易于接受与了解。写博客好的地方是它不苛求完美。你可以用他来提升自己的沟通能力，也可以得到关于自己想法的反馈，防止遗漏掉自己没有考虑的事。

就写作而言，我认为应该要尽可能保持语言的准确，不能模棱两可。去掉没有意义的句子，去掉很泛的形容词。数据告诉你什么，你就写什么，而到推测的部分，就直接说你是猜测得出的。从朋友、同事那得到初稿反馈。不要总是苛求完美，达到一个满意的点即可。最后发布的那一刻，感到焦虑是件很正常的事，而且那种焦虑感会持续很久，但从长远角度来看这是非常值得的。

Q：你认为机器学习被吹过头了吗？

A：没有。

Q：总结之前，有什么建议给那些因为感觉深度学习是高技术含量领域，而迟迟不敢开始的初学者呢？

A：1.不要相信别人跟你说你做不到。

2.上网课加深自己的理解。一旦你感觉自己已经入门了，有时间就读论文以获得启发。

3.选择你感兴趣的领域，然后立即开始工作。

4.不要觉得解决有意义的问题需要大量计算，特别在NLP领域，很多问题只需要少量标记数据就能解决。

5.把自己在做的、在学的写下来。

6.和那些有相同兴趣或研究领域的人多多交流，比如fast.AI社区，我觉得很赞。

7.上推特。推特上有很棒的机器学习社区，你能比发邮件更快地得到大牛的回复。

8.找个导师。如果你咨询某人，一定要注意他们的时间。

9.尊重并乐于帮助他人。

10.看淡褒奖，也要警醒批评。

来源：Hackernoon

作者：Sanyam Bhutani

智能观编译

—完—

亲爱的朋友：

如作者所说，之所以我们每周分享一篇人物访谈，是希望你能从这些大牛身上找到启发，近而作出行动，让自己有所进步。

周末愉快！

智能观灵米

2018-10-13 于北京中关村

声明：

编译文章旨在帮助读者了解行业新思想、新观点及新动态，为原作者观点，不代表智能观观点。

网友评论

本文标题：极客故事：这个深度学习和NLP研究员，展示了NLP领域真实的学习

本文链接：https://www.haomeiwen.com/subject/kdngaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！