美文网首页
我的近况

我的近况

作者: 风物更新 | 来源:发表于2017-11-22 13:49 被阅读171次
    我已出现了幻觉

    好像许多老同学们还不知道:我从纳米专业的本科背景,申请到了科学计算专业的研究生,但是上个月已经转专业到数据科学了。所以当我说“我好久没做实验了“的时候,请不要惊讶。

    我最近在做什么

    你们感受一下

    我们下载了三十六万多家民宿的信息。房屋设施方面,每家民宿都有一个列表,记着诸如有没有空调、让不让带宠物入住之类的以“是”或“否”回答的信息,共计123种。
    我们想用这些设施有无的特征,对这些旅店进行分类。首先,我们使用LogisticPCA方法,将这123种特征概括成了20种测量值。尽管这二十个变量就可以解释83%这些民宿之间的区别,可这几十万家民宿在这个二十维的空间中却挤成一团(见图),没有分别聚集成几个小组的意思。
    考虑到这123种设施特征本身就可以作为分类的依据,我打算放弃把它们概括成连续变量的想法。接下来,我可以直接使用最近邻居法、搭配针对布尔型变量设计的对“距离”的定义来进行聚类分析,也可以直接生长一棵决策树,再适当地进行剪枝。
    我个人比较倾向后者。

    与今年初的生活对比

    我是如何追随着我的兴趣爱好、走上今天这步田地的(涂鸦是我十三四岁左右画的)

    大四那年,闲得无聊,想学学Tableau、TensorFlow、sklearn怎么用(第一个是数据画图工具,后两者是机器学习套件)。但是,我半年来这三项都只是读了一篇入门指南而已——既是因为它们不是我当时的专业,又是因为我当时没有学它们的动力与需求。
    现在呢,我的“主副业”反过来了。一方面,在正式的教育的驱动下,我在数据科学方面的技能突飞猛进。比如说那个民宿分类的项目:我首先在Jupyter记事本里,用numpy和pandas清洗了下载来的数据,然后又用R执行了LogisticPCA分析,同时使用Mathematica画图,配合我手动敲定具体要把这123种特征概括成几个指标。后来,我在Spyder里试图用K-means算法把样本分成几类,同时用Sihoulutte(好像拼错了)评分法辅助选择具体分成多少类别。这个实验的结果很糟糕,我便用Tableau画了个pairwise的散点图,发现的确无类可分。于是,我现在在用Orange3这个软件栽培决策树。上述提到的这些工具,基本都是我在短短的这几个月里学习的。
    另一方面,尽管才离开诸如量子力学之类的理化生科目不到一年,我却开始有点怀念自然科学的内容了。举个例子:上周的机器学习课上,教授把“状态转移”这件事,类比到了“能级跃迁”上面。有同学发问:“为什么不能取两个能级之间的状态呢?”我顿时感到醍醐味:尽管我个人觉得这个类比既形象又准确,但对于没有量子物理背景的学生来说,原来这个比喻是如此艰涩!这让我想到了已经快有两个月没翻开了的《学术写作的艺术》中的一句话:“当你知道了一件事之后,你就很难再站在一个不理解此事的人的角度去考虑问题——这叫作‘知识的诅咒’。”
    我想,这是很贴切的。

    欢迎来宾夕法尼亚大学找我玩…或者一起上自习呀

    相关文章

      网友评论

          本文标题:我的近况

          本文链接:https://www.haomeiwen.com/subject/zwinvxtx.html