日记随笔（一）

作者: 古洞洞 | 来源:发表于2016-03-15 01:39 被阅读39次

2019-03-27
日更 387天成长日记-随笔持续下去
日更 403天成长日记随笔-宽容待人
日更 402天成长日记随笔-你可以
日更 396天成长日记-随笔适应
自学英语30：一个月总结
日更 388天成长日记-随笔难与不难
错了
日更 386天成长日记-随笔契机
随笔和日记有啥区别

2016.3.14 周一

紧张的一天，也是美好的一天，今天一天都在为组会的要讨论的内容做准备，因为不想让老师失望、让实验室小伙伴儿看不起，当然最重要的是还是不甘心自己每次开组会的时候都做陪衬，虽然今天的结局是仍然是扮演着酱油的角色，但是我的意志没有消沉，我还在继续努力着，我也相信我自己会在2016年后半年的某一天成为主角，自信地、云淡风轻地谈着各种算法，分享着自己编程中的心得和小创造。当然，这一切的一切，都基于我这半年能否真的从入门到登堂入室，在于我能否经得住各种诱惑去专于这一件事儿，王老师今天的那句话说的对，要想在一个领域有所成就，必须统一自己的时间和精力，只有你课上做的和课下做的、工作做的和业余做的、8小时内和8小时外都是在专研一个事情，这样你才能在这个方面有所成绩，否则，将有限的精力分散到了多个事情上，而自己又不是神，怎么能多面作战还频频捷报呢。
今天其实不只一次的听到了这话，之前翻看王老师对自己博士生活的总结时，就有看到他说的将自己每天的任务计划宽松处理，具体做法是，每天仅硬性规定两件首要完成的任务，不把精力过于分散，在完成这两件优先级任务后再去做其他事情，这样不仅可以集中精力做主要的事情，还可以预防意外事情的打扰，抑或者还可以防止计划过多、任务过重每天无法完成计划任务，造成负循坏，打击自信心。这就让我想到了自己昨天定下的每日学习计划：

M1.每天通过Python抓取数据、分析数据（tweets数据、扬州电话数据、Titanic数据），一定要每天练习，不得少于4个番茄；
M2.重新学习高数、线性代数、概率、函数等，看两遍并做题，不得少于4个番茄；
M3.英语口语听力练习，每天一个TED或者其他演讲视频，一句一句听，一句一句跟着念，无番茄要求（终极目标：成为字幕组的一员）；
M4.看书，Python、R、网络科学、社会学，一周一本书，硬性规定，最低每天看一章！
M5.一天一千字，简书每天签到监督.

如果说要排优先级的话，我想应该是M1>M2>M4>M3>M5，以后每天首要任务就是M1和M2了，再完成M1和M2后再去进行其他任务，另外，还有一点也很重要：

当日事当日毕，如果今天某个老师布置了某个作业，一定要尽量在当天完成，千万不能拖，一旦拖了一天，就会一发而不可收拾，切记！
由于这种通过写日记的监督方式还不是很熟，所以，具体规范要一步一步去完善，现在我想到的新的一条就是，把一天的学习收获要粘到每天日报的下面，当然特殊状况，如今天完成了一个特别满意的编码或者计算任务，可以另外单发一篇文章，这个规定从今天开始！

今日收获

1.CSV File Reading and Writing

csv的含义： CSV (Comma Separated Values) format is the most common import and export format for spreadsheets and databases.

用法：csv.reader(csvfile, dialect='excel', **fmtparams)
例如
<pre><code>spamreader=csv.reader(csvfile,delimiter=' ',quotechar='|')</code></pre>

2.统计文本文件内单词数量

3.python中re

在python中re是一个常用的模块，主要是通过正则表达式进行字符串处理。它的速度相对自己用 find, replace, split来说，通常更快。
<pre><code>ef
extract_rt_user(tweet):

rt_patterns =re.compile(r"(RT|via)((?:\b\W*@\w+)+)",re.IGNORECASE)

try:

    rt_user_name =rt_patterns.findall(tweet)[0][1].strip(' @')

    return rt_user_name

except IndexError, e:

    pass

</code></pre>
（1）r"(RT|via)((?:\b\W@\w+)+)", re.IGNORECASE)含义*
x|y:匹配x或y。例如，“z|food”能匹配“z”或“food”(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。
+:匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。
\b:匹配一个单词边界，也就是指单词和空格间的位置（即正则表达式的“匹配”有两种概念，一种是匹配字符，一种是匹配位置，这里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\w:匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”，这里的"单词"字符使用Unicode字符集。
\W:匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
(?:pattern):非获取匹配，匹配pattern但不获取匹配结果，不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。
IGNORECASE:使匹配对大小写不敏感；字符类和字符串匹配字母时忽略大小写。举个例子，[A-Z]也可以匹配小写字母，Spam 可以匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。

（2）compile含义
未解决

（3）正则表达式
未理解