2016.3.14 周一
紧张的一天,也是美好的一天,今天一天都在为组会的要讨论的内容做准备,因为不想让老师失望、让实验室小伙伴儿看不起,当然最重要的是还是不甘心自己每次开组会的时候都做陪衬,虽然今天的结局是仍然是扮演着酱油的角色,但是我的意志没有消沉,我还在继续努力着,我也相信我自己会在2016年后半年的某一天成为主角,自信地、云淡风轻地谈着各种算法,分享着自己编程中的心得和小创造。当然,这一切的一切,都基于我这半年能否真的从入门到登堂入室,在于我能否经得住各种诱惑去专于这一件事儿,王老师今天的那句话说的对,要想在一个领域有所成就,必须统一自己的时间和精力,只有你课上做的和课下做的、工作做的和业余做的、8小时内和8小时外都是在专研一个事情,这样你才能在这个方面有所成绩,否则,将有限的精力分散到了多个事情上,而自己又不是神,怎么能多面作战还频频捷报呢。
今天其实不只一次的听到了这话,之前翻看王老师对自己博士生活的总结时,就有看到他说的将自己每天的任务计划宽松处理,具体做法是,每天仅硬性规定两件首要完成的任务,不把精力过于分散,在完成这两件优先级任务后再去做其他事情,这样不仅可以集中精力做主要的事情,还可以预防意外事情的打扰,抑或者还可以防止计划过多、任务过重每天无法完成计划任务,造成负循坏,打击自信心。这就让我想到了自己昨天定下的每日学习计划:
- M1.每天通过Python抓取数据、分析数据(tweets数据、扬州电话数据、Titanic数据),一定要每天练习,不得少于4个番茄;
- M2.重新学习高数、线性代数、概率、函数等,看两遍并做题,不得少于4个番茄;
- M3.英语口语听力练习,每天一个TED或者其他演讲视频,一句一句听,一句一句跟着念,无番茄要求(终极目标:成为字幕组的一员);
- M4.看书,Python、R、网络科学、社会学,一周一本书,硬性规定,最低每天看一章!
- M5.一天一千字,简书每天签到监督.
如果说要排优先级的话,我想应该是M1>M2>M4>M3>M5,以后每天首要任务就是M1和M2了,再完成M1和M2后再去进行其他任务,另外,还有一点也很重要:
- 当日事当日毕,如果今天某个老师布置了某个作业,一定要尽量在当天完成,千万不能拖,一旦拖了一天,就会一发而不可收拾,切记!
由于这种通过写日记的监督方式还不是很熟,所以,具体规范要一步一步去完善,现在我想到的新的一条就是,把一天的学习收获要粘到每天日报的下面,当然特殊状况,如今天完成了一个特别满意的编码或者计算任务,可以另外单发一篇文章,这个规定从今天开始!
今日收获
1.CSV File Reading and Writing
csv的含义: CSV (Comma Separated Values) format is the most common import and export format for spreadsheets and databases.
用法:csv.reader(csvfile, dialect='excel', **fmtparams)
例如
<pre><code>spamreader=csv.reader(csvfile,delimiter=' ',quotechar='|')</code></pre>
2.统计文本文件内单词数量
3.python中re
在python中re是一个常用的模块,主要是通过正则表达式进行字符串处理。它的速度相对自己用 find, replace, split来说,通常更快。
<pre><code>ef
extract_rt_user(tweet):
rt_patterns =re.compile(r"(RT|via)((?:\b\W*@\w+)+)",re.IGNORECASE)
try:
rt_user_name =rt_patterns.findall(tweet)[0][1].strip(' @')
return rt_user_name
except IndexError, e:
pass
</code></pre>
(1)r"(RT|via)((?:\b\W@\w+)+)", re.IGNORECASE)含义*
x|y:匹配x或y。例如,“z|food”能匹配“z”或“food”(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。
+:匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。
\b:匹配一个单词边界,也就是指单词和空格间的位置(即正则表达式的“匹配”有两种概念,一种是匹配字符,一种是匹配位置,这里的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\w:匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。
\W:匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
(?:pattern):非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。
IGNORECASE:使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也可以匹配小写字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。
(2)compile含义
未解决
(3)正则表达式
未理解
网友评论