【作者: 0han 未经授权请勿转载文章,直接转载代码请保留作者及出处】
第一次用Markdown写文章耶,我在知乎上也叫0han 就我一个 不去关注下吗?
本篇是向各位介绍我其实早就写好,一直没发布的一个算是成熟的小脚本软件--英文字典。因为日常学习中突然碰到要查的词,这个时候追求的就是快速打开字典,查找。而一般人的这个过程肯定是以下几点:
- 打开手机-点击'有道词典'-等待三秒并且点击跳过广告输入词语-查找
- 打开浏览器-输入"youdao.com"一类的,查找,这个耗时更长,因为打开速度取决于你的网速,你的内存
- 打开电脑上下载好的有道词典app,输入词语,查找 这个还好,加载app有一点慢,查词的时候偶尔出现莫名的错误提示
当然用安卓的朋友,好像是有道词典有提供安卓首页小工具,那个还是蛮方便的,但是这篇文章将展示我用python 3爬虫写的一个用命令行查词的脚本。下面是效果图
展示以上的截图中,三种output是这个程序目前的三个功能,逻辑是这样的:
- 输入词语-查询
- (1)如果这个词查到了,显示词义。
(2)如果这个词没有查到(如图中我乱输的句子),显示“好像没找.....请重新输入”
(3)按照程序一开始的提示,在键盘上输入"q"再回车就可以退出程序,并且显示“log日志已经储存....”
这里我提到了一个隐藏的功能,这也是我一开始写这个小脚本的初衷,也就是“生词本”概念。我原本是想怎么才可以把平时查找的不会的词自动生成一个个人的生词本,不过实验后发现不常用,貌似我基本不会开那个生词本.txt 但是我还是想保留这个功能,并且试图让它看起来更专业化,提供了每次搜词的确切时间,以下是日志的效果图:
log页面整体上来说,这个词典的逻辑缺陷是当网络不好时(主要是假连接状态)运行后不会有所显示网络连接不上一类的。对于一个看英文文章时随时需要查字典的用户来说,这个基于爬取有道官网的字典,没有广告,启动速度、查取速度快的优点足以胜任。在发表代码前先提出几个缺陷:
- 只能查英文到中文,不能用中文查中文,这是由于我用的网站是有道,url的结构是www.youdao.com/+input, 这个问题可以通过换爬虫目标源来解决
- 音标无法显示,作为一个中国人,学英语不仅要懂意思更要会说,所以在css选择器我尝试过爬音标下来的,但是显示不了我们能理解的音标字符,只能显示/0x64/类似这样的ascii码 前面我查了好多资料都没法解决这个问题,是因为cmd的原因吗?当时没试过用powershell能不能解决,希望知道解决编码问题的朋友留言告诉我 万分感谢!!!
Talk is not cheap now.....show u the code:
#dictionary by 0han,知乎和简书用户名也是0han
#coding:utf-8
import requests
import bs4
import os
import time
import sys
def createlog():
pass#卖个关子
#想看到怎么在log里生成标准时间的函数代码点击文末的github链接查看完整代码,顺手follow我哈哈:)
#没那个函数还可以正常运行哈哈
print("===============================\n=有道 词典 命令行版v1.1 by 0han=\n===============================\n")
print("输入'q'可退出程式\n")
createlog()
while True:
rooturl='http://www.youdao.com/w/'
url=input("请输入词语:")
f=open("C:/Users/Owner/Dropbox/python/py/dic/log.txt", 'a', encoding='utf-8')
if url=="q":
print("log日志已储存 谢谢使用")
f.close()
sys.exit()
else:
finurl=rooturl+url
headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36')
res={}
try:
response = requests.get(finurl)
soup = bs4.BeautifulSoup(response.text,'html.parser')
word=soup.select('.keyword')[0].get_text()
tran=soup.select('.trans-container > ul > li')[0].get_text()
print('翻译:'+tran)
res['word']=word
res['翻译']=tran
f.write('\n'+str(res))
f.close()
except IndexError:
print("好像没找到这个词,请重新输入")
一如既往地喜欢用requests库和bs库 毕竟黑魔法。想在自己电脑上使用的别忘了改储存log的路径
点击这里可以link到我的github查看完整代码 (也就是多个时间功能 饶过我吧)
鞠躬
睡觉
网友评论