美文网首页
Python xpath获取文本的问题

Python xpath获取文本的问题

作者: bpzj | 来源:发表于2017-09-02 23:25 被阅读0次

    看英文pdf的时候,遇到不认识的单词,都是复制到网页翻译,很头疼。因为系统是win10,高分屏,有道的取词效果垃圾,一直想做一个python词典,在github看到这个,https://github.com/llf2017/pyDict/blob/master/pyDict.py,跟我想做的差不多。
    因为不喜欢用BS,想把提取有道文本的那两行重新写下。
    首先
    import lxml
    然后:
    url ='http://dict.youdao.com/w/{}/'.format(word)
    res = get_url(url)
    tree = html.fromstring(res.content)
    分析有道返回的数据(查询share这个单词):

    写出下面的xpath表达式:

    data = tree.xpath('//div[@id="results"]//div[@class="trans-container"]//ul/li[not(contains(text(),"\n"))]/text()')
    # contains函数,contains(string1,string2),如果string1包含string2,则返回true
    # //li[not(contains(text(),"\n"))] 返回文本不包括 \n 的 li
    

    直接可以得到单词中文结果的列表

    相关文章

      网友评论

          本文标题:Python xpath获取文本的问题

          本文链接:https://www.haomeiwen.com/subject/lfhdjxtx.html