1 文件操作
使用shutil 库
2 字符串前缀判断
if next.startswith('//')
#next 字符串是否是以 // 开头的
3 Scrapy xpath选择器
序号 | 表达式 | 解析 |
---|---|---|
1 | articke | 选取所有子article元素的所有子节点 |
2 | /articke | 选取根元素 article |
3 | articke/a | 选择所有属于article的字元素的a元素 |
4 | articke//div | 选取所有属于articke 元素的后代的 div元素,不管他出现在article之下 的任何位置 |
5 | /article/div[1] | 选取属于article子元素的第一个div元素 |
6 | /article/div[last()] | 选取属于article子元素的最后一个div元素 |
7 | /article/div[last()-1] | 选取属于article子元素的倒数第二个div元素 |
8 | //div[@class='SA'] | 选取所有class属性为SA的div元素 |
9 | /div/* | 选取属于div元素的所有子节点 |
10 | //* | 选取所有元素 |
11 | //div[@*] | 选取所有带属性的title元素 |
4 Scrapy css选择器
序号 | 表达式 | 解析 |
---|---|---|
1 | ul~p | 选取与ul相邻的所有p元素 |
2 | a[title] | 选取所有有title属性的a元素 |
3 | a[href="http://****"] | 选择所有href属性为http://****的a元素 |
4 | a[href*="jobole"] | 选取所有href属性包含jobbole的a元素 |
5 | a[href^="http"] | 选取所有href属性以http开头的a元素 |
6 | a[href$^=".jpg"] | 选取所有href属性以.jpg结尾的a元素 |
7 | input[type=radio]:checked | 选取选中的radio的元素 |
8 | div:not(#container)] | 选取所有id非container的div属性 |
9 | li:nth-child(3) | 选取第三个li元素 |
10 | tr:nth-child(2n) | 第偶数个tr |
网友评论