6月开始搬回云台花园了,剪切了两个月全国主要的报纸信息,8月开始帮公司的爬虫系统做配置,就是利用XPath把政府网站公告信息采集下来,给需要爬取的网站配置地址,下一页,详情,表头,发布时间和详情这些关键元素定位出来。这里记录一下前端基础知识。
常用标签:
<h1>会飞的蛋</h1>
<h2>会飞的蛋</h2>
<h3>会飞的蛋</h3>
<h4>会飞的蛋</h4>
<h5>会飞的蛋</h5>
<h6>会飞的蛋</h6>
<p>因为湖南有条江叫做湘江,所以也简称为湘</p>
<b>湖南妹子</b>
<strong>湘妹子</strong>
<em>湖南</em>
<i>湖南的女孩子</i>
<span>她们</span>
<table border="1">
<tr>
<td>姓名</td>
<td>年龄</td>
</tr>
<tr>
<td>翠花</td>
<td>29</td>
</tr>
<tr>
<td>小二</td>
<td>19</td>
</tr>
</table>
<ol>
<li>二狗</li>
<li>大狗</li>
<li>铁柱</li>
</ol>
<ul>
<li>翠花</li>
<li>二柱</li>
<li>铁锤</li>
</ul>
<iframe src="http://www.baidu.com" width="400"
height="400"></iframe>
常用的表单标签
-
Checkbox:多选框;
-
radio:单选框
-
text:明文输入信息
-
password:密文输入信息
-
button:按钮
-
submit:提交
-
reset:重置
-
file:选择文件
-
textarea:备注信息框
-
form:表单 一般在一个form里的数据会被一起提交
在写法中,我们要知道在这些标签里面放id ,class 。
只有你的元素里面有这些id和class你才能进行元素定位。
你的元素里面都没有id和class用测试工具是定位不到这些元素的。
网友评论