爬虫难点:
页面的访问 反爬
数据库mongodb
对个人的发展,聚焦点应该聚焦在数据分析 而不是爬虫上面
网页 标签 元素和属性颜色不同
<a> 超链接标签 href
img scr 图片
div 大块 span小块
功能 js脚本实现的
div = soup.find(‘div’, id = ‘info’)
span = div.find(‘span’, class_ = ‘pl’)
span.text #字
div.find(‘a’)[‘href’] #属性
div.find(‘a’).attrs[‘href’] #属性
dataframe 转换数据格式和排序
df['点评数量'] = df['点评数量'].astype(np.int)
df.sort_values(by = '点评数量', inplace = True, ascending=False)
屏幕快照 2019-07-12 上午11.31.49.png
屏幕快照 2019-07-12 上午10.46.08.png
网友评论