其实数据分析是一个相对于冗杂的工作,我所理解的分析步骤如下(仅个人理解):
1.数据获取(python爬虫等)
2.从数据库中获取数据(sql)
3.数据预处理(规范数据)
4.数据分析与建模以及可视化
5.数据分析报告
在实际的工作中,只要公司使用数据库,那我们在进行数据分析工作之时,有很大概率要用到sql进行数据的提取(本文主要围绕select语句展开),以mysql为例,下面我们便正式进入主题。
数据来源秦路老师教学:https://pan.baidu.com/s/1zBobf63JTbhNKxZ9P-Ju1Q
0.通用基本格式
select 列名1,列名2,列名3 from 表名
where 条件 #过滤条件
group by 列名 #分组
order by 列名 #排序,一般以数字列排序
1.检索数据
select * from DataAnalyst.csv
# *代表通配符,此处表所有数据
#检索一列数据
select city from DataAnalyst.csv
#检索多列数据(列名以逗号隔开)
select city,positionID,industryFiled from DataAnalyst.csv
2.使用where字句进行过滤
select * from DataAnalyst.csv
where city = '上海'
#只看上海地区的情况
select * from DataAnalyst.csv
where education = '本科'
#找出招本科的公司的信息
3.and和or(一般与过滤字句where连用)
select * from DataAnalyst.csv
where city = '上海' and companySize >=1000
#选出在上海且人数大于1000的公司
select * from DataAnalyst.csv
where city = '上海' or workyear like '应届毕业生'
#这里查找的是公司位于上海并且招应届毕业生的所有公司信息
4.分组(group by)
select city from DataAnalyst.csv
group by city
#按城市进行分组
5.使用having对分组之后的数据进行过滤
select city,count(positionID) from DataAnalyst.csv
group by city
having count(positinonID)>= 200
#此处按照城市分组,查找出职位大于等于200的所有城市
#having仅仅对排序之后的数据进行过滤与where有所不同
6.使用order by 进行排序
select * from DataAnalyst.csv
order by city
#按城市进行排序
7.模糊查找(like,%)
select * from DataAnalyst.csv
where industryFiled like '%数据分析%'
#包含数据分析
select * from DataAnalyst.csv
where industryFiled like '%数据分析'
#以数据分析结尾
select * from DataAnalyst.csv
where industryFiled like '数据分析%'
#以数据分析开头
8.函数的使用
select city,count(positionID) from DataAnalyst.csv
group by city
#还有很多函数,本次使用了(count())本条查询不同城市职位的个数
9.唯一值(distinct)
select city,count(dinstinct positionID) from DataAnalyst.csv
group by city
#查询不同城市唯一职位的数量
实战阶段(以数据集为例)
1.检索所在地为杭州或者上海的所有公司信息
select * from DataAnalyst.csv
where city = '杭州' or city = '上海'
2.检索出数据集中职位名称包含数据分析所有公司信息
select * from DataAnalyst.csv
where positionName like '数据分析'
3.检索出不同城市职位的数量
select city,count(positionID) from DataAnalyst.csv
group by city
4.暂时先到此处,稍后再补。
网友评论