主要参见 刘显明的blog https://www.cnblogs.com/mverting/p/9066030.html
我从中摘录了一些和数据分析比较有关的。有下面几个要点:
其一,越后面的内容与数据分析联系越紧密;
其二,如果在本地简单汇总数据的话,推荐安装SQLite,具体可查看
http://www.runoob.com/sqlite/sqlite-like-clause.html
其三,sql语句在R语言sqldf这个包中可以直接用,但是运行速度慢,而且R里面有subset一系列的函数可以等同sqldf
但是有很多人还是习惯sql的方式,所以就用呗
library(sqldf)
sqldf("select * from table1")
第一大类:筛选
1.select 列名称 from 表名称 #选取某些列
2.select distinct 某列 from 表名称 #列出不同(distinct)的值
3.select 列名称 from 表名称 where 列 运算符 值
条件查询(运算符:= < > >= between like)
#选出列里面满足某些条件的值
4.select * from table where name='asdf' and id=1 and运算符实例
#选出表里面满足某些条件的值
5.select * from 表名称 where (name='dasdf' or id=23)and a_id='23'
#or+and混合运算符
6.select * from 表名称 order by 列名称 # 排序
7.select * from 表名称 limit 5;取5条
8.select top2 * from 表名称;取前两条
9.select top50percent * from 表名称; 取50%数据
10.select* from 表名称 where 列名称 like 'x%'
select* from 表名称 where 列名称 like '_XXXX_'
"%" 可用于定义通配符(模式中缺少的字母)。
%:替代一个或多个字符。_:仅替代一个字符
11.select * from 表名称 where 列名称 is null #SQL 的NULL 值查询
第二大类:JOIN
两个表有相同的某列值(key),通过这一列值把两个表连接起来。
select 列名称1,列名称2, … from 表名称1 inner join 表名称2 on 对应的列名称1(key在表1中的名字) = 对应的列名称2(key在表2中的名字)
示例如下
select EMP_ID, NAME, DEPT from COMPANY inner join DEPARTMENT
on COMPANY.ID = DEPARTMENT.EMP_ID
join(inner join): 如果表中有至少一个匹配,则返回行
left join: 即使右表中没有匹配,也从左表返回所有的行
right join: 即使左表中没有匹配,也从右表返回所有的行
full join : 只要其中一个表中存在匹配,就返回行
第三大类:group by
select 列名称1,运算(列名称)from 表名称 group by 列名称
select Customer, sum(OrderPrice) from Orders group by Customer
计算每个顾客订单总额
select Customer, max(OrderPrice) from Orders group by Customer
计算每个顾客订单最大总额
select Customer, min(OrderPrice) from Orders group by Customer
计算每个顾客最小订单额度
select Customer, avg(OrderPrice) from Orders group by Customer
计算每个顾客平均订单额度
select Customer, count(OrderPrice) FROM Orders group by Customer
计算每个顾客订单数量
网友评论