41 Importing a Data Set(淦,jupyter大法好啊)
- 从kaggle 上下载data(我们使用 video game sales)
ps:kaggle注册需要输入验证码,这一步得科学上网。
ps:这个国产的数据科学平台也挺不错。
Kesci 和鲸社区 是一个开放的数据科学社区。
https://www.kesci.com/
-
将下载下来的gsv文件移入先前创建的ipynb文件所在文件夹。(这样我们就可以直接访问而无需提供其所在path)
-
终端输入
jupyter notebook
进入jupyter后台 -
在gsv所在目录下创建py文件(或打开先前的)
-
查看csv文件
import pandas as pd
df = pd.read_csv('vgsales.csv')
df
# 调用pandas module
-
查看文件大小
df.shape
-
查看文件属性的基本信息(count, mean, std, min, 50%, max ...)
df.describe
我们使用的是Gregory Smith的Video Game Sales dataset。
结果为(16598, 11)
由16598个数据,共11个col(属性)
- 查看文件值(返回二维数列),基本的一些属性和值(类似简化版直接调用df)
df.values
- Jupyter 很棒的一点在于,它可以将代码放在不同的区块中。每个区块对应In[]-Out[]。这样可以很直观的查看不同段落代码的输出结果。
- 现在也有方法通过终端,使用API接口下载kaggle数据集。教程如下。
42 Jupyter Shortcuts
-
Jupyter操作台模式
edit mode(绿色)
command mode(蓝色) -
在command界面按'h'进入keyboard shortcuts
-
ctrl + enter (run)
-
a/b insert a cell above/below
-
command + slash 注释
-
d*2 delete
-
如果对cell内容改变了在cell视窗下选择Run ALL。默认的下只会运行光标所在的cell。
-
调用模块后可以在.后面tab查看所有的函数功能。在不同语句位置按shift+tab 可以查看具体功能说明。
43 A Real Problem
-
设计音乐软件学习模型:根据用户的数据(年龄、性别、兴趣..)来向用户推荐音乐类型。
-
将music.csv 文件放置于jupyter文件中。
import pandas as pd
music_data = pd.read_csv('music.csv')
music_data
# 查看文件
44 Preparing the Data
music_data.drop 创建一个新的dataset并除去drop掉的row or col
import pandas as pd
music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
X
# 输出结果无genre列
45 Learning and Predicting
-
ML algorithm
-
decision tree
使用‘sklearn.tree’ package -
查看列表,并将列表分为(年龄、性别)-(爱好)
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
# 使用DecisionTree模型
music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
# 列表中去除genre
y = music_data['genre']
model = DecisionTreeClassifier()
model.fit(X, y)
# 分别导入数据X,y
music_data

- 进行预测(表中无关于21岁男性,22女性记录。)
predictions = model.predict([ [21, 1], [22, 0] ])
predictions
# 二维列表录入信息
返回结果,给出预测
array(['HipHop', 'Dance'], dtype=object)
- 进行预测后需要对accuracy 进行evaluate
网友评论