python 学习 DAY12笔记

作者: Peng_001 | 来源:发表于2020-03-04 23:48 被阅读0次

41 Importing a Data Set(淦,jupyter大法好啊)

  • 从kaggle 上下载data(我们使用 video game sales)

https://www.kaggle.com/gregorut/videogamesales#vgsales.csv

ps:kaggle注册需要输入验证码,这一步得科学上网。
ps:这个国产的数据科学平台也挺不错。

Kesci 和鲸社区 是一个开放的数据科学社区。
https://www.kesci.com/

  • 将下载下来的gsv文件移入先前创建的ipynb文件所在文件夹。(这样我们就可以直接访问而无需提供其所在path)

  • 终端输入jupyter notebook进入jupyter后台

  • 在gsv所在目录下创建py文件(或打开先前的)

  • 查看csv文件

import pandas as pd
df = pd.read_csv('vgsales.csv')
df
# 调用pandas module
  • 查看文件大小
    df.shape

  • 查看文件属性的基本信息(count, mean, std, min, 50%, max ...)
    df.describe

我们使用的是Gregory Smith的Video Game Sales dataset。
结果为(16598, 11)
由16598个数据,共11个col(属性)

  • 查看文件值(返回二维数列),基本的一些属性和值(类似简化版直接调用df)
    df.values

  • Jupyter 很棒的一点在于,它可以将代码放在不同的区块中。每个区块对应In[]-Out[]。这样可以很直观的查看不同段落代码的输出结果。
  • 现在也有方法通过终端,使用API接口下载kaggle数据集。教程如下。

https://www.cnblogs.com/yuanzhoulvpi/p/8612893.html

42 Jupyter Shortcuts

  • Jupyter操作台模式
    edit mode(绿色)
    command mode(蓝色)

  • 在command界面按'h'进入keyboard shortcuts

  • ctrl + enter (run)

  • a/b insert a cell above/below

  • command + slash 注释

  • d*2 delete

  • 如果对cell内容改变了在cell视窗下选择Run ALL。默认的下只会运行光标所在的cell。

  • 调用模块后可以在.后面tab查看所有的函数功能。在不同语句位置按shift+tab 可以查看具体功能说明。

43 A Real Problem

  • 设计音乐软件学习模型:根据用户的数据(年龄、性别、兴趣..)来向用户推荐音乐类型。

  • 将music.csv 文件放置于jupyter文件中。

import pandas as pd
music_data = pd.read_csv('music.csv')
music_data
# 查看文件

44 Preparing the Data

music_data.drop 创建一个新的dataset并除去drop掉的row or col

import pandas as pd
music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
X
# 输出结果无genre列

45 Learning and Predicting

  • ML algorithm

  • decision tree
    使用‘sklearn.tree’ package

  • 查看列表,并将列表分为(年龄、性别)-(爱好)

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
# 使用DecisionTree模型

music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
# 列表中去除genre
y = music_data['genre']

model = DecisionTreeClassifier()
model.fit(X, y)
# 分别导入数据X,y
music_data
  • 进行预测(表中无关于21岁男性,22女性记录。)
predictions = model.predict([ [21, 1], [22, 0] ])
predictions
# 二维列表录入信息

返回结果,给出预测

array(['HipHop', 'Dance'], dtype=object)

  • 进行预测后需要对accuracy 进行evaluate

相关文章

网友评论

    本文标题:python 学习 DAY12笔记

    本文链接:https://www.haomeiwen.com/subject/laeglhtx.html