python 学习 DAY12笔记

作者: Peng_001 | 来源:发表于2020-03-04 23:48 被阅读0次

Python自学笔记Day12
python学习笔记目录
大师兄的Python学习笔记(十九）: Python与(XML和
大师兄的Python学习笔记(二十）: 爬虫（一）
大师兄的Python学习笔记(十七）: Mail编程
大师兄的Python学习笔记(十八）: Python与HTTP
python学习笔记
Python学习笔记
python收藏的干货
大师兄的Python学习笔记(五）: 常用库之os包

41 Importing a Data Set（淦，jupyter大法好啊）

从kaggle 上下载data（我们使用 video game sales）

https://www.kaggle.com/gregorut/videogamesales#vgsales.csv

ps：kaggle注册需要输入验证码，这一步得科学上网。
ps：这个国产的数据科学平台也挺不错。

Kesci 和鲸社区是一个开放的数据科学社区。
https://www.kesci.com/

将下载下来的gsv文件移入先前创建的ipynb文件所在文件夹。（这样我们就可以直接访问而无需提供其所在path）
终端输入jupyter notebook进入jupyter后台
在gsv所在目录下创建py文件（或打开先前的）
查看csv文件

import pandas as pd
df = pd.read_csv('vgsales.csv')
df
# 调用pandas module

查看文件大小
df.shape
查看文件属性的基本信息（count, mean, std, min, 50%, max ...）
df.describe

我们使用的是Gregory Smith的Video Game Sales dataset。
结果为(16598, 11)
由16598个数据，共11个col（属性）

查看文件值（返回二维数列），基本的一些属性和值（类似简化版直接调用df）
df.values

Jupyter 很棒的一点在于，它可以将代码放在不同的区块中。每个区块对应In[]-Out[]。这样可以很直观的查看不同段落代码的输出结果。

现在也有方法通过终端，使用API接口下载kaggle数据集。教程如下。

https://www.cnblogs.com/yuanzhoulvpi/p/8612893.html

42 Jupyter Shortcuts

Jupyter操作台模式
edit mode（绿色）
command mode（蓝色）
在command界面按'h'进入keyboard shortcuts
ctrl + enter （run）
a/b insert a cell above/below
command + slash 注释
d*2 delete

如果对cell内容改变了在cell视窗下选择Run ALL。默认的下只会运行光标所在的cell。
调用模块后可以在.后面tab查看所有的函数功能。在不同语句位置按shift+tab 可以查看具体功能说明。

43 A Real Problem

设计音乐软件学习模型：根据用户的数据（年龄、性别、兴趣..）来向用户推荐音乐类型。
将music.csv 文件放置于jupyter文件中。

import pandas as pd
music_data = pd.read_csv('music.csv')
music_data
# 查看文件

44 Preparing the Data

music_data.drop 创建一个新的dataset并除去drop掉的row or col

import pandas as pd
music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
X
# 输出结果无genre列

45 Learning and Predicting

ML algorithm
decision tree
使用‘sklearn.tree’ package
查看列表，并将列表分为（年龄、性别）-（爱好）

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
# 使用DecisionTree模型

music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
# 列表中去除genre
y = music_data['genre']

model = DecisionTreeClassifier()
model.fit(X, y)
# 分别导入数据X,y
music_data

进行预测（表中无关于21岁男性，22女性记录。）

predictions = model.predict([ [21, 1], [22, 0] ])
predictions
# 二维列表录入信息

返回结果,给出预测

array(['HipHop', 'Dance'], dtype=object)

进行预测后需要对accuracy 进行evaluate

网友评论

大数据爬虫Python AI Sql

本文标题：python 学习 DAY12笔记

本文链接：https://www.haomeiwen.com/subject/laeglhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python 学习 DAY12笔记

41 Importing a Data Set（淦，jupyter大法好啊）

42 Jupyter Shortcuts

43 A Real Problem

44 Preparing the Data

45 Learning and Predicting

相关文章

Python自学笔记Day12

python学习笔记目录

大师兄的Python学习笔记(十九）: Python与(XML和

大师兄的Python学习笔记(二十）: 爬虫（一）

大师兄的Python学习笔记(十七）: Mail编程

大师兄的Python学习笔记(十八）: Python与HTTP

python学习笔记

Python学习笔记

python收藏的干货

大师兄的Python学习笔记(五）: 常用库之os包

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql