一.数据处理
数据集包含了美国400个城市的经度和纬度数据,每个城市都被贴上红色或蓝色的标签,这取决于他们在2012年选举中的投票方式。数据来源https://simplemaps.com/static/demos/resources/us-cities/cities.csv
导入python常用模块,读取数据
import pandas as pd
from sklearn.dummy import DummyClassifier
df = pd.read_csv(r'C:\Users\PC\Desktop\python\cpsc330\lectures\data/cities_USA.csv', index_col=0) ##自己下载好的文件路径
df.plot.scatter(x="lon", y="lat", c="vote", alpha=0.3); ##画散点图
#获取前经度和纬度数据
X = df[["lon", "lat"]] ##X.shape X.ndim 查看大小维度
#获取标签值
y = df["vote"] ##y.shape y.ndim 查看大小维度
二.预测和回归
分类:根据精度和纬度这两个特征判断标签是红还是绿
回顾:定量目标的预测
三.建模训练预测
model = DummyClassifier(strategy="prior") ##建模
model.fit(X, y) ##训练
prediction = model.predict([[0, 0]]) ##预测
score = model.score(X, y) ##评估
网友评论