python与数据挖掘
1、python的变量是不可改变的变量 ,如果变量的值发生变化x=x*2,就会自动开辟另一个空间
2、python不用申明变量类型 系统会自动识别
冒号的使用情况
加号和逗号的使用
3、for循环对字符串 列表的遍历 for a in ['e','f','g'] print a result: e f g、
for in range(5) 相当于for(i=0;i<5;i++)
4、 range()和len()函数一起用于遍历整个序列
image.png
5、数据结构:
a.标量:整数 浮点数
b.序列:列表(没有固定的数据类型) 字符串 元组 字节数组
c.映射:数据结构字典
d.集合:
列表: 索引可以是负值 切片 list[开始的位置:切片的大小]
list[-1]表示从后往前第一个数
列表有很多算法 例如 append extend insert remove pop index sort reverse count append 和pop函数可以用于栈的先进后出
Unicode字符串 Unicode 编码 u'\u4f60\u597d' 表示你好
编码方式:ASCII utf-8 utf-16 gbk
元组和列表除了一个能改变内容一个不能改变内容外,格式上有什么区别
字典 键值对 keys() 遍历所有的键
文件句柄:相当于流在文件I/O中,要从一个文件读取数据,应用程序首先要调用操作[系统函数]并传送文件名,并选一个到该文件的路径来打开文件。该函数取回一个顺序号,即文件句柄(file handle),该文件句柄对于打开的文件是唯一的识别依据。要从文件中读取一块数据,应用程序需要调用函数ReadFile,并将文件句柄在内存中的地址和要拷贝的字节数传送给操作系统。当完成任务后,再通过调用系统函数来关闭该文件。
open()函数返回的是一个文件句柄
read()函数是根据句柄来找到文件
??????
列表data=[[1,2],[3,4]]二维列表
元组tuple3 =(1,2,3) # 创建仅有一个数据的元组
Python没有数组: 只有元组(tuple)和列表(list); 元组一旦创建不可改变,例如:aa=tuple(1,2,3); 元组不能追加(append)元素,弹出(pop)元素等;
集合
print '''创建字符串''' str1 = 'learn Python'
的关系
有哪些模块?
os 模块 文件目录 pandas模块 读取csv文件
文件放置在哪
fr = open('../data/ticdata.txt')
f = open('output.txt','w')
在python中,如果有中文的话,需要用到下面一行代码
# -*- coding: UTF-8 -*-
list的append和pop函数 可以用于改变列表
如果需要导入pandas模块 ,需要用到anaconda 然后用到下面链接的步骤,这里可以通过包来安装anaconda ,也可以通过.sh文件来进行安装。 .sh文件是通过命令行bash命令来安装的,bash /Users/apple/Downloads/Anaconda2-5.0.1-MacOSX-x86_64.sh
这里的sh文件的路径就是你下载文件的路径。
http://blog.csdn.net/muzilanlan/article/details/50479931
文件访问的问题:
不同的函数的路径是不一样的
image.png
这里的路径可以通过
image.png
../tmp/lines.html函数进行调用
Welcome to Bokeh
(https://bokeh.pydata.org/en/latest/#welcome-to-bokeh "Permalink to this headline")
Bokeh is a Python interactive visualization library that targets modern web browsers for presentation.
4-5出现的错误:
image.png
5-5的错误
image.png
9-1的错误
image.png
10-1的错误
image.png
关联分析 Apriori a-c 0.3 0.5 面包和牛奶 这个算法的使用是需要将数据转换为0-1矩阵
智能推荐 基于用户的推荐 基于物品的推荐 协同过滤算法
聚类算法:
kmeans 基于距离 选取聚类中心
系统聚类 一个个往上加
dbscan 密度聚类 Minps 较大的点是核心地点 较小的点是非核心对象
对数据正则化 把数据的范围限制在[0,1]
分类算法:(参数模型 和非参数模型)
线性回归分析 最小二乘法
逻辑回归 最大似然估计(确定权重)牛顿 梯度下降 根据标签推边界函数 边界函数的确定了哪些方法
决策树
朴素贝叶斯
神经网络
切片与列表的关系数组的关系
List[1:2]
python数据分析与挖掘实战
编码问题的解决
/anaconda2/lib/python2.7/site-packages
里面添加一个文件
sitecustomize.py
内容是
import sys
sys.setdefaultencoding('utf-8')
json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入json文件中会发生报错,因此在将数据写入时需要用到该函数。
网友评论