Python数据挖掘01-环境搭建

作者: 千山万水 | 来源:发表于2016-10-31 22:34 被阅读94次

Python是数据挖掘的利器,这里自己边学习边记录下过程。以下操作在Windows或Mac系统下均可进行,Linux下暂未测试。

1、PyCharm安装

Python开发的IDE有很多,这里比较推荐PyCharm。PyCharm有专业版和社区版,两者均可。安装后新建test.py测试运行

print 'Hello Python!'

2、MySQL安装

官网下载系统对应的版本安装,安装完成后在命令提示行输入"mysql",如果返回欢迎信息,则成功运行。如果命令不被识别,在Windows系统下需要把MySQL路径加入系统环境变量。Mac也一样,或者输入 /usr/local/mysql/bin/mysql -uroot -p 然后输入密码,进入MySQL。
测试是否安装成功:

show databases;

运行结果:

+--------------------+
| Database           |
+--------------------+
| information_schema |
| mysql              |
| performance_schema |
| sys                |
+--------------------+
4 rows in set (0.01 sec)

3、MySQLdb安装

为了在Python中操作MySQL,需要安装MySQLdb。Windows系统下直接下载安装包,或者在PyCharm中添加即可。Mac系统在PyCharm中添加可能会提示错误,这时可以在终端中安装:
sudo -H pip install MySQL-python
如果提示EnvironmentError: mysql_config not found,则运行一下以下命令
export PATH=$PATH:/usr/local/mysql/bin
安装完成后,在PyCharm中测试是否运行正常:

import MySQLdb
try:
    conn=MySQLdb.connect(host='localhost',user='root',passwd='mypassword',db='mysql')
    cur=conn.cursor()
    cur.execute('select Host from user')
    print cur.fetchall()
    cur.close()
    conn.close()
except MySQLdb.Error,e:
     print "Mysql Error %d: %s" % (e.args[0], e.args[1])

运行结果:

(('localhost',), ('localhost',))

这是一个Tuple类型的数据

4、常用Python库

urllib2 #自带网络请求库
re #正则表达式
requests #第三方网络请求库,需手动添加
BeautifulSoup #网页解析库,需手动添加

5、初步试验

功能:从智联招聘网站上抓取部分数据信息

#encoding=utf-8
import requests
from bs4 import BeautifulSoup
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36 QQBrowser/4.1.4132.400'}
payload={'jl':'深圳','kw':'python','isadv':'0','sg':'0dfd2337bd8a43168ee25385938feda9','p':'1'}
r=requests.get('http://sou.zhaopin.com/jobs/searchresult.ashx',params=payload,headers=headers)
soup=BeautifulSoup(r.text)
list1=soup.find_all('table')
for li in list1:
    jobname=li.find('td',class_='gsmc')
    jobsalary=li.find('td',class_='zwyx')
    joblocation=li.find('td',class_='gzdd')
    if jobname:
        print jobname.a.string
    if jobsalary:
        print jobsalary.string
    if joblocation:
        print joblocation.string

运行结果:

创游时空网络科技(深圳)有限公司
8001-10000
深圳
深圳市程序猿教育科技有限公司
4001-6000
深圳 - 龙华新区
深圳市友联创科技有限公司
6001-8000
深圳 - 龙华新区

-2016年10月26日

相关文章

  • Python数据挖掘01-环境搭建

    Python是数据挖掘的利器,这里自己边学习边记录下过程。以下操作在Windows或Mac系统下均可进行,Linu...

  • 开启数据挖掘及数据分析学习之旅

    数据挖掘之旅 数据挖掘简介及其应用场景 搭建Python数据挖掘环境 亲和性分析示例:根据购买习惯推荐商品 经典分...

  • Python数据挖掘 环境搭建

    deepin 有很多小伙伴想学习python,但windows写python基本是坑,deepin属于linux分...

  • Python接口测试之对MySQL的操作

    文章主要来说python对mysql数据库的基本操作,当然,前提是已经搭建了python环境和搭建了Mysql数据...

  • python3入门与实践

    Day 1 语言特点,环境搭建,数据结构 python 官网:http://python.org集成开发环境:G...

  • Python Learning-目录

    一、Python Learning-环境搭建二、Python Learning-变量和简单数据类型三、Python...

  • python学习计划

    第一周: Python基础:python的简介、搭建Python开发环境、基本的数据类型、数据结构(列表、字典、元...

  • Python自学笔记Day2

    Python自学笔记——Day2 Python环境搭建 1. Python环境搭建 所需软件Python解释器Py...

  • selenium自动化测试

    一.自动化选型 二.selenium环境搭建(以python示例) python环境搭建下载python安装验证 ...

  • Python学习--环境搭建

    Python学习入门--环境搭建 Python简介 在进行Python环境搭建之前 ,先简单的介绍一下Python...

网友评论

    本文标题:Python数据挖掘01-环境搭建

    本文链接:https://www.haomeiwen.com/subject/punputtx.html