另类新浪微博基本数据采集方法

作者: bindog | 来源:发表于2015-04-21 08:00 被阅读2050次

另类新浪微博基本数据采集方法
如何采集新浪微博数据？
工具
新浪微博内容数据采集爬虫怎么写
php模拟登录新浪微博，解决微博rsa2加密方式登录问题
[开源APP推荐] iWeibo – 微博软件
微博API数据的保存与处理
网页分享
在线微博数据可视化
[数据分析] 简书在微博上的分享情况

0x00 前言

有同学评论说之前绕过新浪访客系统的方法不能用了，我测试了一下，确实不能用了。原因很简单，新浪现在强制登录，没有cookie就是不行，即便是搜索引擎的爬虫也不行。

现在用谷歌搜索出来的结果是这个样子的

现在的

和之前的对比一下

以前的

百度同样也被ban了

呵呵

快照里同样也是空的

那么这是不是意味着我们即使想采集一些简单的信息（网页标题、微博正文等等）也要使用模拟登录或者新浪开放平台API这样复杂的方法？

完全没必要！只要你仔细观察观察，方法其实非常简单~

0x01 从子域名入手

观察第一张图，可以发现下面几个结果里面是有内容的，而其中一个域名为tw.weibo.com，这说明新浪微博的其他子域名是没有什么限制策略的，那么这一来就很简单了，我们只要把weibo.com域名下的链接做一下转换，去访问对应tw.weibo.com下的页面即可拿到想要的数据。

这里我把新浪的一些子域名列出来供大家参考：

http://tw.weibo.com/（微博台湾站）
http://hk.weibo.com/（微博香港站）
http://us.weibo.com/gb（北美微博广场）
http://overseas.weibo.com/（微博国际）

那么如何把weibo.com域名下的链接转换成tw.weibo.com下的对应页面链接呢？简单在前面加一个tw是不行的，还需要对后面的一些参数进行转换。

0x02 参数转换

我们以tw.weibo.com为例进行说明。简单起见，这里只介绍新浪微博上的两种链接形式

用户主页链接

常见的用户主页链接就下面两种形式，后面一堆乱七八糟的参数可以省略……

对应的tw.weibo.com的链接为

用户主页的链接处理起来很简单，直接加上tw即可

某条微博链接

某条微博的链接如下，同样省略了后面的无关参数

http://weibo.com/2803301701/CeaOU15IT

对应的tw.weibo.com的链接为

http://tw.weibo.com/2803301701/3833781880260331

如果对新浪开放平台的API不陌生的话，可知2803301701为用户的uid，uid是一个用户的唯一标识。

CeaOU15IT为这条微博的mid，与之相对应的还有一个id，id是一条微博的唯一标识，由于id比较长，为了缩短url对id进行了转换变成了mid。CeaOU15IT对应的id为3833781880260331

那么问题来了，这个id如何计算呢？如果是以前，可以直接调用新浪的API进行转换，但是现在新浪对这个简单的API也是强制授权，而且还有次数限制……

好在这个转换的原理并不复杂，就是一个62进制的转换，把下面的代码保存为base62.py，后面的过程要用到


ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

def rsplit(s, count):

f = lambda x: x > 0 and x or 0

return [s[f(i - count):i] for i in range(len(s), 0, -count)]

def id2mid(id):

result = ''

for i in rsplit(id, 7):

str62 = base62_encode(int(i))

result = str62.zfill(4) + result

return result.lstrip('0')

def mid2id(mid):

result = ''

for i in rsplit(mid, 4):

str10 = str(base62_decode(i)).zfill(7)

result = str10 + result

return result.lstrip('0')

def base62_encode(num, alphabet=ALPHABET):

"""Encode a number in Base X

`num`: The number to encode

`alphabet`: The alphabet to use for encoding

"""

if (num == 0):

return alphabet[0]

arr = []

base = len(alphabet)

while num:

rem = num % base

num = num // base

arr.append(alphabet[rem])

arr.reverse()

return ''.join(arr)

def base62_decode(string, alphabet=ALPHABET):

"""Decode a Base X encoded string into the number

Arguments:

- `string`: The encoded string

- `alphabet`: The alphabet to use for encoding

"""

base = len(alphabet)

strlen = len(string)

num = 0

idx = 0

for char in string:

power = (strlen - (idx + 1))

num += alphabet.index(char) * (base ** power)

idx += 1

return num

if __name__ == '__main__':

print mid2id('CeaOU15IT')

print id2mid('3833781880260331')

0x03 繁简转换

由于我们访问的页面是微博台湾站，因此页面上的内容都是繁体中文的，因此需要做下转换，比较好的就是大名鼎鼎的opencc了，可以到这里下载安装，使用起来也非常简单~

0x04 实战

废话不多说，直接看代码吧~


# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

import re

import opencc

import base62

rawurl = "http://weibo.com/2803301701/CeaOU15IT"

cc = opencc.OpenCC("t2s")

p = re.compile(r"weibo\.com/(\d+)/(\w+)")

m = re.findall(p,rawurl)

if m:

uid = m[0][0]

mid = m[0][1]

id = base62.mid2id(mid)

url = "http://tw.weibo.com/{0}/{1}".format(uid,id)

print u"微博台湾站链接:{0}".format(url)

user_agent = {'User-agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'}

r = requests.get(url,headers=user_agent)

soup = BeautifulSoup(r.text)

name = soup.find("div","name")

t_name = name.h1.a.text

s_name = cc.convert(name.h1.a.text)

link = name.h1.a["href"]

weibotext = soup.find("p",id="original_text")

t_weibotext = weibotext.text.strip()

s_weibotext = cc.convert(weibotext.text.strip())

print u"繁体中文版-->\n用户:{0}\t用户主页:{1}\n微博内容:{2}".format(t_name,link,t_weibotext)

print u"简体中文版-->\n用户:{0}\t用户主页:{1}\n微博内容:{2}".format(s_name,link,s_weibotext)

# 输出

# 微博台湾站链接:http://tw.weibo.com/2803301701/3833781880260331

# 繁体中文版-->

# 用户:人民日報    用户主页:http://tw.weibo.com/rmrb

# 微博内容:【「最有情懷辭職信」當事人：辭職非衝動 會對未來負責】「世界那麼大，我想去看看。」10字辭職信當事人、河南省實驗中學女教師顧少強19日表示，辭職並非衝動之舉，而是經過理性考慮。「我會對未來的人生負責。」採訪中，顧少強不時強調「每個人都有選擇自己生活方式的權利」。http://t.cn/RAOeU6q

# 简体中文版-->

# 用户:人民日报    用户主页:http://tw.weibo.com/rmrb

# 微博内容:【「最有情怀辞职信」当事人：辞职非冲动 会对未来负责】「世界那么大，我想去看看。」10字辞职信当事人、河南省实验中学女教师顾少强19日表示，辞职并非冲动之举，而是经过理性考虑。「我会对未来的人生负责。」采访中，顾少强不时强调「每个人都有选择自己生活方式的权利」。http://t.cn/RAOeU6q

0x05 总结

又是子域名，在很多漏洞和入侵的过程中，子域名和旁站都扮演着非常重要的角色，这是不是也给我们敲响了警钟呢？在升级一些安全策略的时候，有没有覆盖到子域名上呢？

从另一角度来说，只要你善于挖掘，没有什么系统是坚不可摧的~

我的人个博客地址：http://bindog.github.io/blog/2015/04/20/other-way-to-collect-sina-data，排版更佳哦~

网友评论

c81b805aacea:用集搜客的微博工具箱可以直接采集：https://www.gooseeker.com/land/weibo.html
98405539a93c:我用的神箭手采集微博内容，可选择根据关键字、昵称或用户ID来爬取相关微博，爬取速度很快：http://www.shenjianshou.cn/index.php?r=market/product&product_id=500032

本文标题：另类新浪微博基本数据采集方法

本文链接：https://www.haomeiwen.com/subject/afkufttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

另类新浪微博基本数据采集方法

0x00 前言

0x01 从子域名入手

0x02 参数转换

用户主页链接

某条微博链接

0x03 繁简转换

0x04 实战

0x05 总结

相关文章

另类新浪微博基本数据采集方法

如何采集新浪微博数据？

工具

新浪微博内容数据采集爬虫怎么写

php模拟登录新浪微博，解决微博rsa2加密方式登录问题

[开源APP推荐] iWeibo – 微博软件

微博API数据的保存与处理

网页分享

在线微博数据可视化

[数据分析] 简书在微博上的分享情况

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

那些开发的事

程序员