https://yunhai.ctrip.com/Games/6
無聊打算嘗試爬下裏面的數據列表,發現網頁源代碼裏面找不到想要的數據= =。。
后發現是JS動態加持,也不知道怎麽提取domain
看了一下https://www.jianshu.com/p/9de3be54abc1
這裏的介紹
然後到這
copy domain (https://yunhai.ctrip.com/api/games/data/6)
剩下就是一頓提取啦
import requests
import json
from bs4 import BeautifulSoup
import bs4
import pandas as pd
#提取到的網站
url = 'https://yunhai.ctrip.com/api/games/data/6'
#經典二連
r = requests.get(url)
html = r.text
#我也不知道我在幹嘛 花里胡哨的轉格式
data=json.loads(html)
k = data['DataDesc']
soup = BeautifulSoup(k,'html.parser')
#創兩個list,一個放中文,一個放英文
a = []
b = []
for tr in soup.find('tbody').children:
if isinstance(tr,bs4.element.Tag):
tds = tr('td')
a.append(tds[0].string)
b.append(tds[1].string)
#轉dataframe
data = pd.DataFrame(a,columns = ['label'])
data['chinese'] = b
data
完成
网友评论