玩資料也好幾百個日子,但都止於內部數據的分析。最近有金主要support一台高規格機器讓我作一些freehand 的公開資料分析,金主也不懂資訊技術,所以文章大概以描述過程及結果為主軸,資訊科技(程式碼)則輕描淡寫帶過,且己經相當一段長時間沒有在文章寫作上,剛好有比較舒服的寫作平台,就當打報告了。
先來簡單作第一個分析,每天上班的路上就會看到好幾個教會,到底台灣教會有多少? 相當普及? 查閱了政府資料開放平台並作 heat map。
資料
* 全國宗教資訊系統資料-法人教會
* 全國人口統計資料 - 內政部戶政司
資訊技術
* python - pucurl, lxml, pandas
* Data Visualization - plotdb.com
台灣教會地區分佈圖
網頁互動版本(PlotDB的手機版本的 Map 暫時仍不能使用): Taiwan Church - 2016
以人口來看教會分佈
以服務人口來看, 不見得教堂數愈多其服務人口愈均勻, 反而是苗栗縣較為均勻, 但這裡有前提是每個人都信教且有博愛的精神來服務.
以土地面積來看教會分佈
而以每平方公里來看教堂數, 台北市還是居冠在平方公里即有一間教堂, 所以在這些高分佈的朋友們能常看到教會.
在這裡南部的嘉義市及嘉義縣則是相當有特色的"差距".
開始的困難還是在找尋資料,在開放平台並沒有人口及縣市面積,只好透過 google 找到內政部的公開excel資料,也因非標準格式,故須手工整理。再來第二個遭遇xml並非完全是標準well format,所以透過dictionary 結構轉換到pandas的可分析,這裡切記一定要先檢驗資料,不然會有鬼擋牆的結果,可利用 Dataframe 的 isnull 方法來檢測。
今天的分析僅淺薄的入門作到前章ETL,及資料視覺化,但其實在ML的教條裡,ETL 才是佔領 90% 的時間. 目前希望能有高產出來分析一些生活化的資料, 也希望能用 ML 模型來作一些推論, 期待很快再發佈下一份報告.
网友评论