2016年1月4日

完整文章位於 OXXO.STUDIO 新網站
點選閱讀完整文章:
http://www.oxxostudio.tw/articles/201512/spider-basic.html

摘要:
幾個月前聽了一場用 NodeJS 做爬蟲的分享,大致上就是用純前端的技術,來爬靜態網頁的資料,聽完一直很想做個爬蟲看看,剛好最近因為「空氣污染」( PM2.5 ) 正夯,公司也正在研發 PM2.5 的感測器,於是就想說自己先來試試看,用爬蟲去中央氣象局爬爬 PM2.5 的數據。 爬空污數據除了直接爬網頁資料外,也可以從「空氣品質即時污染指標」這個政府開放資料平台來撈,這裏有提供 CSV、JSON 和 XML 的格式,不過因為這篇在爬蟲,所以我要爬的網站是這個:「即時細懸浮微粒指標」,加上這個網站更新的速度比開放資料的速度快 ( 雖然都是一小時更新一次,不過還是快樂十幾分鐘左右 ),所以就直接爬數據囉!