【機器學習-預測應用】中央氣象局用DataRobot預測雲、偵測霧
此 DataRobot 應用案例是 PGi 樺鼎商業資訊與 交通部中央氣象局 氣象衛星中心 的合作應用分享。
天氣預測是非常特殊但實用的科學領域,交通部中央氣象局為了因應「氣象觀測自動化之人力業務轉型」,特別像是「霧」和「雲量」這兩種需要仰賴人工量測的天氣現象。
希望透過機器學習的方式,先找出衛星觀測數據跟人工觀測數據間的關係,再將衛星資料的預測結果應用在無法透過人工實際觀測到的地點。
而選擇 DataRobot 的主要原因在於能夠自動推薦最佳演算法,因而快速得到最佳的訓練結果。在中央氣象局內部研發能量有限,無法逐一研究、編寫程序、交叉比對所有演算法的情況下,DataRobot成為氣象局 衛星中心的最佳選擇。
一、氣象局為什麼選擇與 DataRobot 合作?
中央氣象局內的氣象衛星中心最初的考量是,內部的機器學習演算法工程師、資料科學家等數據分析專才不足,因此需要借力市面上的software-as-a-service (SaaS) 以完成AI在氣象上的應用。
在自動化機器學習平台 (Automated Machine Learning Platform) 這個服務分類裡,近兩年也有很多知名軟體大廠投入其中,像是Microsoft、Google、Amazon等,但最後選擇2012年才崛起、2020年被Forbes認列為美國前50大前瞻AI公司 的DataRobot,除了因為DataRobot是創建AutoML這個服務分類的創始者外,氣象局也針對幾個面向加以評比考量,像是:
- 自動化程度
- 演算法涵蓋度
- 開源模型圖書庫的多寡程度
- 開發者環境
- 雲架構能不能落地
就平台功能面來說,DataRobot 是目前自動化程度最高、可以把整個Data Science Lifecycle 都自動化的平台,從資料準備(Paxata Data Preparation)、自動執行特徴工程Automated Feature Engineering、從上百種演算法中自動選擇最佳演算法、調整參數、甚至是最後的模型上線、監測跟管理都可以自動化。
更重要的是,DataRobot 不只單純提供一個軟體平台,DataRobot 的 AI Success program 也是合作內容的一部分,這也是讓DataRobot能與市面上其他AutoML解決方案更為不同的地方。
可以說是,DataRobot 不只是個企業級軟體平台,還是一個有能力協助合作企業,在智識、格局上都升等的AI策略夥伴(Trusted AI-Native Stratigic Partner)
DataRobot「AI-Native 策略夥伴」不是講好聽的,而是需要實際作為、資源投入來做支持的,像是:
- 核心團隊成員有堅實的Data Science背景且已被市場驗證過:Top Kagglers like Sergey Yurgenson (former 1st) and Xavier Conort (former 1st)
- 已與25家真正實踐Data-Driven的企業建立策略合作關係:像是Hadoop、HortonWorks、AWS、Google Cloud、Intel、Tableau、UiPath等
- 幫助組織成員建立基礎ML知識、建立團隊共同認知的培訓課程 DataRobot University:分別針對Data Analysts、Data Scientists、Executives 甚至提供給大學教授教學使用 (另見Academic Support Program),讓組織團隊在溝通時,能提出有實質意義、有挑戰性的問題或建議。
- 就是要確保客戶能獲得巨大成果的AI 成功計畫 AI Success Plan:在這個計畫中,除了軟體平台外,最重要的就是來自DataRobot的客戶成功團隊了,角色包含:
- Customer-Facing Data Scientist
- AI Success Manager
- Use Case Engineers
- Platform Delivery Engineers
- Account Executives
- Front Line support
總的來說,DataRobot的AI Success 客戶成功團隊在公司內的角色,就像是辦公室外延伸的即戰力員工、全球應用案例的資訊情報員。
二、氣象局最初的難題與目標
為了配合地面氣象站的轉型,很多氣象參數都改用電子式的儀器記錄,一方面能減少人工判讀的誤差,二方面是能夠將觀測資料電子化並匯入電腦的資料庫中,以利日後的分析及應用。
但氣象衛星中心遇到的一個難題是,霧量及雲量的觀測非常受限於地點跟人力。像是全台共有26個氣象觀測站,地面觀測人員以輪班制為主,上班人員主要負責各類儀器按時按點觀測,每10分鐘就要記錄一次。
若衛星的觀測資料可以完全取代人力的觀測,就可以緩解氣象觀測站人力不足、提升人員的工作內容價值、以及在離島海上或距離觀測站有段距離的地方的準確性。
但這個前提是必須知道「衛星的觀測資料和觀測員的觀測資料之間的關聯性為何?」
因為,衛星的觀測是高空往地面觀測,而氣象觀測員則是於地面往天上觀看,這兩者有不同的觀測變因,所觀測到的現象也不同。
如何將兩類資料找到關聯,以確認是否可將衛星資料運用在非人工觀測站所及的地方,是最主要的目標。
三、分析過程與結果
以雲量的預測分析為例(研究全文可點此參考)
- 資料來源:向日葵 8 號衛星的可見光、紅外線頻道觀測資料、其CLAVRx 所產生的資料
- 訓練資料筆數: 2018 年 1 月到 2019 年 9 月,每日測站的觀測及衛星資料,共有 162,100 筆
- 預測目標:台灣人工氣象站資料(26 站)觀測員記錄的雲量為十分量, 分別以數字 1 到 10 代表十分之一到十分之十
欲利用機器學習找出衛星觀測的資料和雲量之間的關係,要用於學習的特徵主要有:
- 測站處衛星觀測的亮溫/反照率
- 以測站為中心半徑 2 到 16 公里亮溫/反照率之平均、標準差、亮溫/反照率高於某閾值的網格數
- 經緯度、太陽天頂角等
驗證結果
下表2是雲量的實驗結果,採用不同的 Feature 組合所得到的 RMSE
衛星中心目前提供的雲量資料的 RMSE 為 2.363,若只統計白天的雲量資料則是 2.144、夜間是 2.762。
而 DataRobot 的結果皆優於原有的數字,不論白天晚上或全日的統計都是如此,其中最佳的Feature 組合是 DataRobot 建議名單 (使用 13 種頻道),能夠得到最低的 RMSE。
而下圖 3 是一個實際觀測資料的分析結果,
黃色數字 是每個衛星網所得到的雲量,而紅色數字則是氣象觀測員在氣象站所觀察到的結果,仔細對照可以發現差異並不大,表示機器學習的預測接近觀測。
也就是說,對於將衛星資料運用在非人工觀測站所及的地方,是具有可信度的。
四、其他應用案例
不分產業,其實都會有「預測」的需求,而 DataRobot 自動化機器學習預測平台,也已經在零售、高科技、醫療、金融、保險、運輸製造業,都取得全球指標性客戶的認可。
以下是3家知名零售商:Kroger、FamilyMart、Carrefour 及 高科技業的 Lenovo 在營運面的預測應用實例:
▶ AutoML應用案例:4知名企業用DataRobot做預測性分析
五、更多DataRobot在公部門的應用案例
DataRobot 在公部門的應用,在美國已受到美國監管機構的認可,表示具備國防等級的安全性。像是在美軍單位,一個專門負責提高美軍後勤運作單位效率的 U.S. Army Office of Business Transformation (OBT) 也選擇跟DataRobot合作。
「數據對我們來說是戰略性資產,我們透過機器學習的方式,在 Army Contracting Command ,讓我們知道整個 contracting process 哪裡還可以做得更有效率,這節省了很多成本跟資源。」
另外,美軍內部也透過 DataRobot,結合 RPA流程自動化機器人,讓原本單純依照邏輯設定的RPA變得更加智慧,讓RPA有能力「做判斷」,進而處理更複雜的自動化流程。
推薦閱讀:
- DIU awards Army contract to advance RPA using machine learning
- The U.S. Army Office of Business Transformation Uses a Strategic Partner to Drive Successful AI Initiatives
- DataRobot 公部門應用頁面
未來,我們也希望在台灣,能看見機器學習在國防單位的應用。我們都可以思考一下,預測的力量在政府中能達到什麼樣的效果。
例如,機器學習能幫助國稅局找到歸檔稅表中的異常情況,自動標記潛在欺詐性提交作進一步審查。或是可以將衛星和傳感器資料結合到氣象局的燃料預測中等。
鑑於國家安全以及數據科學家供不應求的考量,能夠採取創新作法,善用工具,加乘既有人才的能力,通過自動化機器學習,政府中的任何人都可以作為數據科學家,利用預測模型和洞察數據提供的訊息,在國家安全層級上採取最低風險的決策。
► 90秒看完 DataRobot 是怎麼運作的!
想深入了解DataRobot的實際運作?
歡迎直接預約一場Demo會議!
關於DataRobot
「Auto ML」軟體品類的原創者,也是當今自動化機器學習解決方案的全球領導廠商
DataRobot 秉持的信念:要讓所有大小規模的企業體認到,企業內既有的Business Analyst或資料處理團隊,也能利用機器學習的技術去解決更複雜的商業問題,只要提供對的工具與訓練即可,而不一定要找到所謂的data engineers、 data scientists、application developers 才能開始建立 In-house AI model 去解決商業問題。
DataRobot創辦人的解決方式:把全球最頂尖資料科學家的經驗、建模流程濃縮在一個軟體平台上,把建模跟上線流程中最煩雜的10個步驟自動化處理。