Blog
/
AI
聽完 DataRobot 介紹後你可能會有的9個疑問
AI
DataRobot

聽完 DataRobot 介紹後你可能會有的9個疑問

18/5/2023

特邀 DataRobot 亞太區首席數據科學家,回答台灣客戶常有的提問,包含:如何提高 AI 專案成功率、如何整併自行開發的模型到 AI 平台中、部署在雲端與地端的選擇、如何串連 BI 工具、與 SAP 的整合、DataRobot 訂閱方式、如何進行企業級跨團隊的試用等

Dean 目前人在新加坡,過去在各行業的 AI 開發與應用經驗超過20年,先前在 Apple 擔任過供應鏈分析師、在 McKinsey 麥肯錫擔任過高級 AI 顧問、也在 Google 做過資料科學家,目前是 DataRobot 亞太區首席數據科學家

以下內容摘錄自我們 PGi 樺鼎商業資訊的 AI 技術顧問與 Dean 一起面向台灣企業人才,交流 AI 平台、MachineLearning  相關問題的簡答

若本篇的問答有初步幫助到您,而您也願意花時間實際了解 DataRobot 為什麼有能力成為世界級的 AutoML 與 MLOps 平台

我們都很願意直接交談,甚至邀請 Dean 來台灣,與您討論更有趣的 Machine Learning 與 AI 問題,把一些高潛力的 AI 的應用變成真正有影響力的商業應用

此內容也同步在 YouTube 頻道上,也可用聆聽與觀看的方式了解內容

一、如何提高 AI 專案成功率?使用 DataRobot AI 平台失敗怎麼辦?

一個 AI 專案沒有成功的話,其實不管是使用 DataRobot 還是其他的資料科學方式,在 AI 方面的 initiative 都是非常常見的,不是所有的想法最後都能夠實現

企業很常發生的狀況是,有一個很好的 AI 想法,但可能因為資料量不夠多、可能因為定位不夠清楚,所以最後沒有成功,這個是很常見的

所以 DataRobot,從兩方面在盡量避免這種情況發生

1-1. DataRobot 是一個自動化的機器學習平台

因此我們可以 Fail Fast and Success Fast,當我們越早發現這個不成功,越早可以改換跑道,然後去開發一個成功的案例,因此利用 AutoML 自動化機器學習的一大優勢,就是可以讓我們盡快去修正調整,加快找到一個成功的案例

1-2. DataRobot 其實不光是一個軟體平台

我們不光是像 windows 或者 office 這樣,買了之後給你自己學自己用,DataRobot 也提供一些服務,不管是透過 PGi 樺鼎,還是透過我們 DataRobot 自己提供的顧問服務,

這些服務,目的是去保證在規劃未來的案例的過程中,能考慮到哪些有可能是會不成功的因素或有哪些局限性

DataRobot AI 導入顧問,都是有十幾年經驗在 AI 與 Data Science 方面的開發,不同的產業有不同的專業,所以我們會有一些預見性,可以分享什麼樣的案例更容易獲得成功,或是什麼樣的案例在類似的企業已經獲得成功了

這可進一步降低未成功案例的可能性,讓失敗的案例會越來越少

1-3. 從 AI 投資取得高回報的2大要點

根據一份麥肯錫的 AI 現狀調查報告中指出,那些從 AI 投資中成功獲得高收益率(主要是營收的增長)的企業需同時具備兩種特徵:強大的 AI 執行流程與架構,以及高質量的 AI 自動化系統

DataRobot 不只提供釣竿 (美國政府單位都買單的 AI 自動化系統),還會幫助企業建立知識體系、提供與企業同進退的 Data Scientist 專案夥伴,目標要確保台灣企業知道「怎麼高效釣魚」

培訓課程與循序漸進的成功計畫 (Education):

目的是讓企業內不同角色能在共同認知下溝通,特別還針對 Executives 高階主管提供培訓,讓高階管理者跟專案團隊溝通時,能提出有實質意義、有挑戰性的問題或建議 ➜ 看 DataRobot University

此外,DataRobot 還包括一份精心策劃的 AI 成功計劃,幫助客戶增強 AI 成熟度與能力。對於不熟悉 AI 的客戶,AI 成功計劃通常會更側重於啟用與教育活動,並協助建立最適合客戶操作需求的 AI 框架與流程。

隨著客戶 AI 成熟度的提升,AI 成功計劃可與客戶的 AI 策略保持一致,將重點轉移到擴大 AI 在所有業務部門的應用,以及加強現有實踐、提高效率的能力。

專案服務 (Service):

已經做過 POC 的客戶應該都知道,DataRobot 的 POC 和一般軟體的 POC 很不一樣,這是一個很重視雙方都要投入的過程,很像立即開始一個小型專案。

DataRobot 在 POC 階段,就會指派一個面向客戶的 Data Scientist,DataRobot 在全球 10 個辦公室有超過100位這樣的角色,主要會和客戶一起評估要做 POC 的議題是否真的適合、還需要哪些資料、甚至協助客戶試用等。

而在正式進入三年期的專案期,這位 DataRobot 的 Data Scientist 除了會依照你的團隊成熟度去規劃各階段的訓練課程,確保團隊的基礎知識與共同語言外,也會帶入全球各地其他 DataRobot 客戶的實操經驗,注入更多思考事情的視角。

總的來說,DataRobot 的 Customer-facing Data Scientist(CFDS) 在公司團隊內的角色,像是辦公室外延伸的即戰力員工、全球應用案例的資訊情報員,最終在密切合作過程中,讓既有團隊的能力也同步升級。

PGi 樺鼎商業資訊自2018年成為 DataRobot 在台灣的在地合作夥伴以來,與 DataRobot 攜手導入過台灣的光電廠、零售、人壽、傳產製造等各行業,以及政府單位的氣象局。無論是在產品介紹、評估階段、導入和支援上,都有相當的經驗

我們負責提供客戶在地的即時服務,與 DataRobot 的海內外顧問與技術人員緊密合作,讓溝通和協助更有效率

二、DataRobot 的部署方式? 如何確保資料安全性?

DataRobot 提供雲端、也提供 On-Prem 的安裝部署,或是雲地混合都可。

在亞洲範圍內,我們有很多對資料安全性的考量很高的客戶,像是金融銀行業,因此在服務銀行業、或是其他對資料安全性很重視的客戶的過程中,我們都是提供 on-premises

是不是有一些運算一定要在雲端算?

如果整個 platform 是在地端安裝運行的話,是不需要雲端的計算的,我們可以是完全在 on-premises 地端來完成整個的運算

如果安裝在地端,新的演算法會不會更新?

基本上每年都會釋出新版本(最新版本請點選查看),只要企業有繼續購買使用權,就可以自由決定要不要升級版本,若有升級版本,那演算法庫就會一起更新

一般來說,DataRobot 每年都會有一個大版本的更新,模型也會隨之更新。不過,就算是不更新的話,在 90% 的情況下,都可以正常運轉,因此不會是大問題

DataRobot 企業級AI平台全圖

三、自行開發的模型能否併入 DataRobot 平台內管理?

有兩種方式,一是可以自己改 Blueprint,直接在 Blueprint 裡面加演算法,而你整個模型訓練還是在 DataRobot 上面,只是用 Blueprint  ( 參考 Add/Delete Models )

另一部分是建立 custom inference models ,可以把在外面已經訓練好的模型,透過這過功能把它上傳到 DataRobot 上面,基本上就是要給他一個叫做 model 的 pkl 檔

四、上線後的模型如何保持高準確率?

基本上有三個方向

4-1. 有監控機制

在 actual data 上來過後,我們會看我們的 accuracy 和 actual data 和真正的結果進行比較看是不是準確,如果不準確的話,我們會在那個 Dashboard 上會有一個 notification

4-2. 有 Champion 和 Challenger Model 機制

除了本來訓練的時候表現最好的 model 之外,訓練時候表現第二好,或不那麼好的 Model,我們也可以同時保持它運轉,這樣在有數據發生偏移的時候

或許先前表現最好的那麼模型表現不那麼好了,但是你以前表現不那麼好的模型,可能沒有用這樣的數據,所以他的表現可能變成更好的

所以在那樣的情況下,你可以做 Hot Swap,就是把 Champion 和 Challenger Model 換一下,那你的準確率依然可以是很高的

➜ 參考 Enable challenger models

4-3. Re-training 或 refreshing 機制

當你的準確率不夠高的時候,你可以告訴 DataRobot 你是想藉由以前的這個演算法,只是重新調整它的參數,也就是 refresh 刷新 model ,還是說你想徹底去找一種新的演算法、新的規律,也就是重新搭建這個 model,這些都是可以自動化的。

你只要告訴 DataRobot 一次,如果不準確了你是要 refresh 還是 retrain,還是只是送一個通知 Email

DataRobot 就會知道說,下次如果模型不太準確的時候,我就這樣去 refresh 或 rebuild,那它的準確率也可以是最高水準的,所以這些都是我們來保證這個準確度到高水準的一些方法

上線後,什麼時候點知道要更新演算法?

如果使用 DataRobot API 進行預測的話,首先你的結果我們會給你

但是,經常的情況是你在 predict 的時候,你沒有那個 Actual Data ,也就是有可能,你正確的結果,可能要隔一段時間才會知道

因此經常的情況是,你在 predict 過後我們給你結果,等過一周,或是等你有了 actual data 的時候,你可以再上傳這個實際資料,DataRobot 就會去計算他的準確性,接著就可以去觸發一個通知,告訴你說 accuracy 掉了

或者是我們直接觸發 re-training 或 refreshing,這些都是自動化的了,只要你告訴DataRobot,哪個數據端點是你要去儲存你的 Actual Data 的時候,就可以做到定期自動去找這個 Actual data,並驗證這個 accuracy

➜ 參考 Continuous AI : Refresh, Retrain, and Repair for an Unpredictable Mark

五、銀行業最喜歡的自動生成模型解釋文件

除了製造業與生產線的 AI 應用外,DataRobot 其實有很多其他行業的例子,各個行業都有所涉獵,包括銀行業、一些外國的警署警察局也在用我們的模型

➜ 參考:DataRobot 全球客戶案例合集

特別的來說,在這種辦公室銀行或者律師行業裡面

有一個比較相關的功能,DataRobot 有一個功能是自動生成 Compliance Report,關於模型的解說的文檔

如果會需要一些法律機關的審核的話,他可以直接用這些文檔去過這樣的審核

所以這些文檔是自動生成的,也就是說一個模型建立出來過後,會自動生成一個可能30頁的 word 檔,可以幫你通過這樣的審核,所以這樣的功能在那些特定的行業裡面非常有用

對於一個資料科學家而言,如果要自己去寫一個30頁的模型文檔,其實是一件非常痛苦的事情,所以連文件都可以做到自動化會非常有幫助

➜ 參考:自動生成 compliance documentation for the model

六、是否有與使用 SAP 的合作案例

DataRobot AI Platform 9.0 版本中裡面有一個和 SAP 的深度合作案例

也就是,以後在 SAP 的一些 Database 裡面,會直接內建 DataRobot 的預測功能,並有一些更深度的合作

當然在此之外,要去連接 SAP 的 Data Source 或是一些數據流的話也是很容易,因為我們的數據流是可以通過 JDBC 這樣的 data connector 或是 SAP HANA 的 connector 可以直接連接的

➜ 參考:DataRobot intros AI Platform 9.0, generative AI to come | TechTarget

七、與 Tableau 、PowerBI 如何串聯?

DataRobot 除了可以透過網頁介面上進行操作,實際上整個 DataRobot 也是可以透過程式端來進行運轉,所有步驟可以透過 Python,或者 R 的 API 來進行運行的

你完全可以不通過這個網頁介面,但依舊可以完成所有的模型的建立、調教以及最後的 deployment

而 Data 也是一樣,Data 也都是可以 export,或是通過 API 下載的,也就是說,一旦能夠打通這些 API 後,這些 Data 是可以連接到其他的 Visualization tool 上去做的

這有幾種情況

7-1. 只是想要 visualize data

DataRobot 會有一些應用程式,可以直接讓你將資料視覺化呈現出來,比 Power BI 更強大的地方在於,可以通過同樣的介面去上傳新的數據,去做新的預測,通過這個模型來做新的預測,是一個 interactive 可交互性的

Power BI 本身更多的是去呈現這些數據現有的樣子,它預測性可能差一點

如果只是要去視覺化呈現、只需要去看到這些數據的形態的話,其實不妨試試看 DataRobot 內建的應用程式,那些應用程式的設置已經可以實現很多的功能

➜ 參考: DataRobot 的 The Insights 功能

7-2. 現在已經有一些 Power BI Dashboard

你可能需要用到我們的預測結果在上面去呈現的話,就可以通過我剛才說的方法,用一些Python API,或者是鏈接到我們的數據下載,然後再去 PowerBI 上把它視覺呈現出來,也是沒有問題的

而 Tableau 的話,基本上它本身就有套件,可以直接透過套件直接去 DataRobot 取得,取得指定專案然後取得預測結果,然後就可以直接上面做一些,進一步 insight 的分析

當然你要做比較進階的,就是比較深度的整合,就要從 Tableau 那邊去寫,直接在他裡面去寫擴充,接 DataRobot 的 API,這樣子自由度就最高

➜ 參考:Tableau 商業科學 │ 讓銷售業績預測不再憑感覺

八、DataRobot 平台的年租訂閱方式

DataRobot 的使用訂閱這是以年計算

第一個要做的選擇是 Time Series Model 要不要包含進來,有含進來就要多一個錢

第二個選擇,在跑模型的時候,要用幾個 Worker ,同時跑幾個模型,所以你可以選擇要買到多少個 worker

第三個選擇,你希望可以部署多少模型,你需要的部署量越多,訂閱的錢就越高,那這些都是要討論

至於是否有包含 Deep Learning,Deep Learning 那塊是跟在產品本身的,假設你現在沒有買 Time Series ,即使沒有買 Time Series ,它標準的自動化模型訓練本身也有一些 Deep Learning 的模型

那如果你有買 Time Series 的話,那就另外加,因為 Time Series 裡面也有一些 Deep Learning 的模型

九、如何開始企業內部的 DataRobot 使用測試

公司內部要測的話,通常會希望所有人在同一個環境測,我們會再去跟你們做進一步討論要什麼方式去提供讓你們更多的人可以同時在同一個平台上一起做測試

➜ 了解更多:直接來信討論

十、關於 DataRobot

DataRobot 成立於 2012 年,由一群在 Kaggle 上的 Grandmaster 打造而成,團隊將業界公認的大師經驗內建在平台之內,並根據市場最新的開源機器學習框架,不斷新增與測試,以保持最優化的狀態,是全球第一個建立 AutoML 商業解決方案的公司。

在最新的 2022 第三季 The Forrester Wave 報告中,共有 15 家精選的 AI 與 ML 平台廠商,DataRobot 名列在前三大領導品牌,是目前市面上值得信賴的 AI 平台之一。

DataRobot 從一開始的 AutoML 出發,演變到現在成為更全面性的企業級AI 平台,能隨著台灣企業 AI 成熟度的逐步提升,搭配我們在地的顧問支持服務,滿足不同階段的需求,致力協助各產業與規模的企業都可快速採用 AI、落實持續性優化的 AI,並轉為實際商業價值。

DataRobot 全球客戶已遍及2千大企業,橫跨金融、保險、高科技製造,醫療、零售等產業的領先者,皆透過 DataRobot 自動並加速企業的數據變現之路。

➜ 也推薦閱讀:DataRobot AI 平台介紹|從 AutoML 到 MLOps 重點功能,此篇透過房價預測的應用案例,快速展示 DataRobot 在 AutoML 與 MLOps 上,有別於其他 AI 平台的獨創設計,你可以將相同概念應用在你的應用案例上,思考原本的預測方式,可以如何借力平台,更快實現企業數據變現。

DataRobot 在2022 Q3 The Forrester Wave 領導者

➜ 了解更多:AutoML 平台如何選擇? 5個要優先考量的評估點

相關文章