Blog
/
AI
3種打造 AutoML 自動化機器學習的方式(含平台推薦)
AI
DataRobot

3種打造 AutoML 自動化機器學習的方式(含平台推薦)

28/12/2022

AutoML 概念最早在1990年代就被提出,這概念大幅改進機器學習的效率,自此不管是科技巨頭、新創界、學術界都提出了各種自動化機器學習的方法與工具,包含簡單的開源模型到可以產業級規模化的軟體產品。

從現在到 2024 年,AutoML 依舊是個重要趨勢,因為這不僅只是提升資料科學團隊的產出效率,更是讓機器學習技術更容易擴展到各營運單位的決策日常,企業進而得以從規模化應用中取得對營收與成本上的回報。

本文匯集所有您對 AutoML 的疑惑,包含: AutoML是什麼、 企業為何重視 AutoML、有哪些方式可以打造自動化機器學習的機制、哪些商業化的平台可以選擇、如何考量與選擇等面向。

一、AutoML 是什麼?自動化機器學習?

AutoML 是自動化機器學習的簡稱,全名 Automated Machine Learning,AutoML 是一種 AI 自動化建模的技術,目的是:做到快速又大規模的模型開發並選出最佳模型,讓非常耗時、非常仰賴資料科學家經驗值的機器學習模型開發週期,能夠簡化、系統化、自動化運行。

簡單一句就是:AutoML 可以讓機器學習模型開發週期內,最耗時費力的步驟(e.g. 資料預處理、處理特徵工程、演算法挑選、調校超參數、模型選擇等) 自動化運行。

當採用自動化機器學習 AutoML 技術,資料科學團隊有更多時間可花在定義商務問題、監控維運持續迭代、跟決策者解釋溝通、協助最終決策,等更直接影響商務結果的任務上

乍看之下,AutoML 好像就只是一個資料科學團隊應該知道的技術,一種提升他們生產力工具的技術,對整個企業而言,最大好處是什麼?

二、為何企業開始採用 AutoML 技術?

企業為什麼開始採用 AutoML?很簡單的3大原因:

  1. 資料科學家、機器學習工程師等專才嚴重短缺,這是中短期內無法解決的
  2. 資料科學領域的技術變化快速:當今熱門的框架,可能在一兩年後就替換成另一個技術或框架了,好不容易找到的人才,他的經驗可能幾年後就需要打掉重來或一直做培訓
  3. 組織可以採用機器學習的應用面向越來越廣:越來越多企業採用機器學習「強化內部營運效率」、「升級對外給客戶的服務體驗」,組織可以採用機器學習的應用面向越來越廣,意味著需要開發的模型數量越來越多,資料科學團隊便會開始追求如何提升產出效率,如何以同樣的人力做更多的事?

也因此,我們才會開始思考:

能不能設計一系列高級的控制系統去操作機器學習模型,讓模型可以自動的學習到合適的參數與配置,且過程中無需太多人工干預?

等於是機器學習過程 AI 化,自動建議出最佳模型與預測結果

三、AutoML 可以為企業帶來的5項好處

  1. 解決資料科學領域專才的短缺: AutoML 可以讓本身就對資料敏銳的人才,用最低門檻的方式,擁有資料科學家的能力,是利用工具變相的促成人才轉型,例如:商業分析師、IT人、行銷人等都會希望能在自己的工作範疇內的決策行動,納入機器學習的設計,以做出更好的決策。
  2. 能即時因應最新技術框架,縮短人才重新刷新知識的時間差
  3. 更多潛在的創新:可同時開發多項機器學習專案,因為我們讓每個部門都有機會應用機器學習,這意味有更多商業營運優化的可能性。就算只給資料科學家使用 AutoML 平台,也會像是一台法拉利與好油的組合,不僅每一個專案都可以更快速的迭代,還有更多時間去發展探索其他可能性,幫助資料科學家發揮他的最佳效能。
  4. 降低機器學習專案的開發成本:人力時間的運用成本,使用 AutoML 可以自動完成許多手動工作
  5. 更快的回答問題、解決問題,這才是終極目標:我們的目的不是要花很多時間寫code,公司跟公司間的競爭重點不在此,我們真正要的是:解決問題的過程縮得越短越好,且同時,要確保有足夠的時間釐清對的問題。

四、AutoML 可以自動化的任務有哪些?

現在,我們知道 AutoML 對於想要快速從取得 AI 應用成果的企業來說,是必備採用的 AI 自動化建模的技術,而這項技術可以透過自行打造或是直接採用軟體平台來取得。

再來,你可能會問, AutoML 到底自動化了哪些事?

從一個資料科學的工作流程來看,目前很多資料科學家花最多時間在資料取得、資料處理、模型開發,為了找出最佳的模型,需不斷來回的調整超參數

但實際上,我們會希望他們把寶貴時間花在更複雜、更根本性的任務上,例如:定義問題、重擬問題、評估是否正在做對的事情等,因為方向錯誤,再怎麼努力也達不到要去的地方。

下圖以首家提出 AutoML 商業解決方案的 DataRobot 為示意:

AutoML 平台可以自動化許多機器學習流程中的任務,包括:

  1. 特徵工程:特徵工程是機器學習流程中的一個重要步驟,涉及對輸入數據進行預處理、轉換和選擇,以便為機器學習模型提供最佳輸入。 AutoML 可以自動執行許多特徵工程步驟,如數據清洗、缺失值處理、離散特徵編碼、連續特徵縮放等。
  2. 模型選擇:AutoML 可以自動選擇最佳的機器學習模型,並對多個不同的模型進行評估,從而選擇最佳模型。
  3. 超參數調教優化:AutoML 可以自動調整機器學習模型的超參數,以便獲得最佳性能。
  4. 模型部署:AutoML 可以自動將機器學習模型部署到生產環境,使得企業能夠快速將模型應用到業務中。
  5. 模型監控
  6. 模型重新訓練

需要注意的是,資料科學家仍需要參與模型的構建和評估,並確保模型的解釋性和可解釋性,AutoML 的角色在於讓整個機器學習流程可以更加快速,是一個輔佐與驗證的角色。

下圖以 DataRobot 從 AutoML 到 MLOps 階段可協助資料科學家的內容為示意:

DataRobot 企業級AI平台全圖

 

五、打造自動化機器學習的3種方式

就如同自動駕駛有分五等級,完全的自動化駕駛可以將你從A點直接載你到B點,完全不需要任何的干預。而讓機器學習流程自動化,一樣也會依照設計方法的不同而達到不同程度的自動化

  • 方式一:從頭自己打造,用最入門的程式語言 like C++,但很難做到,因為需要非常高程度的軟體工程,同時也很難規模化,這已經是過去式的做法。
  • 方式二:運用演算法 APIs (以程式設計方式使用演算法建模功能的方法) like Sklearn, Keras, Pandas, H2O, XGBoost ,這可以讓有coding 能力的新手在短時間內實際打造簡單的模型,這也是很多人在 Kaggle 上操練的重點,這階段可以做到自動化的調教超參數、基本的模型組合與選擇。問題是,你很難管理這些日新月異的 APIs
  • 方式三:採用市面上 AutoML 解決方案,多數平台都可以做到自動化處理特徵工程,讓你即便不是非常完全了解資料欄位的意義,也可完成複雜的特徵工程處理與挑選。 當然,自動化處理特徵工程,一樣有很多的 libraries 可以做到,但一個 AutoML 平台解決方案,可以在後端運行這些 libraries,同時前台的 GUI 圖形化的使用者介面,能讓更多人參與進來、容易使用,這加速迭代與開發

簡單來說,設計一個框架讓機器學習流程可以自動化,一個 AI 自動化系統,有不同程度的自動化。

自動化程度等級一與等級二是透過很多開源框架,可以做到超參數調教、模型組合等

機器學習自動化等級三就是使用 AI 對你來說已是彈指之間的事,只要你在使用資料、想從資料看出原本分析做法看不到的模式,就可以很輕鬆的運用機器學習的技術

這階段也是很多市面上 AutoML 平台最主要的價值訴求:簡單、快速、不限於資料科學家可以使用。

六、AutoML 平台如何選擇? 5個要優先考量的評估點

透過以上,已經知道很多公司藉由採用 AutoML 平台來提升資料科學團隊的生產力(速度與規模),藉此能多次運轉不間斷的機器學習週期,當有更多次的優化迭代,在機器學習應用層面上,會有越來越精準的結果

在選擇 AutoML 平台時,可以優先考慮以下五個基本評估重點:

  1. 功能:是否支持自動化的特徵工程、模型選擇、超參數調教、模型部署、模型監控與再訓練等
  2. 可擴展性:例如,是否可以添加自定義模型或使用第三方工具、考慮 AutoML 平台是否支持你常用的機器學習框架,例如 PyTorch、TensorFlow 等
  3. 易用性與可維護性:例如,容易操作的介面、檢查 AutoML 平台是否易於維護和升級
  4. 性能:是否支持分佈式計算
  5. 服務支持:是否提供文件、技術支持、培訓課程等

另外,還可以考慮以下幾點:

  • AutoML 平台是否能與時俱進:使用 AutoML 平台很大一部分是因為,一個人不可能精通機器學習流程的所有環節,就算是在 Kaggle 上,也不是一個專家擅長所有項目,有些人是深度學習專家、有些是 GBM 專家,有些則是專注在特徵工程。因此,選擇採用一個平台而不是聘請所有領域專才,就是希望平台已經整合最新的、最厲害的技術在內。
  • AutoML 平台是否能提供足夠的數據隱私保護
  • AutoML 平台是否具有足夠的穩定性和可靠性
  • AutoML 平台是否具有足夠的模型解釋性透明、可信任的:如果你認為演算法本身就是黑盒子,那麼 AutoML 可能就是一個更巨大的黑盒子,畢竟中間的所有步驟是自動完成。你丟入資料,就會直接給你一個最佳模型與預測結果建議,然而,若你無法向利害關係人解釋這其中的原因,那將會帶給你更大的挑戰,因此,一個平台能否輔助你理解中間的過程,讓你可以有信心的向最終決策者說明,讓對方在做最終決定時能感到安心,也是越來越被關注討論的面向。

透過以上,根據自己的需求和偏好,確定這些要素的重要性比重,綜合考慮這些因素,選擇最合適的 AutoML 平台

七、可使用的 AutoML 工具有哪些?

可以分為兩大類:開源 AutoML 工具、商業化的 AutoML 平台(AutoMLaaS) AutoML as a Service

一些開源 AutoML 工具

商業化的 AutoML 平台(AutoMLaaS)

除了三大雲端大廠推出的 Google Cloud AutoML、Microsoft Azure AutoML、Amazon Web Services 上的 SageMaker 外,還有像是:DataRobot、H2O Driverless AI、SAS、IBM、Databricks 等(Gartner Peer Insights 可以點此

各大廠平台功能會不斷演進,在此製作比較表也不會是最實際的。

因此更重要的是知道除了功能以外,還要掌握哪些面向,再根據企業在當前、未來需要完成什麼事去思考,去選擇不但可滿足目前需求,且未來產品願景也能對標公司戰略目標的策略合作夥伴。

八、企業導入 AI 還有哪些模型開發以外的困難?

根據 2022 年 McKinsey Global Survey on AI 報告,他們解構那些在 AI 投入取得高績效的企業,分別在策略、資料、模型/工具/技術、人才與作業方式這四大面向,各做對了哪些事、哪些事拉開了與一般企業的差距。

也就是說,採用 AutoML 平台建構自動化系統只是解決 AI 導入挑戰的其中一件事,

  • 策略:有清楚的 AI 願景與策略、有清晰的 AI  專案發展路線並與各部門商業價值有直接相關、有明確的監管架構可涵蓋模型開發的所有步驟等
  • 資料:有能力將資料即時整合到 AI 模型中、有一個資料架構模組可以快速因應新的應用案例、當資料不夠充裕的時候依舊有能力合成資料去訓練模型等。可延伸參考:此篇的導入 AI 的基本條件與基本功 Data
  • 人才與作業方式:採用全生命週期的方式去開發與部署 AI 模型、有一個明確定義的能力升級計畫提升 AI 技術人員的技能、有協同合作的機制等
AI 高績效企業在模型工具技術最對的事

九、從 AI 投資取得高回報的2大要點

根據另一份麥肯錫的 AI 現狀調查報告中指出,那些從 AI 投資中成功獲得高收益率(主要是營收的增長)的企業需同時具備兩種特徵:強大的 AI 執行流程與架構,以及高質量的 AI 自動化系統

以我們 PGi 樺鼎代理的 DataRobot 平台為例,DataRobot 不只提供釣竿 (美國政府單位都買單的 AI 自動化系統),還建立知識體系、和你同進退的 Data Scientist 專案夥伴,目標要確保你知道「怎麼高效釣魚」

培訓課程與循序漸進的成功計畫 (Education):

目的是讓企業內不同角色能在共同認知下溝通,特別還針對 Executives 高階主管提供培訓,讓高階管理者跟專案團隊溝通時,能提出有實質意義、有挑戰性的問題或建議 ➜ 看 DataRobot University

此外,DataRobot 還包括一份精心策劃的 AI 成功計劃,幫助客戶增強 AI 成熟度與能力。對於不熟悉 AI 的客戶,AI 成功計劃通常會更側重於啟用與教育活動,並協助建立最適合客戶操作需求的 AI 框架與流程。

隨著客戶 AI 成熟度的提升,AI 成功計劃可與客戶的 AI 策略保持一致,將重點轉移到擴大 AI 在所有業務部門的應用,以及加強現有實踐、提高效率的能力。

專案服務 (Service):

已經做過 POC 的客戶應該都知道,DataRobot 的 POC 和一般軟體的 POC 很不一樣,這是一個很重視雙方都要投入的過程,很像立即開始一個小型專案。

DataRobot 在 POC 階段,就會指派一個面向客戶的 Data Scientist (Customer-facing Data Scientist,CFDS),DataRobot 在全球 10 個辦公室有超過100位這樣的角色,主要會和客戶一起評估要做 POC 的議題是否真的適合、還需要哪些資料、甚至協助客戶試用等。

而在正式進入三年期的專案期,這位 DataRobot 的 Data Scientist 除了會依照你的團隊成熟度去規劃各階段的訓練課程,確保團隊的基礎知識與共同語言外,也會帶入全球各地其他 DataRobot 客戶的實操經驗,注入更多思考事情的視角。

總的來說,DataRobot 的 Customer-facing Data Scientist(CFDS) 在公司團隊內的角色,像是辦公室外延伸的即戰力員工、全球應用案例的資訊情報員,最終在密切合作過程中,讓既有團隊的能力也同步升級。

PGi 樺鼎商業資訊自2018年成為 DataRobot 在台灣的在地合作夥伴以來,與 DataRobot 攜手導入過台灣的光電廠、零 售、人壽、傳產製造等各行業,以及政府單位的氣象局。無論是在產品介紹、評估階段、導入和支援上,都有相當的經驗。

我們負責提供客戶在地的即時服務,與 DataRobot 的海內外顧問與技術人員緊密合作,讓溝通和協助更有效率

十、關於 DataRobot

DataRobot 成立於 2012 年,由一群在 Kaggle 上的 Grandmaster 打造而成,團隊將業界公認的大師經驗內建在平台之內,並根據市場最新的開源機器學習框架,不斷新增與測試,以保持最優化的狀態,是全球第一個建立 AutoML 商業解決方案的公司。

在最新的 2022 第三季 The Forrester Wave 報告中,共有 15 家精選的 AI 與 ML 平台廠商,DataRobot 名列在前三大領導品牌,是目前市面上值得信賴的 AI 平台之一。

DataRobot 從一開始的 AutoML 出發,演變到現在成為更全面性的企業級AI 平台,能隨著台灣企業 AI 成熟度的逐步提升,搭配我們在地的顧問支持服務,滿足不同階段的需求,致力協助各產業與規模的企業都可快速採用 AI、落實持續性優化的 AI,並轉為實際商業價值。

DataRobot 全球客戶已遍及2千大企業,橫跨金融、保險、高科技製造,醫療、零售等產業的領先者,皆透過 DataRobot 自動並加速企業的數據變現之路。

➜ 也推薦閱讀:DataRobot AI 平台介紹|從 AutoML 到 MLOps 重點功能,此篇透過房價預測的應用案例,快速展示 DataRobot 在 AutoML 與 MLOps 上,有別於其他 AI 平台的獨創設計,你可以將相同概念應用在你的應用案例上,思考原本的預測方式,可以如何借力平台,更快實現企業數據變現。

DataRobot 在2022 Q3 The Forrester Wave 領導者
➜ 了解更多:下載 2022 企業取得 AI 成功的 10 個關鍵
➜ 了解更多:DataRobot 的 MLOps 詳細設計 或下載 MLOps 101 入門指南

相關文章