大型機器:機器學習和 ops intel 的首選平台

從 Netflix 通過播放記錄獲取使用者喜好,到自動駕駛汽車的出現,現今我們周遭的一切都在變得智能化。那麼,大型機器管理為什麼不能一樣智能化呢?

從 Netflix 通過播放記錄獲取使用者喜好,到自動駕駛汽車的出現,現今我們周遭的一切都在變得智能化。那麼,大型機器管理為什麼不能一樣智能化呢?

 

大型機器承載著執行重要任務的應用程式,可同時為數千位使用者支援數千個應用程式和接入設備。看看這些統計資料:

  • 70% 的企業交易涉及大型機器
  • 全球 70-80% 的企業資料存儲在大型機器上

從流動應用程式到資料庫,z Systems平台是現今處理和分析這些企業資料最具成本效益和安全保障的平台。隨著數據分析以及連接到大型機器的流動應用使用量和輸送量不斷增長,使得本就巨大的大型機器操作壓力進一步增加。因此大型機器自身需要具有處理自己的操作數據性數據的能力。

 

操作性數據:保證性能與複雜性間的平衡

我們如何在不影響性能的前提下應付複雜性呢?

通過大型機器的機器學習和操作智能,我們的工作也可以更加智能,而不是更辛苦。

這就是為什麼在 CA,我們將機器學習和高級分析功能融入到產品中,在 2016 年 CA World 上,CA 發佈了「CA 大型機器操作智能」(Mainframe operation Intelligence,簡稱 MOI)這款產品。CA 以客戶為中心進行創新,將深厚的大型機器專業知識和自主學習嵌入到我們的解決方案中,在出現問題前主動預防,並在出現問題後減少在探查問題根源方面對於大型機器專家的依賴。

以靈活性簡單性為設計理念,MOI 智能分析引擎是基於 Docker 技術開發的智能操作軟件,使得客戶可以輕鬆部署最先進的分析技術,作為其現有 CA 軟體投資的一部分。MOI 也可以在 zSystems 的 Linux、x86 和雲端之間輕鬆移植,有助客戶降低成本。

 

AIOps:為什麼還要找答案?「預計避免時間」直接告訴你答案

CA 大量投資於機器學習、高級分析和自動化領域,以推動更智能的大型機器管理,不僅給出「平均恢復時間」(MTTR),更重要的是「預計避免時間」(PTTA)。

這意味著我們已轉向被 Gartner 稱為 AIOps 的新類別。

「AIOps 平台是對之前所說的IT運營分析 (ITOA)技術的發展和擴展。在服務台、自動化和監控等所有主要ITOM功能中,大數據和機器學習技術重要性(由數碼業務需求造成的)和使用量日益增加,因而AIOPs應運而生。」(Gartner,《將AIOps平台應用於更廣泛的資料庫中可獲取獨特的業務洞察》;發佈時間:2016年7月1日;ID:G00296361;分析員:Colin Fletcher)

在 CA,我們認為 MTTR只是解決問題的一部分,因為它只可以在問題發生後提醒大型機器系統操作員——被動解決問題。這種方法的問題在於:你的網路運營中心控制台警報可能已經響成
一片「紅色海洋」,而關鍵警告卻沒人注意到。

通常當你看到警報的時候都為時已晚了——問題已經發生。舉個例子,這可能意味著客戶不能在手機應用程式上刷新他們的銀行餘額,從而導致客戶流失。如果你等著警報響起,就沒法做好客戶體驗,並且這並不能使你的應用程式(和你的公司)看起來更智能。

另一方面,PTTA 會提供預測,通過尋找早期信號、預測採取行動所需的時間,使得運維人員可以在問題發生之前有所行動,避免問題發生。

區別於其他解決方案將智能分析功能與解決方案本身分開,CA 將智能分析功能融入到系統視圖中,因此大型機器運維人員可提前預測到問題的發生。

例如,如果你知道 20% 的客戶問題發生在80%的時間裡,CA 大型 MOI 中的分析功能使用模式識別和行為演算法指定必要的補救步驟,並自動執行整個修復過程。
然後,監控指標的閾值將會自動產生,並基於正常的性能模式應用於正在進行的操作中。當檢測到超過閾值的異常情況(異常現象)時,系統會發出警報,同時「平滑」演算法會防止過度警報。 CA MOI 提供多用戶協作性分析工具,可以加速問題根本原因分析, 以幫助解決問題。

PTTA 的運作就像預感到感冒時開始多喝水、攝取額外的維生素 C、多睡覺一樣,而 MTTR 就是感冒之後服用藥物及治癒所需的時間。問題是「感冒後或者在大型機器遭遇運行緩慢、運行中斷或其他性能問題後,多久才能恢復?」

這就是大型機器智能操作與非智能操作的區別。

 

作者:Ashok Reddy

CA Technologies 大型機器業務總經理