據(jù)Gartner研究,在過去幾年內(nèi),IT運(yùn)營人員 (IT Ops) 發(fā)生了巨大變化。這種變化的推動力來自于企業(yè)IT運(yùn)營團(tuán)隊(duì)認(rèn)為傳統(tǒng)IT管理技術(shù)和方法已經(jīng)無法適應(yīng)數(shù)字化業(yè)務(wù)轉(zhuǎn)型。
Gartner預(yù)測,我們會看到當(dāng)前的IT應(yīng)用程序會發(fā)生劇變,而且我們管理整個IT生態(tài)系統(tǒng)的方式也會改變。這些變化的關(guān)鍵是Gartner所稱的AIOps平臺。
AIOps是什么?
AIOps指多層技術(shù)平臺,這些平臺采用分析和機(jī)器學(xué)習(xí)技術(shù)分析從多種IT運(yùn)營工具和設(shè)備收集的大數(shù)據(jù),自動實(shí)時確定并應(yīng)對問題,從而實(shí)現(xiàn)IT運(yùn)營的自動化和增強(qiáng)。
Gartner解釋了AIOps平臺如何采用下圖所示模式而運(yùn)行。AIOps包含兩個主要組件:大數(shù)據(jù)和機(jī)器學(xué)習(xí)。它要求摒棄孤立的IT數(shù)據(jù),以整合觀測數(shù)據(jù)(例如在監(jiān)控系統(tǒng)和工作日志中發(fā)現(xiàn)的數(shù)據(jù))和大數(shù)據(jù)平臺內(nèi)部的交流數(shù)據(jù)(通常存在于工作單、事故和事件記錄中)
然后,AIOps針對匯總的IT數(shù)據(jù)實(shí)施一種綜合的分析和機(jī)器學(xué)習(xí) (ML) 戰(zhàn)略。這樣做的預(yù)期成效是獲得持續(xù)的洞察力,進(jìn)而采用自動化能力實(shí)現(xiàn)持續(xù)改進(jìn)和修復(fù)。AIOps可視為核心IT功能的持續(xù)集成和部署 (CI/CD)。
Gartner的AIOPS平臺示意圖
AIOps將三個不同的IT專業(yè)結(jié)合在一起 — 服務(wù)管理、性能管理和自動化 — 以實(shí)現(xiàn)持續(xù)洞察和改進(jìn)的目標(biāo)。在我們新的IT加速環(huán)境中,AIOps是一種識別策略,必須采用由大數(shù)據(jù)和機(jī)器學(xué)習(xí)支撐的新理念。
AIOps的來歷
對于傳統(tǒng)企業(yè)來說,AIOps并不是一個全新的理念,而是IT運(yùn)營分析和管理(ITOA/ITOM)體系與大數(shù)據(jù)和人工智能技術(shù)結(jié)合的產(chǎn)物。
AIOps智能運(yùn)維以ITOA/ITOM系統(tǒng)所采集的運(yùn)維大數(shù)據(jù)為基礎(chǔ),利用人工智能和機(jī)器學(xué)習(xí)算法對運(yùn)維數(shù)據(jù)進(jìn)行深入分析,涵蓋IT監(jiān)控,應(yīng)用性能管理、外網(wǎng)監(jiān)控、日志分析,系統(tǒng)安全等方面。
市面上流行的傳統(tǒng)運(yùn)維管理平臺,其核心組件缺少大數(shù)據(jù)采集、分析和本地機(jī)器學(xué)習(xí)的能力,需要業(yè)務(wù)運(yùn)維和AIOps平臺予以完善。
AIOps智能運(yùn)維平臺能夠接入不同業(yè)務(wù)系統(tǒng)、監(jiān)控系統(tǒng)、管理系統(tǒng)的海量IT數(shù)據(jù),并運(yùn)用各種算法進(jìn)行高速分析、學(xué)習(xí)甚至預(yù)測。
立足于AIOps,IT部門可以獲得強(qiáng)大的自動化IT決策和運(yùn)營管理能力,并能對業(yè)務(wù)質(zhì)量和用戶體驗(yàn)進(jìn)行準(zhǔn)確檢測和持續(xù)優(yōu)化。
AIOps的推動因素有哪些?
AIOps是足夠新的IT平臺,甚至還沒有自己的維基百科頁面。AIOps是Gartner IT運(yùn)營分析 (ITOA) 的下一步演進(jìn)。它的產(chǎn)生基于影響IT運(yùn)營的多個趨勢和需求,包括:
IT運(yùn)營部門手動管理基礎(chǔ)架構(gòu)的難度。此處使用“基礎(chǔ)架構(gòu)”一詞有些不當(dāng),因?yàn)楝F(xiàn)代化IT環(huán)境包括受管理的云、不受管理的云、第三方服務(wù)、SaaS集成、移動等。管理復(fù)雜性的傳統(tǒng)方法在動態(tài)、彈性環(huán)境中行不通。如果通過手動方式跟蹤并管理這種復(fù)雜性,人類的監(jiān)督能力已經(jīng)不再可能。當(dāng)前的IT Ops技術(shù)已經(jīng)超出手動管理的范圍,而且這種情況以后會越來越差。
IT運(yùn)營部門需要保留的數(shù)據(jù)量呈指數(shù)增長。性能監(jiān)控產(chǎn)生的事件和告警數(shù)量呈指數(shù)級增長。服務(wù)單數(shù)量隨著IOT設(shè)備、API、移動應(yīng)用和數(shù)字或機(jī)器用戶的引入而獲得了跳躍式的增長。同樣,手動報(bào)告和分析變得異常復(fù)雜。
基礎(chǔ)架構(gòu)問題必須更快地解決。隨著企業(yè)的業(yè)務(wù)逐步數(shù)字化,IT也變成了業(yè)務(wù)。技術(shù)的“消費(fèi)化”改變了所有行業(yè)中的用戶期望。對IT事件的響應(yīng)–無論是切實(shí)發(fā)生還是認(rèn)為會發(fā)生的事件–需要立即進(jìn)行,尤其是在問題影響用戶體驗(yàn)的情況下。
更多計(jì)算能力轉(zhuǎn)移到網(wǎng)絡(luò)邊緣。云基礎(chǔ)架構(gòu)和第三方服務(wù)的輕松采用使業(yè)務(wù)線 (LOB) 職能人員能夠構(gòu)建自己的IT解決方案和應(yīng)用??刂茩?quán)和預(yù)算從IT核心轉(zhuǎn)到邊緣。更多計(jì)算能力(可充分利用)來自核心IT外部。
開發(fā)人員擁有更多權(quán)力和影響力,但責(zé)任仍由核心IT人員承擔(dān)。DevOps和敏捷迫使編程人員在應(yīng)用層面承擔(dān)更多監(jiān)控職責(zé),但I(xiàn)T系統(tǒng)的整體健康狀態(tài)以及應(yīng)用、服務(wù)和基礎(chǔ)架構(gòu)間的交互仍由核心IT部門負(fù)責(zé)。隨著網(wǎng)絡(luò)日益復(fù)雜,IT運(yùn)營部門要承擔(dān)更多職責(zé)。
AIOps的要素
對于AIOps理念,舊有的IT運(yùn)營方式不適合以上需求所定義的新世界。同樣,Gartner將IT運(yùn)營管理 (ITOM) 和應(yīng)用性能管理 (APM) 定義為魔力象限市場,而且Gartner可能也為AIOps市場創(chuàng)建一個魔力象限。
AIOps平臺由以下要素組成:
構(gòu)成AIOps平臺的技術(shù)
全面且不同的IT數(shù)據(jù)源 - 來自目前孤立的工具和IT領(lǐng)域,例如事件、指標(biāo)、日志、作業(yè)數(shù)據(jù)、工單、監(jiān)控等。
大數(shù)據(jù)平臺 – 匯總IT數(shù)據(jù),用于進(jìn)行歷史分析、實(shí)時響應(yīng)和洞察。
計(jì)算(運(yùn)算)和分析 – 使系統(tǒng)能夠從現(xiàn)有IT數(shù)據(jù)中生成新數(shù)據(jù)和元數(shù)據(jù)。運(yùn)算和分析也消除了噪聲,可識別模式或趨勢,隔離可能的問題,發(fā)現(xiàn)底層問題,并且實(shí)現(xiàn)其他IT特定目標(biāo)。
算法 – 利用IT領(lǐng)域?qū)I(yè)知識,根據(jù)企業(yè)數(shù)據(jù)及其預(yù)期成果的要求,以智能化方式適當(dāng)且高效地運(yùn)用計(jì)算和分析能力。
無人監(jiān)督的機(jī)器學(xué)習(xí) – 可根據(jù)算法分析輸出結(jié)果和引入系統(tǒng)的新數(shù)據(jù)而自動修改或創(chuàng)建新算法。
可視化 – 以易于使用的方式向IT運(yùn)營人員呈現(xiàn)洞察和建議,有助于加深理解并采取行動。
自動化 – 采用分析和機(jī)器學(xué)習(xí)成果自動創(chuàng)建并運(yùn)用響應(yīng)措施,或者針對已發(fā)現(xiàn)的問題進(jìn)行改進(jìn)。
如上文所述,AIOps平臺應(yīng)包含性能管理、服務(wù)管理、自動化和流程改進(jìn)等IT學(xué)科, 以及監(jiān)控、服務(wù)臺、容量管理、云計(jì)算、SaaS、移動性、IoT等技術(shù)。
AIOps是IT走向運(yùn)營的點(diǎn)金手
未來幾年,數(shù)字化系統(tǒng)的運(yùn)行效能對企業(yè)核心競爭力的影響越來越大,CIO所領(lǐng)導(dǎo)的IT部門在運(yùn)營中所扮演的角色也越來越重要。
然而,隨著系統(tǒng)規(guī)模和復(fù)雜度呈指數(shù)級增長,IT人員解決問題的能力不會有太大的變化。要讓IT擺脫傳統(tǒng)運(yùn)維工作的束縛,就需要運(yùn)用AIOps智能運(yùn)維平臺來有效承擔(dān)基礎(chǔ)運(yùn)維的種種責(zé)任。
在AIOps的幫助之下,IT人員可以從繁瑣的常規(guī)工作中得到徹底的釋放,專注于對企業(yè)發(fā)展更有價值的工作 – 業(yè)務(wù)和用戶體驗(yàn),讓IT真正走向運(yùn)營。
“AIOps正在廣泛應(yīng)用于IT大數(shù)據(jù)和業(yè)務(wù)大數(shù)據(jù)分析領(lǐng)域,為企業(yè)提供極具價值的業(yè)務(wù)洞察能力”。
據(jù)Gartner分析師最新預(yù)測,到了2022年,部署AIOps平臺的大型企業(yè)數(shù)量將從如今的不足5%,迅速提升到40%左右,而這些企業(yè)會把AIOps用于業(yè)務(wù)運(yùn)營和IT運(yùn)維,以取代如今的運(yùn)維監(jiān)控、管理工具和自動化運(yùn)維產(chǎn)品。
當(dāng)企業(yè)的數(shù)字化程度越來越高, IT系統(tǒng)的復(fù)雜度和規(guī)模越來越大,擺在CIO面前的這道雙選題:是不斷增加業(yè)務(wù)流程?還是采用AIOps平臺?似乎不難抉擇......