智能時(shí)代,運(yùn)維工程師該談什么?
后來我們發(fā)現(xiàn)運(yùn)維系統(tǒng)有個(gè)最大的不同在于,運(yùn)維系統(tǒng)對于成功率的追求比在線業(yè)務(wù)型系統(tǒng)更高一些。在線業(yè)務(wù)型系統(tǒng),比如說我在訪問后面一個(gè)地方有問題的時(shí)候,我們會選擇盡快把這個(gè)過程失敗掉,而不是把時(shí)間不斷的拖長以及不斷的試錯(cuò)。在線系統(tǒng)會更加快的把錯(cuò)誤往外拋。但是對于運(yùn)維系統(tǒng)來講如果也這樣做,就意味著這個(gè)成功率非常難保障。所以運(yùn)維系統(tǒng)要有更好的思考,怎么保障一次運(yùn)維操作,這背后可能有幾十個(gè)系統(tǒng),而且多數(shù)是無數(shù)的團(tuán)隊(duì)寫的,阿里以前碰到的情況就是無數(shù)個(gè)系統(tǒng),質(zhì)量層次不起,什么都有。怎么保證在這么復(fù)雜的環(huán)境下,保證對外的,對用戶層面這個(gè)成功率可以做到很高的。這是一個(gè)很大的問題。
規(guī)模帶來的挑戰(zhàn)也是不容小覷
隨著規(guī)模的不斷增長,所有開源類型的運(yùn)維類的系統(tǒng),在規(guī)模化,當(dāng)你的機(jī)器規(guī)模等等其他規(guī)模上升到一個(gè)程度以后,通常來講都會面臨非常巨大的挑戰(zhàn)。阿里巴巴所有的這種類型的系統(tǒng),我們論證都是自己做是比較靠譜。最大的原因是規(guī)模,規(guī)模上去以后會遇到很多問題。像代碼托管、代碼編譯什么的,以前認(rèn)為不會有太大的問題,事實(shí)證明規(guī)模上來以后這些里面全都是問題。我們也要投入非常大的精力去做規(guī)模方面的解決。
所以我覺得,阿里從以前的工具化走向更加自動化的過程中,我們探討的核心問題就是能不能有一個(gè)非常好的組織去完成這個(gè)過程。能讓運(yùn)維的團(tuán)隊(duì)更加轉(zhuǎn)型向 DevOps 這樣的方向。所以我們一直說,我們一直很糾結(jié)運(yùn)維團(tuán)隊(duì)到底應(yīng)該叫什么名字,我們一致認(rèn)為,運(yùn)維研發(fā)團(tuán)隊(duì),我們覺得不大對,你的主要的活其實(shí)是干研發(fā)而不是運(yùn)維。但是叫研發(fā)運(yùn)維又有點(diǎn)奇怪。后來阿里巴巴基本上是叫研發(fā)團(tuán)隊(duì)。因?yàn)槲覀冋J(rèn)為運(yùn)維的研發(fā)團(tuán)隊(duì)和在線業(yè)務(wù)的研發(fā)團(tuán)隊(duì)沒有本質(zhì)區(qū)別,都是做研發(fā)的,只是一個(gè)在解決運(yùn)維領(lǐng)域的業(yè)務(wù)問題。剛才講的五個(gè)層次,運(yùn)維領(lǐng)域的業(yè)務(wù)問題,也是業(yè)務(wù),沒有什么區(qū)別。在線業(yè)務(wù),比如解決交易的問題,解決其他問題,這是完全一樣的。兩個(gè)研發(fā)團(tuán)隊(duì)沒有本質(zhì)區(qū)別。
所以這個(gè)過程,阿里經(jīng)過過去這一年的組織調(diào)整以后,我們看到整個(gè)自動化層面,阿里有了很好的進(jìn)展,但是離我們的期望還要更加努力繼續(xù)往前演進(jìn)。
阿里巴巴在智能化領(lǐng)域的探尋之路
現(xiàn)在智能化這個(gè)話題特別火熱,就像我們說,AI 這個(gè)名字興起的時(shí)候,我們忽然發(fā)現(xiàn),阿里巴巴所有的業(yè)務(wù)都講 AI+ 自己的業(yè)務(wù),被所有人狂批一通。我們要想清楚,具不具備 AI 化的前提,可能前提都不具備就不斷探討這個(gè)名字。因?yàn)闃I(yè)界在不斷的炒熱非常多的名詞,讓大家去跟隨。
自動化是智能化的前提
對于我們來講,我們認(rèn)為,比如說就像我對這個(gè)團(tuán)隊(duì),我自己的團(tuán)隊(duì)講的一樣,我認(rèn)為智能化最重要的前提是,一是自動化。如果你的系統(tǒng)還沒有完成自動化的過程,我認(rèn)為就不要去做智能化,你還在前面的階段。智能化非常多的要求都是自動化,如果不夠自動化,意味著后邊看起來做了一個(gè)很好的智能化的算法等等,告訴別人我能給你很大的幫助,結(jié)果發(fā)現(xiàn)前面自動化過程還沒有做完全。
一個(gè)最典型的 case,阿里巴巴以前一直在講,我們認(rèn)為資源的搭配上,其實(shí)可以做得更好。比如說你半夜流量比較小,白天流量比較大,你能不能更好的做一些彈性,把資源釋放出來去干點(diǎn)別的,然后白天再把它補(bǔ)起來。這從算法層面上并沒有那么復(fù)雜,從算法層面做到一個(gè)簡單的提升是很容易做的。所以,當(dāng)時(shí)我們就有很多團(tuán)隊(duì)做了一個(gè)東西,可以做到這一點(diǎn)。結(jié)果等到落地的時(shí)候發(fā)現(xiàn),業(yè)務(wù)不能自動伸縮。如果你想,比如說有些機(jī)器上面負(fù)載特別高,有些機(jī)器特別低,我們希望負(fù)載能拉得更均衡,在線業(yè)務(wù)更加穩(wěn)定化,做一個(gè)算法,比如說背包,更好的去做組合,結(jié)果就是這個(gè)東西做完了,給出了建議說最好這個(gè)應(yīng)用調(diào)到那臺機(jī)器,那臺應(yīng)用調(diào)到這臺機(jī)器。給完之后業(yè)務(wù)團(tuán)隊(duì)看了一眼,我們不干,因?yàn)楦蛇@些工作全部要手工干,你還每天給我建議,更不要干了,每天就來調(diào)機(jī)器了。
所以首先你要想明白你的前提,自動化,具不具備自動化的能力,不具備的話沒有必要在這方面做過多的投入。
數(shù)據(jù)結(jié)構(gòu)化是智能化的源動力
目前 AI 領(lǐng)域基本是靠暴力,暴力破解,未來可能有別的方向,但是目前的 AI 基本上是靠大量數(shù)據(jù)的積累去尋找一個(gè)東西出來,所以它一定需要有大量的數(shù)據(jù)積累,數(shù)據(jù)包括非常多的東西,對于運(yùn)維來講,可能基礎(chǔ)層面的數(shù)據(jù),機(jī)器的數(shù)據(jù),運(yùn)維變更的數(shù)據(jù),上面還有一些場景化的數(shù)據(jù),比如你解決故障,有沒有更好的結(jié)構(gòu)化的收集數(shù)據(jù),這是非常重要的。數(shù)據(jù)這個(gè)層面比較難做的在于, 在最開始階段,多數(shù)公司的運(yùn)維數(shù)據(jù)都是不夠結(jié)構(gòu)化的,結(jié)構(gòu)化不會做得那么好,當(dāng)然會有結(jié)構(gòu)化,但是結(jié)構(gòu)化的因素不會足夠好。
就像阿里巴巴在講,我們在電商領(lǐng)域 AI 化,我們最大的優(yōu)勢就是不斷對外部講,我們擁有的是結(jié)構(gòu)化的商品數(shù)據(jù),其他公司最多從我們這里扒結(jié)構(gòu)化的商品數(shù)據(jù)。你扒過去之后還要自己分析,并且做商品結(jié)構(gòu)的調(diào)整,這非常困難。但是阿里巴巴自己天然,所有人都會幫你把結(jié)構(gòu)做得非常好。所以對運(yùn)維來講也是一樣,如果你想在智能化上有更多的突破,數(shù)據(jù)怎么更好的做結(jié)構(gòu)化,是一個(gè)非常大的挑戰(zhàn)。你很難想清楚。這兩個(gè)地方是我覺得首先要想清楚的。
智能化最適合的運(yùn)維場景
從目前來看,對于運(yùn)維場景來講,智能化特別適合解決的問題就兩種,對于所有行業(yè)好像都差不多,第一是規(guī)模,第二是復(fù)雜。規(guī)模就意味著,我有很多的機(jī)器,在很多機(jī)器中我要尋找出一個(gè)機(jī)器的問題,這對于,因?yàn)橐?guī)模太大了,這時(shí)候?qū)τ谟脗鹘y(tǒng)的方式,將非常難解決這個(gè)問題。或者你要投入非常大的人力等等,有點(diǎn)得不償失。規(guī)模上來以后怎么更好的解決規(guī)模的問題,智能化會帶來一些幫助。第二是復(fù)雜,比如說你的應(yīng)用從原來的一個(gè)應(yīng)用變成了幾千個(gè)、上萬個(gè)、幾十萬個(gè),這時(shí)候你要尋找出其中哪個(gè)應(yīng)用的問題,將是非常復(fù)雜的問題。所以復(fù)雜度的問題是人類用人腦非常難推演的,但是機(jī)器相對來講是更容易做的。這是阿里有些團(tuán)隊(duì)希望嘗試智能化的方向,通常我們會看是不是在前面的這些前提條件上都具備。如果都具備了,那可以去探索一下。所以我講,阿里其實(shí)目前處于整個(gè)智能化運(yùn)維的探索階段,而不是全面展開階段。
責(zé)任編輯:任我行
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報(bào)告 | 基于分類監(jiān)管與當(dāng)量協(xié)同的碳市場框架設(shè)計(jì)方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉(zhuǎn)型與經(jīng)濟(jì)發(fā)展并進(jìn)
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結(jié)構(gòu)對于數(shù)據(jù)中心有什么影響?這個(gè)影響是好是壞呢!