從攜程宕機(jī)引發(fā)“運(yùn)維人員”的思考
昨日上午11時(shí)09分,攜程官網(wǎng)和APP突然無(wú)法使用引發(fā)熱議,不少人對(duì)此幸災(zāi)樂(lè)禍,衍生出各種謠言段子。公眾在調(diào)侃攜程的同時(shí),可能難以體會(huì)到攜程技術(shù)部的巨大壓力,尤其是運(yùn)維部門面臨的壓抑和不安。 今日凌晨
昨日上午11時(shí)09分,攜程官網(wǎng)和APP突然無(wú)法使用引發(fā)熱議,不少人對(duì)此幸災(zāi)樂(lè)禍,衍生出各種謠言段子。公眾在調(diào)侃攜程的同時(shí),可能難以體會(huì)到攜程技術(shù)部的巨大壓力,尤其是運(yùn)維部門面臨的壓抑和不安。
今日凌晨,原支付寶運(yùn)維團(tuán)隊(duì)負(fù)責(zé)人智錦發(fā)表《深入解析和反思攜程宕機(jī)事件》一文,讓不少運(yùn)維人讀后深有感觸,OneAPM也感同身受。面對(duì)層出不窮的安全隱患,當(dāng)下運(yùn)維人員亟需一套新型高效的方法論和工具,為自身運(yùn)維工作“減負(fù)”,告別加班熬夜的怪圈。
運(yùn)維重要性凸顯
在不少企業(yè)管理者眼里,運(yùn)維長(zhǎng)期處于“邊緣化”角色,他們往往不知該如何評(píng)價(jià)運(yùn)維價(jià)值,甚至很多運(yùn)維從業(yè)者也不知該關(guān)注什么,每天任務(wù)就是到處當(dāng)“救火隊(duì)長(zhǎng)”。
眾所周知,運(yùn)維和性能息息相關(guān),網(wǎng)站的訪問(wèn)性能(速度、穩(wěn)定性),對(duì)于如今移動(dòng)互聯(lián)網(wǎng)時(shí)代的企業(yè)而言,已經(jīng)成為影響公司發(fā)展過(guò)程中至關(guān)重要的一環(huán)。
以谷歌為例,網(wǎng)站打開(kāi)速度只要差400毫秒,用戶請(qǐng)求將會(huì)下降0.59%。更何況攜程發(fā)生如此嚴(yán)重的宕機(jī)事件,造成損失難以估量。由此可見(jiàn),企業(yè)管理者必須轉(zhuǎn)變“傳統(tǒng)運(yùn)維”思考模式,積極探索新玩法。
通過(guò)攜程宕機(jī)事件,OneAPM建議IT企業(yè)和技術(shù)人員應(yīng)痛定思痛,認(rèn)真總結(jié)經(jīng)驗(yàn)教訓(xùn),認(rèn)識(shí)到“運(yùn)維”的價(jià)值和重要性。
APM為運(yùn)維工作減負(fù)
在傳統(tǒng)時(shí)代,運(yùn)維人員只能通過(guò)查詢、分析各種日志文件來(lái)分析各種故障問(wèn)題,基本上靠血肉之軀實(shí)現(xiàn)了業(yè)務(wù)部門的信息化,但已越來(lái)越難以適應(yīng)新時(shí)代的運(yùn)維需求。
近年來(lái),APM(應(yīng)用性能管理)已成SaaS領(lǐng)域最火的創(chuàng)業(yè)方向,其能對(duì)企業(yè)關(guān)鍵業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)測(cè)、優(yōu)化。提高企業(yè)應(yīng)用可靠性和質(zhì)量,保證用戶得到良好的服務(wù),降低IT總擁有成本(TCO)。
以O(shè)neAPM為例,OneAPM專注于提供下一代應(yīng)用性能管理軟件和服務(wù),幫助企業(yè)用戶和開(kāi)發(fā)者實(shí)現(xiàn)緩慢的程序代碼和SQL語(yǔ)句的實(shí)時(shí)抓取。產(chǎn)品適用于復(fù)雜的現(xiàn)代應(yīng)用程序生產(chǎn)環(huán)境,提供端到端應(yīng)用性能管理、移動(dòng)端和瀏覽器真實(shí)用戶體驗(yàn)分析、業(yè)務(wù)交易實(shí)時(shí)分析,可以降低運(yùn)維人員 90% 故障修復(fù)時(shí)間,減少 80% 的客服工作量。
APM的運(yùn)維價(jià)值
攜程此次宕機(jī)發(fā)生后,歷經(jīng)17個(gè)小時(shí)才恢復(fù)正常。究其原因,主要是對(duì)大型網(wǎng)站而言,數(shù)據(jù)恢復(fù)遠(yuǎn)不是搞定幾個(gè)應(yīng)用和幾個(gè)數(shù)據(jù)庫(kù)服務(wù)器那么簡(jiǎn)單。一個(gè)網(wǎng)站的后臺(tái)是一個(gè)由SOA(面向服務(wù))架構(gòu)組成的龐大服務(wù)器集群,每一個(gè)簡(jiǎn)單頁(yè)面的背后,都由成百上千個(gè)應(yīng)用子系統(tǒng)組成,每個(gè)子系統(tǒng)又包括若干臺(tái)應(yīng)用和數(shù)據(jù)庫(kù)服務(wù)器,而且不同應(yīng)用系統(tǒng)之間也存在耦合和依賴關(guān)系。這么多復(fù)雜的系統(tǒng)交織在一起,數(shù)據(jù)恢復(fù)的難度可想而知。
為此,OneAPM提供一套新型解決方案。通過(guò)OneAPM的Application Insight 產(chǎn)品可以實(shí)現(xiàn)對(duì)前端瀏覽器、網(wǎng)絡(luò)傳輸、應(yīng)用性能、中間件性能、數(shù)據(jù)庫(kù)性能的自動(dòng)關(guān)聯(lián)及分析功能,可自動(dòng)發(fā)現(xiàn)應(yīng)用執(zhí)行過(guò)程中涉及的軟硬件基礎(chǔ)架構(gòu)組件,以及他們之間的交互路徑。
這也意味著,使用Application Insight 就能夠根據(jù)應(yīng)用拓?fù)浜妥詣?dòng)發(fā)現(xiàn)和可視化,進(jìn)而實(shí)現(xiàn)對(duì)系統(tǒng)進(jìn)行整體的把握。
不久前,OneAPM客戶通過(guò)后臺(tái)監(jiān)控發(fā)現(xiàn)線上服務(wù)出現(xiàn)異常日志,通過(guò)監(jiān)控報(bào)告發(fā)現(xiàn),JVM垃圾回收指標(biāo)迅速升高,運(yùn)維馬上進(jìn)行針對(duì)性的分析,很快發(fā)現(xiàn)出現(xiàn)問(wèn)題的代碼行,在最短的時(shí)間內(nèi)解決問(wèn)題。直到半小時(shí)后,該公司使用的公有云服務(wù)商才發(fā)出告警信息。
從該層面而言,OneAPM對(duì)運(yùn)維人員的價(jià)值不言而喻,OneAPM能夠幫助IT運(yùn)維人員提前預(yù)警,快速定位到故障問(wèn)題,為運(yùn)維人員節(jié)省更多的時(shí)間成本和和勞動(dòng)強(qiáng)度。
除此之外,OneAPM另一核心價(jià)值就是將“黑盒運(yùn)維”變成“白盒運(yùn)維”。傳統(tǒng)的運(yùn)維人員算是“黑盒運(yùn)維”,不斷去做重復(fù)性的操作,時(shí)間久了,只知道自己管理的服務(wù)器能正常對(duì)外服務(wù),但是卻不知道應(yīng)用的依賴關(guān)系。
通過(guò)OneAPM,運(yùn)維人員能真正清楚所管理的系統(tǒng)的功能和配置,從前端瀏覽器到后端應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù),能夠有效監(jiān)控和分析系統(tǒng)執(zhí)行的每一個(gè)環(huán)節(jié),從源頭上解決運(yùn)維人員到處救火的窘境。
對(duì)于攜程此次宕機(jī)事故,OneAPM建議公眾應(yīng)以理解和寬容心態(tài)對(duì)待。對(duì)于互聯(lián)網(wǎng)公司而言,突發(fā)性技術(shù)故障算是稀疏平常之事,Google、Amazon、百度、騰訊、阿里巴巴等也難以幸免。
OneAPM也希望通過(guò)本次攜程宕機(jī)事件,讓業(yè)界重新認(rèn)識(shí)到運(yùn)維的價(jià)值和重要性。同時(shí)建議運(yùn)維人員能接觸和了解APM。當(dāng)然,并不意味使用APM就能一勞永逸,OneAPM更多的是幫助運(yùn)維人員提供一套高效的管理模式,以及更加智能化解決方案。
責(zé)任編輯:大云網(wǎng)
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
發(fā)電電力輔助服務(wù)營(yíng)銷決策模型
2019-06-24電力輔助服務(wù)營(yíng)銷 -
電力線路安全工作的組織措施和技術(shù)措施分別是什么?
-
兩會(huì)保電進(jìn)行時(shí)丨陜西電力部署6項(xiàng)重點(diǎn)任務(wù)
-
電力線路安全工作的組織措施和技術(shù)措施分別是什么?
-
兩會(huì)保電進(jìn)行時(shí)丨陜西電力部署6項(xiàng)重點(diǎn)任務(wù)
-
山東特高壓首次完成帶電消缺 確保電力安全穩(wěn)定迎峰度冬
-
發(fā)電電力輔助服務(wù)營(yíng)銷決策模型
2019-06-24電力輔助服務(wù)營(yíng)銷 -
繞過(guò)安卓SSL驗(yàn)證證書(shū)的四種方式
-
網(wǎng)絡(luò)何以可能
2017-02-24網(wǎng)絡(luò)
-
Windows 10首發(fā) 四大安全提升
-
超級(jí)安卓漏洞 “寄生獸”影響數(shù)千萬(wàn)手機(jī)應(yīng)用
-
航空公司首出現(xiàn)操作系統(tǒng)被黑
2015-06-23航空公司
-
“企業(yè)應(yīng)急響應(yīng)和反滲透”之真實(shí)案例分析
-
攜程恢復(fù)正常 安全,我們準(zhǔn)備好了嗎?
2015-05-29攜程 -
一張圖讀懂《2014年消費(fèi)者個(gè)人信息網(wǎng)絡(luò)安全報(bào)告》