云和大數(shù)據(jù)時代的高效運維管理之道
本次沙龍充分體現(xiàn)了圈子共建、價值共享的原則,其中愛心人壽信息總監(jiān)劉東城和國美云產(chǎn)品支撐中心副總監(jiān)陳焱兩位主講人都是圈子成員積極推薦。另外一位主講人OneAPM副總裁張楠坤也是圈子的積極參與者和貢獻者。整個活動內(nèi)容融合了金融行業(yè)、零售行業(yè)的云化實踐案例,同時,從運維監(jiān)控角度闡述了如何把高效運維和業(yè)務(wù)運營結(jié)合起來,提升用戶滿意度指標。
圖:沙龍活動合影
另外,到場參會的CIO有:中國人民銀行清算中心一級專家尼米智、東興證券信息總監(jiān)董國興、恒昌利通信息安全負責人賀巖、映客直播趙東林、大愛投資控股集團信息技術(shù)總監(jiān)李勝軍、北京源創(chuàng)云網(wǎng)絡(luò)IT負責人孫吉東、用友財務(wù)軟件公司IT負責人于海超、北京能源集團樂多港IT負責人梁新剛、中國航天科工一院總師林聞曉、掌眾金服信息總監(jiān)戚德生、探路者集團信息總監(jiān)張航、長城人壽IT總監(jiān)施洪琦、北京首鋼實業(yè)集團信息部部長龐介飛、泰康燕園康復(fù)醫(yī)院信息科主任王江龍、天九幸福控股集團常務(wù)副總經(jīng)理敬國宏、大童保險副總裁張宏坤、宜信公司IT部基礎(chǔ)服務(wù)負責人方建國、中國藥品生物制品檢定所(中檢院)IT負責人謝麗麗、四維圖新IT總監(jiān)鄧天輝、尚科辦公社區(qū)IT負責人馬曦冉、飛鶴集團CIO崔啟佳、獨立CIO陳其偉等共計24位企業(yè)IT負責人和業(yè)內(nèi)資深人士到場參與交流,并共進晚餐。
沙龍活動現(xiàn)場CIO們認真聽講
沙龍活動內(nèi)容要硬
第一個主講人是愛心人壽信息技術(shù)總監(jiān)劉東城,作為一個在保險行業(yè)從業(yè)34年的IT老兵,劉東城有著豐富的行業(yè)經(jīng)驗和IT管理實踐經(jīng)驗。2015年9月參加籌備愛心人壽,以云計算為基礎(chǔ)搭建了愛心人壽的全套保險應(yīng)用系統(tǒng)。
圖:愛心人壽信息技術(shù)總監(jiān)劉東城
現(xiàn)場,劉東城從前期思考、著手云化、云化落地、使用情況以及總結(jié)感悟等五個方面進行了詳細的闡述,并講述了在云化實踐過程中踩到的許多坑,以及如何與供應(yīng)商協(xié)作解決等等。他提到,在前期夢想著采用云平臺搭建全部的保險應(yīng)用系統(tǒng)。在如何上云的前期思考過程中,重點介紹了機房運維的困難,傳統(tǒng)模式下服務(wù)器設(shè)備購置慢,應(yīng)用系統(tǒng)運維復(fù)雜,以及系統(tǒng)安全投入大等四個要素。
在著手云化準備時,率先開始做云資源的仔細調(diào)研工作,包括對現(xiàn)有的提供服務(wù)商阿里、騰訊、中金等進行全面細致的了解,從了解普通的云平臺到金融云,從技術(shù)平臺、服務(wù)到價格方面進行了全面的調(diào)研。
對于云計算所需要的人才,必須要確保關(guān)鍵崗位到位。因此,招聘熟悉機房網(wǎng)絡(luò)的專業(yè)人員,特別要對云平臺感興趣并有意探索使用者優(yōu)先選擇。全部使用云平臺方便簡單,但對自我的新技術(shù)掌控也是挑戰(zhàn)。
云化徹不徹底,能不能起到云的效果,還要看關(guān)鍵系統(tǒng)的云化。愛心人壽通過和主要系統(tǒng)開發(fā)廠商溝通,請他們投入人力及時間,對應(yīng)用系統(tǒng)進行改造,使系統(tǒng)從使用Oralce數(shù)據(jù)庫轉(zhuǎn)移到mysql數(shù)據(jù)庫,系統(tǒng)從結(jié)構(gòu)上與云平臺相適應(yīng)。
在云化落地和部署階段,結(jié)合金融云的技術(shù)應(yīng)用特點,確定了三個關(guān)鍵階段:1、租用應(yīng)用服務(wù)器、數(shù)據(jù)庫一體機。2、快速搭建線上線下各個應(yīng)用系統(tǒng)40多個;3、投入正常使用并異地備份。
具體到金融云的運維,涉及到了系統(tǒng)運維、應(yīng)用運維、數(shù)據(jù)庫運維、運維研發(fā)、運維安全、運維系統(tǒng)等六大核心內(nèi)容,從而確保了金融云從基礎(chǔ)架構(gòu)、日常運維等多方面保障業(yè)務(wù)連續(xù)性。在安全管理方面,劉東城特別提到,作為“互聯(lián)網(wǎng)+”重要一環(huán)的云計算,實際上云計算能提供遠高于本地數(shù)據(jù)中心的高可用性、數(shù)據(jù)安全、隱私保護以及異地數(shù)據(jù)災(zāi)備服務(wù),確保互聯(lián)網(wǎng)服務(wù)的運營和數(shù)據(jù)安全萬無一失,其中包括平臺安全和業(yè)務(wù)安全兩大核心。
最后,劉東城表達了自己在云化實踐中的一些感想,比如,如何實現(xiàn)快速易擴展,做到專線接入,實現(xiàn)更有效的安全管理,以及異地災(zāi)備的建設(shè)等。
第二個主講人OneAPM副總裁張楠坤,也是我們?nèi)ψ踊顒拥挠么髲N,今天講的內(nèi)容干貨讓到場的CIO收獲滿滿。
OneAPM副總裁張楠坤
運維和運營是何種關(guān)系,如何緊密相連?從CIO關(guān)心的業(yè)務(wù)出發(fā),如何用好IT運維的工具,把運營和運維結(jié)合起來,從用戶體驗的角度來改善運維。
從事運維管理,大家聽過ITOM,Gartner對ITOM管理工具的范疇定義為三個維度:監(jiān)測、管理、控制。張楠坤闡述ITOM體系包含的核心要素時提到,以全程服務(wù)框架為基礎(chǔ),通過人員、技術(shù)(工具)和流程支撐起高質(zhì)量的服務(wù)。人員既包括數(shù)據(jù)中心領(lǐng)導(dǎo),也包括了系統(tǒng)維護人員。流程涵蓋了故障報警、快速解決、根源分析和知識歸檔,相當于系統(tǒng)的“神經(jīng)系統(tǒng)”;安全則是系統(tǒng)的“免疫系統(tǒng)”;資源管理類似于“骨骼”;監(jiān)控就是“眼睛”、分析就是“大腦”、自動化相當于“手”。
面向根因分析的一體化ITOM解決方案以集中監(jiān)控為核心基礎(chǔ)。就傳統(tǒng)IT監(jiān)控管理模式而言,核心價值主要包括:系統(tǒng)不宕機,網(wǎng)絡(luò)不中斷,數(shù)據(jù)不丟失。核心指標包括了:CPU、內(nèi)存、流量、鏈路通斷性、進程、數(shù)據(jù)庫死鎖、中間件連接數(shù)等。具體到用戶體驗,通常是IT運營管理部門(IT部門)和用戶體驗管理部門(業(yè)務(wù)部門)發(fā)生爭執(zhí)的地方,這就需要高效運維管理加以提升,包括對硬件監(jiān)控、存儲監(jiān)控、數(shù)據(jù)庫監(jiān)控以及中間價監(jiān)控、網(wǎng)絡(luò)監(jiān)控、機房監(jiān)控、云資源以及大數(shù)據(jù)平臺的監(jiān)控等。通過監(jiān)控軟件,可以詳細了解IT資源運行的狀況,提供智能檢測報告,而不是靠手工和人力來解決。
此外,張楠坤還提到了新一代監(jiān)控關(guān)鍵技術(shù),包括撥測/壓測技術(shù)、偵聽技術(shù)、字節(jié)碼技術(shù)、插碼技術(shù)、日志技術(shù)等,并逐一進行了詳細的闡述,讓大家明白了技術(shù)的原理、作用價值,以及所要付出的代價。
在應(yīng)用性能監(jiān)控方面,可以提供幾種監(jiān)控手段,明確前端用戶用的好不好,如何進行有效的反饋。用戶打開頁面的行為可以記錄,后端進行展示,應(yīng)用運行緩慢的時候可以準確定位到具體的代碼。
具體到實踐案例,以探針技術(shù)為例,幫助某運營商做到了后端應(yīng)用質(zhì)量代碼級診斷。某運營商業(yè)務(wù)系統(tǒng)出現(xiàn)全面緩慢故障,業(yè)務(wù)訪問十分緩慢,中間件負載一直飆高,應(yīng)用出現(xiàn)掛起,相關(guān)數(shù)據(jù)庫、中間件的日志中并沒有有效的報錯信息。故障影響整個業(yè)務(wù)系統(tǒng),持續(xù)6個小時的故障,各個環(huán)節(jié)一直沒有找到原因,無法定位解決。OneAPM經(jīng)過分析,是黑名單查詢耗時較長,以及渠道資源庫的連接數(shù)不夠?qū)е孪到y(tǒng)故障,隨后采取重建黑名單用戶表、增加資源庫連接數(shù)和重啟App實例等措施,使系統(tǒng)緩慢故障逐步好轉(zhuǎn),最終問題得到解決。
迎接云計算時代,很多業(yè)務(wù)系統(tǒng)面臨云遷移的問題,需要前期的可行性初步調(diào)研,明確遷移過程中需要明確關(guān)注的指標等。
另外,對云遷移各個階段的問題進行梳理,比如,遷移前的問題確認、遷移中的數(shù)據(jù)核對、遷移后的運維監(jiān)控等。制定云遷移的基本流程,包括:需求、規(guī)劃、設(shè)計、測試、實施、運維,最終確保整個云遷移的平滑、無縫、安全、穩(wěn)定。
關(guān)于遷移的流程,主要包括:1、信息收集;2、依賴分析;3、規(guī)劃設(shè)計;4、遷移測試。張楠坤結(jié)合具體的應(yīng)用實踐逐一進行了詳細的說明。
以太平洋保險為例,騰訊攜手太平洋產(chǎn)險達成戰(zhàn)略合作,除夕當晚微信用戶使用搖一搖即可參與搶紅包,借此吸引了大批用戶關(guān)注太保微信公眾號,屆時在2016年大年初五參與抽獎活動。騰訊評估本次微信活動參與人次達1.5億人次,高峰期并發(fā)請求量達到每秒400萬次,對人保的IT部門帶來了巨大的挑戰(zhàn)。
人保的對應(yīng)方案是:Docker+APM。采用主流互聯(lián)網(wǎng)容器技術(shù)Docker應(yīng)對本次高并發(fā)的活動訪問量沖擊,提升高可用質(zhì)量;采用APM性能管理解決方案,提升網(wǎng)絡(luò)訪問質(zhì)量、業(yè)務(wù)系統(tǒng)性能質(zhì)量,達到高質(zhì)量的業(yè)務(wù)吞吐能力保證。采用大數(shù)據(jù)+日志分析平臺,針對微信用戶行為、各省市熱度及保險購買力、保險購買人年齡層次進行分析。
OneAPM作為性能管理廠商,提供整個微信活動生命周期的性能安全保障。制定與微信項目同期的計劃時間表,從上線測試及生產(chǎn)安全保障,提供性能管理和應(yīng)用相關(guān)性能的定位。
總結(jié)來看,OneAPM運維保障的成效主要包括:生產(chǎn)上線后,持續(xù)的健康檢查報告,幫忙開發(fā)及時update代碼業(yè)務(wù)邏輯;主動式的動態(tài)監(jiān)控,涵蓋多個緯度的重要指標;網(wǎng)絡(luò)性能數(shù)據(jù)監(jiān)控,實時掌握網(wǎng)絡(luò)性能質(zhì)量;APM大屏掌握實時監(jiān)控信息;實時事務(wù)吞吐及性能告警。
第三個主講人是國美云產(chǎn)品支撐中心副總監(jiān)陳焱。云計算和大數(shù)據(jù)是傳統(tǒng)企業(yè)轉(zhuǎn)型升級的好機會,在我們印象中國美屬于傳統(tǒng)零售企業(yè)的典型代表。但是,迎接零售產(chǎn)業(yè)的變革,同樣需要組建支撐企業(yè)轉(zhuǎn)型升級的動力引擎,國美云就是其中的關(guān)鍵。
圖:國美云產(chǎn)品支撐中心副總監(jiān)陳焱
陳焱在《運維與業(yè)務(wù)共舞,國美云高效運營之道》的主題分享中,結(jié)合國美云的業(yè)務(wù)實踐,給在座的CIO在云計算平臺的搭建方面提供了思路和實踐經(jīng)驗參考。從IT支撐國美業(yè)務(wù)發(fā)展的角度回顧了國美云的誕生歷程,面對國美數(shù)億的IT投入,如何讓運維從成本中心變成利潤中心,幫助集團節(jié)省IT成本。
具體到運維自動化,主要從三方面入手:一是,打造生態(tài)鏈,圍繞運維自動化生態(tài)鏈,自研資源交付、CMDB、CI/CD、配置管理平臺,提高運維效率。通過打造運維自動化生態(tài)鏈,實現(xiàn)資源整合、平臺能力沉淀,為業(yè)務(wù)提供服務(wù)化的技術(shù)支持;二是,制定運維標準,運維標準是運維自動化的基石;三是,統(tǒng)一建設(shè),統(tǒng)一開發(fā)運維自動化平臺,確保各個產(chǎn)業(yè)公司按需選擇使用。
結(jié)合國美在零售領(lǐng)域的實際業(yè)務(wù),對癥下藥,從成本分析角度聚焦零售運營的核心三大要素:人、貨、場。
在服務(wù)導(dǎo)向方面,做到交易類業(yè)務(wù)集中共享。比如,在共享前,分散在全國400多個地方,難免出現(xiàn)徇私舞弊;客觀公正性差,受人為因素制約;人員分散、核算制度執(zhí)行不到位;培訓(xùn)難度大、效果不明顯等問題。共享后,集中到了共享中心,確保了集中審核、集中入賬、統(tǒng)一支付,資金統(tǒng)一管理;確保可觀公正性;做到人員集中管理、減員增效;集中培訓(xùn)效果顯著。
沙龍不只有干貨,還要聊得透徹,玩的開心
活動間隙,CIO們打兩桿娛樂娛樂
講得好,還得聊得透,好容易逮住機會
78CIO App上線了,多提提建議,以后靠你們多用了
總之,本次沙龍從內(nèi)容角度,云和大數(shù)據(jù)已經(jīng)是未來發(fā)展的必然趨勢,驅(qū)動企業(yè)業(yè)務(wù)轉(zhuǎn)型和發(fā)展。盡管很多企業(yè)都在面臨轉(zhuǎn)型的困境,但是,把握新技術(shù)也變相為企業(yè)提供了彎道超車好機會。對于CIO來說責任在肩,必須擁抱它,戰(zhàn)勝它。從圈子交友的角度,78CIO也會多給大家創(chuàng)造寬松的環(huán)境,深度交流,學(xué)習成長。
責任編輯:售電衡衡
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監(jiān)管與當量協(xié)同的碳市場框架設(shè)計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉(zhuǎn)型與經(jīng)濟發(fā)展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結(jié)構(gòu)對于數(shù)據(jù)中心有什么影響?這個影響是好是壞呢!