01. 何為排障“最后一公里”
為什么說(shuō)在企業(yè)運(yùn)維排障中,日志體系建設(shè)通常被稱為"最后一公里"
這是因?yàn)槿罩臼窃谙到y(tǒng)出現(xiàn)問(wèn)題時(shí)提供關(guān)鍵信息的重要數(shù)據(jù)來(lái)源。在排障過(guò)程中,日志記錄了系統(tǒng)運(yùn)行時(shí)的各種活動(dòng)和事件,可以幫助運(yùn)維人員追蹤問(wèn)題的根源。
“最后一公里”指的是在排障過(guò)程中,當(dāng)其他排查方法都無(wú)法解決問(wèn)題時(shí),運(yùn)維人員會(huì)轉(zhuǎn)向日志來(lái)查找答案。日志記錄了系統(tǒng)的運(yùn)行狀態(tài)、錯(cuò)誤信息、異常情況等,通過(guò)分析日志可以幫助定位問(wèn)題,找到解決方案。
舉例來(lái)說(shuō),核心交付系統(tǒng)每天處理數(shù)百萬(wàn)筆交易。有一天,客戶投訴稱“一小部分交易失敗,而且無(wú)法追蹤失敗原因”。工程師利用監(jiān)控工具檢測(cè)到一些異常指標(biāo),但這些指標(biāo)無(wú)法提供問(wèn)題的具體細(xì)節(jié)。通過(guò)對(duì)比成功和失敗的交易日志,工程師發(fā)現(xiàn)交易失敗的根本原因在于與第三方服務(wù)的通信故障。于是,工程師與第三方服務(wù)的支持團(tuán)隊(duì)聯(lián)系,并共享了相關(guān)日志,成功解決了問(wèn)題,恢復(fù)了交易正常運(yùn)行,讓相關(guān)的失敗情況不再重復(fù)發(fā)生
以上提到的只是一種故障場(chǎng)景,說(shuō)明日志對(duì)于排障處理起到關(guān)鍵作用。日志數(shù)據(jù)記錄了系統(tǒng)或程序在執(zhí)行過(guò)程中每個(gè)事件的明細(xì)詳情。通過(guò)收集日志數(shù)據(jù),可以獲得系統(tǒng)或程序發(fā)生故障時(shí)的現(xiàn)場(chǎng)快照,精確了解根本問(wèn)題所在。如果在前期能夠聚焦范圍,鎖定少量關(guān)鍵日志,那么大部分的故障根因問(wèn)題就可以被快速確認(rèn)。
因此,日志體系建設(shè)在企業(yè)運(yùn)維中扮演著至關(guān)重要的角色,它不僅可以幫助提高故障排查的效率,還可以提升系統(tǒng)的穩(wěn)定性和可靠性。所以,人們常說(shuō)日志體系建設(shè)是企業(yè)運(yùn)維排障中的“最后一公里”。
那為什么需要建設(shè)日志體系?其面臨的挑戰(zhàn)又是什么?我們應(yīng)當(dāng)如何建設(shè)日志體系呢?
02. 為什么要建設(shè)日志工具
1)面向運(yùn)維者
主動(dòng)發(fā)現(xiàn):能精準(zhǔn)從日志數(shù)據(jù)中捕捉異常并告警;
輔助運(yùn)維:通過(guò)日志了解到詳細(xì)信息,以判斷下一步運(yùn)維操作;
采集便捷:無(wú)侵入式采集,中心化采集,便于推廣實(shí)施。
2)面向開(kāi)發(fā)者
快速查詢:集中查詢,跨應(yīng)用查詢,不需要來(lái)回切換機(jī)器;
根因定位:能精準(zhǔn)獲取到日志的上下文做代碼根因定位;
輔助優(yōu)化:從日志信息中獲取有效信息,優(yōu)化現(xiàn)有代碼。
3)面向部門(mén)管理者
建設(shè):避免煙囪式建設(shè)運(yùn)維工具,需要體系化打通數(shù)據(jù)和上下游;
管理:日志數(shù)據(jù)權(quán)限管控,統(tǒng)一查看,統(tǒng)一存儲(chǔ)和管理;
規(guī)范:日志規(guī)范落地需要平臺(tái)和工具的承載。
4)面向企業(yè)領(lǐng)導(dǎo)者
競(jìng)爭(zhēng):通過(guò)完整的可觀測(cè)體系讓公司運(yùn)營(yíng)效率超過(guò)競(jìng)爭(zhēng)對(duì)手;
合規(guī):讓日志的記錄符合政策法規(guī),避免審計(jì)風(fēng)險(xiǎn);
安全:各類訪問(wèn)和操作日志數(shù)據(jù)是信息安全的重要信息來(lái)源。
03. 日志體系建設(shè)所面臨的挑戰(zhàn)
故日志體系建設(shè)所面臨的挑戰(zhàn)需要綜合考慮技術(shù)、安全、隱私、性能等多方面因素,只有解決上述問(wèn)題才能建立起一個(gè)完善的運(yùn)維日志體系。
04. 日志建設(shè)實(shí)踐引導(dǎo)
1)日志數(shù)據(jù)標(biāo)準(zhǔn)化,確保規(guī)范
① 定義日志規(guī)范
② 記錄關(guān)鍵信息
③ 支持開(kāi)源協(xié)議
④ 實(shí)踐建議
遵循日志規(guī)范并準(zhǔn)確記錄關(guān)鍵信息是建設(shè)穩(wěn)健可靠的日志系統(tǒng)的關(guān)鍵所在。定義規(guī)范、記錄關(guān)鍵信息、并遵循最佳實(shí)踐可以更好地利用日志數(shù)據(jù)進(jìn)行故障排查、性能優(yōu)化和安全審計(jì)等工作。這些步驟旨在確保日志信息經(jīng)過(guò)明確、準(zhǔn)確和一致的格式,從而更好地滿足業(yè)務(wù)需求。
2)日志數(shù)據(jù)精煉,優(yōu)化清洗
日志數(shù)據(jù)是文本數(shù)據(jù),難以讀懂,更難以通過(guò)統(tǒng)計(jì)分析賦能運(yùn)維、運(yùn)營(yíng)、業(yè)務(wù)人員。因此,構(gòu)建日志體系時(shí)需要考慮工具是否具備強(qiáng)大的日志清洗能力,支持將各類格式的日志進(jìn)行結(jié)構(gòu)化解析,從而可以基于結(jié)構(gòu)化數(shù)據(jù)構(gòu)建資源監(jiān)控、業(yè)務(wù)監(jiān)控、業(yè)務(wù)分析等場(chǎng)景。
除了強(qiáng)大的日志清洗能力外,預(yù)置固定清洗模板也十分重要,不僅可以提升日志清洗的效率,還可以助力企業(yè)日志標(biāo)準(zhǔn)化建設(shè),有利于減輕落地推廣的難度。
3)日志數(shù)據(jù)安全保護(hù),數(shù)據(jù)脫敏
日志數(shù)據(jù)作為系統(tǒng)運(yùn)行和活動(dòng)的記錄,可能包含敏感信息,如個(gè)人身份信息、密碼、信用卡號(hào)等。這些敏感數(shù)據(jù)如果在日志中以明文形式存在,可能會(huì)造成嚴(yán)重的安全風(fēng)險(xiǎn),如數(shù)據(jù)泄露、隱私侵犯等問(wèn)題。因此,對(duì)日志數(shù)據(jù)進(jìn)行脫敏處理是必要的。
通過(guò)數(shù)據(jù)脫敏,可以有效保護(hù)敏感信息的安全性,避免泄露風(fēng)險(xiǎn)。脫敏技術(shù)可以將敏感數(shù)據(jù)轉(zhuǎn)換為無(wú)意義的、難以識(shí)別的數(shù)據(jù),保留數(shù)據(jù)的結(jié)構(gòu)和格式,同時(shí)隱藏真實(shí)內(nèi)容。這樣既能保護(hù)用戶隱私,又能確保數(shù)據(jù)的完整性和可用性,同時(shí)遵守相關(guān)的隱私法規(guī)和合規(guī)要求。
4)持久存儲(chǔ),日志長(zhǎng)周期保留策略
為了滿足合規(guī)性、監(jiān)管要求、故障排查、趨勢(shì)分析和歷史記錄等目的,某些日志數(shù)據(jù)需要被長(zhǎng)期保留,但長(zhǎng)期存儲(chǔ)會(huì)面臨存儲(chǔ)成本和維護(hù)成本過(guò)高的問(wèn)題。我們可以通過(guò)以下的思路來(lái)制定日志長(zhǎng)周期存儲(chǔ)策略。
① 合理選擇存儲(chǔ)介質(zhì)
② 數(shù)據(jù)備份及可恢復(fù)
③ 數(shù)據(jù)壓縮
5)日志檢索,提升運(yùn)維效能
日志檢索在日志體系建設(shè)中扮演著關(guān)鍵的角色,其目標(biāo)是為用戶提供一種快速定位系統(tǒng)問(wèn)題和異常的能力,以便加速故障排查和問(wèn)題診斷的過(guò)程。為實(shí)現(xiàn)這一目標(biāo),日志檢索需要具備基礎(chǔ)的查詢語(yǔ)法,允許用戶根據(jù)關(guān)鍵詞、時(shí)間范圍等條件來(lái)檢索日志數(shù)據(jù),以快速定位所需信息。在日志檢索過(guò)程中,用戶還可以使用通配符等高級(jí)查詢語(yǔ)法,以更精準(zhǔn)地過(guò)濾和搜索日志數(shù)據(jù)。同時(shí)考慮到一些安全合規(guī),日志檢索還需具備脫敏檢索功能,可以在保障數(shù)據(jù)隱私的前提下,依然能夠有效地進(jìn)行日志檢索和分析。
另外,日志檢索還應(yīng)具備用戶友好的查詢界面和交互體驗(yàn),使用戶能夠輕松地輸入查詢條件、查看搜索結(jié)果,并進(jìn)行進(jìn)一步的篩選和分析。除了基礎(chǔ)的字段過(guò)濾外,一些高級(jí)功能如統(tǒng)計(jì)分析、可視化展示等也可以幫助用戶更全面地理解日志數(shù)據(jù),快速發(fā)現(xiàn)系統(tǒng)中的問(wèn)題和異常。
在涉及多業(yè)務(wù)之間日志檢索時(shí),還需要支持多日志數(shù)據(jù)之間的聯(lián)合檢索功能,用戶可以同時(shí)查詢不同業(yè)務(wù)生成的日志數(shù)據(jù),進(jìn)行比對(duì)和分析,全面了解業(yè)務(wù)運(yùn)行情況。這樣的功能有助于提高故障排查和問(wèn)題診斷的效率,促進(jìn)系統(tǒng)運(yùn)行的穩(wěn)定性和可靠性。
6)日志高效排障,快速定位問(wèn)題
日志最為典型和核心的應(yīng)用場(chǎng)景之一便是用于排障。通過(guò)利用日志,快速定位問(wèn)題并走完排障的“最后一公里”。在查詢?nèi)罩?/span>時(shí),以下步驟可以幫助實(shí)現(xiàn)高效定位問(wèn)題:
除了以上步驟外,還可以利用人工智能(AI)能力和可觀測(cè)上下游聯(lián)動(dòng)能力,進(jìn)一步縮小日志查詢的時(shí)間和空間范圍,進(jìn)一步提高故障定位效率。
7)智能化日志聚類能力
企業(yè)日志數(shù)量一般相當(dāng)大,每天可能產(chǎn)生TB級(jí)別的日志數(shù)。當(dāng)工程師需要從千萬(wàn)條日志數(shù)據(jù)中尋找異常日志進(jìn)行問(wèn)題定位時(shí),時(shí)間成本很高。在這種情況下,如果日志工具提供了日志聚類能力,那么千萬(wàn)條日志數(shù)據(jù)就可以聚合成十幾種格式類型,提高信息密度。這將使工程師避免查找重復(fù)日志而浪費(fèi)大量時(shí)間。
8)可觀測(cè)上下游聯(lián)動(dòng)
基于可觀測(cè)系統(tǒng)設(shè)計(jì)模式,可以將指標(biāo)數(shù)據(jù)、鏈路數(shù)據(jù)與日志數(shù)據(jù)進(jìn)行打標(biāo)關(guān)聯(lián)。這樣做的好處是,當(dāng)在上游發(fā)現(xiàn)指標(biāo)或鏈路數(shù)據(jù)異常時(shí),在排障過(guò)程中可以直接下鉆定位到關(guān)聯(lián)的下游日志數(shù)據(jù),省去了在千萬(wàn)條日志中查找異常日志的過(guò)程,大大提高了定位問(wèn)題的速度。
在云原生時(shí)代IT可觀測(cè)的三大支柱數(shù)據(jù):Metrics,Tracing,Logging,日志數(shù)據(jù)在其中承擔(dān)著排障的“最后一公里”的角色,基于其信息量大的特點(diǎn),為研發(fā)、運(yùn)維提供最直接且詳盡的視角,深入了解IT系統(tǒng)運(yùn)行的細(xì)節(jié)信息。
隨著可觀測(cè)體系的技術(shù)發(fā)展,可觀測(cè)三大數(shù)據(jù)的融合和串聯(lián),已經(jīng)成為提升日志價(jià)值信息密度的重要手段,前端的Metrics,Tacing數(shù)據(jù)就宛如快捷的交通工具,而排障的“最后一公里”就需要依賴日志數(shù)據(jù)來(lái)支撐,融合串聯(lián),快速定位關(guān)鍵信息點(diǎn)。
實(shí)現(xiàn)排障的“最后一公里”,需要在數(shù)據(jù)采集、數(shù)據(jù)監(jiān)控、數(shù)據(jù)告警、數(shù)據(jù)分析四個(gè)層面上進(jìn)行Metrics、Tracing、Logging的融合打通。
因此企業(yè)在建設(shè)可觀測(cè)日志體系時(shí),建議選用覆蓋完整,且各類觀測(cè)工具可自由組合的可觀測(cè)平臺(tái),因?yàn)檫@些平臺(tái)往往從一開(kāi)始就會(huì)考慮幾種數(shù)據(jù)之間的融合設(shè)計(jì),不僅數(shù)據(jù)之間可以實(shí)現(xiàn)融合打通,UI界面上的串聯(lián)排障過(guò)程也很絲滑,避免煙囪式建設(shè)。
同時(shí)以融合理念進(jìn)行設(shè)計(jì)的產(chǎn)品,企業(yè)可以根據(jù)自身現(xiàn)狀分批、分階段建設(shè),有效控制建設(shè)成本,實(shí)現(xiàn)最終的可觀測(cè)體系建設(shè),讓企業(yè)能夠順利轉(zhuǎn)型過(guò)渡。
9)深度挖掘日志價(jià)值,解鎖數(shù)據(jù)潛力
日志數(shù)據(jù)是故障排除的關(guān)鍵,但僅保存日志是遠(yuǎn)遠(yuǎn)不夠的。由于日志數(shù)據(jù)包含了豐富全面的信息,因此我們可以通過(guò)挖掘日志數(shù)據(jù)來(lái)實(shí)現(xiàn)以下場(chǎng)景:
安全監(jiān)控05. 結(jié)語(yǔ)
綜上所述,在當(dāng)今數(shù)字化時(shí)代,日志數(shù)據(jù)的重要性不容忽視。通過(guò)建立完善的日志體系,并利用各類觀測(cè)工具進(jìn)行數(shù)據(jù)融合,企業(yè)可以實(shí)現(xiàn)安全監(jiān)控、故障定位、性能優(yōu)化、合規(guī)審計(jì)、開(kāi)發(fā)維護(hù)以及業(yè)務(wù)分析等多方面的價(jià)值。而充分挖掘日志數(shù)據(jù)潛力,有助于企業(yè)更有效地管理和優(yōu)化系統(tǒng)運(yùn)營(yíng),促進(jìn)持續(xù)發(fā)展。因此,日志體系的建設(shè)將成為企業(yè)數(shù)據(jù)管理和運(yùn)營(yíng)中不可或缺的戰(zhàn)略舉措。
ITSM運(yùn)營(yíng):服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國(guó)產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營(yíng):事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示