新聞中心
數(shù)據(jù)庫日檢是一個對于DBA來說又愛又恨的工作,恨的是每天面對相同的數(shù)據(jù),重復(fù)性的勞動,但是又不得不做,有時候做一年日檢也沒有啥收獲;愛的是,有時候日檢確實(shí)能夠幫助我們發(fā)現(xiàn)一些嚴(yán)重的威脅,如果不做日檢,后果不堪設(shè)想。

想把日檢做好其實(shí)不易,很多DBA干了一輩子數(shù)據(jù)庫運(yùn)維,也沒掌握好日檢的技巧。我見過很多企業(yè)的日檢腳本,檢查項很豐富的很多,但是做的比較到位的不多。日檢需要技術(shù)積累,更需要與時俱進(jìn)。從別的企業(yè)抄一個日檢腳本來做自己的日檢,沒有自己的運(yùn)維經(jīng)驗(yàn)積累,沒有針對自己的業(yè)務(wù)特點(diǎn)和業(yè)務(wù)場景,那么做出來的日檢也是一項例行工作而已,并不能對我們的運(yùn)維工作有任何幫助。
對于金融、證券、運(yùn)營商、互聯(lián)網(wǎng)企業(yè)來說,日檢是發(fā)現(xiàn)系統(tǒng)中存在比較急迫的隱患的一種最常用的技術(shù)手段。而中長期的問題發(fā)現(xiàn)往往可以通過優(yōu)化和月度/季度巡檢來實(shí)現(xiàn)。如果我們的日檢報告里發(fā)現(xiàn)的問題都不是當(dāng)前比較緊迫需要解決的問題,而都是一些中長期優(yōu)化的問題,那么這個日檢的路子就走錯了。日檢的檢查項應(yīng)該是日常監(jiān)控不容易發(fā)現(xiàn),但是一旦出現(xiàn)又比較容易很快觸發(fā)問題的項目,或者是一些和系統(tǒng)安全有關(guān)的問題。系統(tǒng)安全有關(guān)的問題往往不會立即觸發(fā)故障,但是一旦安全問題被入侵者利用,后果十分嚴(yán)重,一些中了勒索病毒的系統(tǒng)就是因?yàn)槿趺艽a等問題導(dǎo)致的,這些問題潛伏期很長,也往往容易被忽視。昨天我發(fā)了一個關(guān)于勒索病毒防范的文章,一個朋友在留言區(qū)留言說他們剛挫敗了一起勒索病毒。在做災(zāi)備演練時重啟備庫發(fā)現(xiàn)了勒索病毒,幸虧主庫還沒有重啟,因此主庫數(shù)據(jù)數(shù)據(jù)還沒被加密,從而躲過了一劫。
其實(shí)一般企業(yè)都有數(shù)據(jù)庫日檢的需求,但是往往因?yàn)槌杀具^高而無法真正開展日檢工作。因此在D-SMART中我們設(shè)計了一個專門的自動化日檢功能,每天下半夜(默認(rèn)是3點(diǎn)鐘),任務(wù)調(diào)度器會針對每個數(shù)據(jù)庫實(shí)例發(fā)起一個日檢任務(wù)。這個任務(wù)會對前一天數(shù)據(jù)庫運(yùn)行的指標(biāo)進(jìn)行一次分析,并對一些重點(diǎn)問題進(jìn)行分析。
雖然日檢是個很簡單的業(yè)務(wù),不過日檢工具要做好也不容易。數(shù)據(jù)庫日檢功能剛剛上線的時候,用戶就吐槽說用起來不方便。當(dāng)時我們的日檢結(jié)果清單里沒有異常日檢項這一列,當(dāng)用戶看到日檢結(jié)果里有扣分的時候,必須點(diǎn)擊報告詳情去查看。用戶一下子接入了大幾十個多個數(shù)據(jù)庫,一個個這么看下來很累。于是我們改進(jìn)了一下,把異常日檢項直接在第一頁顯示出來,如果太多,鼠標(biāo)移過去就能看全了。
后來日檢功能變成了用戶每天都必須使用的功能了,他們也大量的把系統(tǒng)接入D-SMART。隨著接入數(shù)量的增加,新問題又出現(xiàn)了。他們接入了近1000個實(shí)例的時候,覺得這么看日檢結(jié)果還是太麻煩了。于是日檢匯總報告又出現(xiàn)了。
日檢匯總報告可以讓他們每天只打開一份報告,就可以看清楚自己負(fù)責(zé)的所有數(shù)據(jù)庫的日檢情況,從而避免了翻幾十頁去查看日檢結(jié)果的繁瑣工作。運(yùn)維自動化的目的就是這樣,通過工具體驗(yàn)的改善,讓人用更少的時間,完成更多的工作。
不過問題還沒結(jié)束,使用一段時間后,客戶發(fā)現(xiàn)有些日檢項告警,并不一定能夠馬上去解決。我們和他們討論是不是從日檢里拿掉,放到月檢里去。他們又覺得這些檢查十分必要,如果一個月做一次恐怕會來不及,還是在日檢里做比較好。只是希望在報告里有所區(qū)分,把新發(fā)型問題和老問題做個區(qū)分,讓人一目了然的就能看到某個問題是今天發(fā)現(xiàn)的新問題就可以了。這么改造完了,確實(shí)日檢報告好用多了。
可能講到這里,有些朋友有點(diǎn)不耐煩了,說了半天,數(shù)據(jù)庫日檢到底要做點(diǎn)啥啊?實(shí)際上日檢因人而異,因各個企業(yè)的特點(diǎn)而異。比如在二十年前,存儲空間是個奢侈品,因此每天檢查是否存在可能無法擴(kuò)展的SEGMENT是一個重點(diǎn),而在目前的數(shù)據(jù)庫版本,以及存儲容量條件下,這個檢查就不一定需要了。在D-SMART中,日檢模板是可以根據(jù)用戶的需求去做調(diào)整的。也可以自己定制日檢的檢查項。
D-SMART社區(qū)版的日檢模板無法自定義,不過我們也提供了十分豐富的日檢項。大家有興趣的話可以去“DBAIOPS社區(qū)”下載一個免費(fèi)的D-SMART社區(qū)版,體驗(yàn)一下數(shù)據(jù)庫日檢的功能。
只要日檢變得很方便了,任何用戶都可以做數(shù)據(jù)庫日檢,而日檢工作帶來的提升是顯而易見的。不過從我們對日檢的理解來看,數(shù)據(jù)庫日檢不僅僅是一項工作,更是一種能力。如果無法低成本,快捷,高效,準(zhǔn)確的進(jìn)行日檢,那么日檢只能是一個討厭的,煩人的,沒有效率的,沒有必要的工作。而一旦我們把工具化,便捷化,實(shí)用化做到位了,那么這個能力對數(shù)據(jù)庫運(yùn)維來說,是受益無窮的。
網(wǎng)站題目:數(shù)據(jù)庫日檢不僅是一項工作,更是一種能力
鏈接地址:http://www.fisionsoft.com.cn/article/dpgegjh.html


咨詢
建站咨詢
