“100強(qiáng)”制造業(yè)企業(yè)的VMware遷移實(shí)戰(zhàn)
作為中國(guó)電子信息100強(qiáng)企業(yè),某制造業(yè)企業(yè)是一家在 PCB、PCBA、SUB、SIP 等領(lǐng)域具有出色實(shí)力的高新技術(shù)企業(yè),在電子電路行業(yè)起著舉足輕重的作用。
在集團(tuán)數(shù)字化轉(zhuǎn)型過(guò)程中,傳統(tǒng)架構(gòu)無(wú)法滿足業(yè)務(wù)連續(xù)性需求,面臨著業(yè)務(wù)發(fā)展與技術(shù)創(chuàng)新的挑戰(zhàn)。為了實(shí)現(xiàn)新型數(shù)字化業(yè)務(wù)的需求,集團(tuán)決定使用深信服超融合基礎(chǔ)設(shè)施替換原有的VMware,以適應(yīng)用戶業(yè)務(wù)的動(dòng)態(tài)變化和增長(zhǎng)需求。
老舊的 VMware 虛擬化平臺(tái)已無(wú)法滿足業(yè)務(wù)需求,主要存在以下問(wèn)題:
缺乏維護(hù): 現(xiàn)有的VMware vSphere 5.1 虛擬化平臺(tái)已使用超過(guò)10年之久,目前已不再享有官方的維護(hù)服務(wù),這意味著平臺(tái)可能面臨安全漏洞、兼容性問(wèn)題以及性能瓶頸,同時(shí)缺乏必要的技術(shù)支持,這將會(huì)對(duì)業(yè)務(wù)和數(shù)據(jù)帶來(lái)風(fēng)險(xiǎn)。
成本問(wèn)題: VMware對(duì)中國(guó)大陸用戶的政策調(diào)整導(dǎo)致續(xù)費(fèi)和轉(zhuǎn)向訂閱模式的成本顯著增加。且VMware平臺(tái)的相關(guān)組件擴(kuò)容和秒級(jí)備份解決方案的成本也相對(duì)較高。
業(yè)務(wù)瓶頸: 隨著業(yè)務(wù)的持續(xù)增長(zhǎng),對(duì)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源的需求日益增加,原有的VMware平臺(tái)在處理高并發(fā)業(yè)務(wù)時(shí)顯得力不從心。這不僅影響了業(yè)務(wù)的擴(kuò)展性和靈活性,還可能導(dǎo)致性能瓶頸,影響用戶體驗(yàn)和業(yè)務(wù)效率。
一、 建設(shè)方案概述
( 一 ) 建設(shè)方案
1. 整體架構(gòu)升級(jí)
本次項(xiàng)目擬采用深信服超融合基礎(chǔ)設(shè)施來(lái)替換原有的VMware虛擬化平臺(tái),使用超融合建設(shè)普通混閃存儲(chǔ)和高性能混閃存儲(chǔ)兩個(gè)資源池,同時(shí)對(duì)接用戶現(xiàn)有的 DELL FC 外置存儲(chǔ)空間,形成一平臺(tái)多存儲(chǔ)的融合資源池。從傳統(tǒng)的單一虛擬化升級(jí)為私有云資源池架構(gòu),優(yōu)化業(yè)務(wù)信息系統(tǒng)架構(gòu),更好地適應(yīng)企業(yè)業(yè)務(wù)的動(dòng)態(tài)變化和增長(zhǎng)需求。
原 VMware 配置清單如下:
CPU 配置:20×44 C
內(nèi)存:20×768 G
磁盤信息:Dell FC 存儲(chǔ)約 100T
備注:ESXI 5.1
本次項(xiàng)目深信服配置清單如下:
CPU 配置:77×32 C
內(nèi)存:77×768 G
磁盤信息:普通混閃集群 1.2P(緩存比 10%)、高性能混閃集群 600T(緩存比 24%)、全閃集群 600T。多套集群用于業(yè)務(wù)區(qū)分(HCI 6.8.0R2)
2. 業(yè)務(wù)系統(tǒng)遷移策略關(guān)鍵業(yè)務(wù)系統(tǒng)針對(duì)性遷移
在進(jìn)行業(yè)務(wù)系統(tǒng)遷移時(shí),確保業(yè)務(wù)連續(xù)性和穩(wěn)定性至關(guān)重要。針對(duì)SRM、CRM、EKP和PCB_MES等關(guān)鍵業(yè)務(wù)系統(tǒng)進(jìn)行詳細(xì)的業(yè)務(wù)影響分析來(lái)評(píng)估每個(gè)系統(tǒng)在業(yè)務(wù)中斷時(shí)的潛在影響,并確定它們的RTO和RPO要求,以便制定遷移優(yōu)先級(jí)和資源分配。為了最小化業(yè)務(wù)中斷,在非高峰時(shí)段進(jìn)行遷移,并采用增量遷移技術(shù)來(lái)減少對(duì)業(yè)務(wù)的影響,確保遷移過(guò)程能夠最大程度地保障業(yè)務(wù)的連續(xù)性和穩(wěn)定性。
3. 強(qiáng)大的備份機(jī)制CDP模塊實(shí)現(xiàn)秒級(jí)備份
在可靠性方面,本次項(xiàng)目擬采用數(shù)據(jù)冗余架構(gòu),在兩個(gè)相距約五公里的數(shù)據(jù)中心之間搭建起一座數(shù)據(jù)冗余的橋梁,實(shí)現(xiàn)雙活。確保當(dāng)數(shù)據(jù)中心出現(xiàn)故障時(shí),業(yè)務(wù)仍然能夠不間斷運(yùn)行。同時(shí)基于深信服超融合的無(wú)代理CDP模塊,實(shí)現(xiàn)對(duì)重要業(yè)務(wù)系統(tǒng)的秒級(jí)備份。規(guī)劃將1T的 IO 日志存放于虛擬存儲(chǔ),備份數(shù)據(jù)存放于外置存儲(chǔ)EDS上,在面對(duì)突發(fā)故障時(shí),能夠迅速?gòu)膫浞葜谢謴?fù)數(shù)據(jù),做到RPO =1s。
( 二 ) 方案優(yōu)勢(shì)
1. 高性能與高效能提升系統(tǒng)表現(xiàn)
超融合基礎(chǔ)設(shè)施在軟硬件層面深度優(yōu)化,在計(jì)算資源層面更有效地應(yīng)對(duì)企業(yè)業(yè)務(wù)系統(tǒng)的高并發(fā)處理需求,加速?gòu)?fù)雜生產(chǎn)管理系統(tǒng)、設(shè)計(jì)模擬軟件以及數(shù)據(jù)分析工具的響應(yīng)速度,從而極大提高工作效率。存儲(chǔ)方面使用高性能混閃卷和全閃卷來(lái)滿足高IO的性能承載需求。
2. 優(yōu)化資源利用率
通過(guò)精細(xì)化的資源整合和智能調(diào)度機(jī)制,顯著提升了資源利用效率,確保了業(yè)務(wù)系統(tǒng)的靈活性和高效性。這種優(yōu)化允許不同業(yè)務(wù)系統(tǒng)根據(jù)自身的具體需求動(dòng)態(tài)分配資源,有效避免了資源的閑置和浪費(fèi)。特別是在業(yè)務(wù)高峰期,系統(tǒng)能夠自動(dòng)識(shí)別并優(yōu)先分配資源給關(guān)鍵業(yè)務(wù),保障其性能穩(wěn)定和響應(yīng)迅速。而在業(yè)務(wù)低谷期,系統(tǒng)則能夠智能回收閑置資源,從而減少能源消耗和降低運(yùn)營(yíng)成本。
3. 成本效益優(yōu)勢(shì),降低軟硬件成本
采用超融合資源池架構(gòu)簡(jiǎn)化數(shù)據(jù)中心的基礎(chǔ)設(shè)施,減少了對(duì)多種獨(dú)立硬件設(shè)備的需求。企業(yè)不再需要依賴于傳統(tǒng)的、由單獨(dú)服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備構(gòu)成的復(fù)雜組合。這樣的集成化設(shè)計(jì)不僅降低了硬件采購(gòu)成本,還減少了因設(shè)備多樣性而產(chǎn)生的維護(hù)工作和相關(guān)費(fèi)用,不僅降低了企業(yè)的總體擁有成本(TCO),還增強(qiáng)了系統(tǒng)的可擴(kuò)展性和靈活性。
4. 安全保障提升,數(shù)據(jù)安全增強(qiáng)
內(nèi)置的安全防護(hù)機(jī)制和完善的備份策略,確保了企業(yè)數(shù)據(jù)的安全性和完整性。CDP 備份保護(hù)機(jī)制、數(shù)據(jù)冗余和雙活架構(gòu)等措施,有效地防止了數(shù)據(jù)丟失和損壞,有效解決了用戶在數(shù)據(jù)保護(hù)與安全防護(hù)方面的后顧之憂。這對(duì)于制造業(yè)企業(yè)而言,保護(hù)了其研發(fā)數(shù)據(jù)、用戶信息、生產(chǎn)工藝數(shù)據(jù)等重要資產(chǎn),確保企業(yè)的核心競(jìng)爭(zhēng)力不受影響。
二、 遷移過(guò)程
本次遷移工程始于 2023 年初,持續(xù)至 2024 年 10 月,歷經(jīng)近兩年的時(shí)間跨度,是一項(xiàng)復(fù)雜而艱巨的任務(wù)。整個(gè)過(guò)程可以分為以下幾個(gè)主要階段:
( 一 ) 前期準(zhǔn)備階段
1. 業(yè)務(wù)分層設(shè)計(jì)
在正式開始遷移之前,深信服進(jìn)行了全面而細(xì)致的準(zhǔn)備工作。首先,對(duì)用戶的業(yè)務(wù)進(jìn)行了深入梳理,共識(shí)別出 369 臺(tái)業(yè)務(wù)虛機(jī), 并根據(jù)業(yè)務(wù)重要性和可中斷性將其分為三類:
一類業(yè)務(wù)? 42 ?臺(tái),僅在 重大節(jié)假日 窗口可中斷;
二類業(yè)務(wù)? 59 ?臺(tái),可在 周六日 窗口中斷;
三類業(yè)務(wù)? 268? 臺(tái),可在 工作日 窗口中斷。
2. 平臺(tái)風(fēng)險(xiǎn)分析
VMware源端
深信服對(duì)原 VMware 配置進(jìn)行了詳細(xì)分析,識(shí)別潛在的風(fēng)險(xiǎn),制定了科學(xué)合理的遷移方案。
遷移前期風(fēng)險(xiǎn)及規(guī)避措施
在遷移前期,發(fā)現(xiàn)以下問(wèn)題并提前通知用戶進(jìn)行風(fēng)險(xiǎn)規(guī)避:
(1)部分業(yè)務(wù)軟件授權(quán)與 MAC 地址強(qiáng)關(guān)聯(lián),遷移創(chuàng)建時(shí)需將網(wǎng)卡 MAC 地址設(shè)置一致后再進(jìn)行遷移。
(2)源業(yè)務(wù)虛機(jī)內(nèi)部安裝殺毒軟件可能導(dǎo)致 SCMT 的 agent 進(jìn)程無(wú)法運(yùn)行,遷移時(shí)建議退出殺毒軟件后再安裝 agent。
(3)部分老舊業(yè)務(wù)系統(tǒng)由于系統(tǒng)內(nèi)核較低無(wú)法安裝 agent,需進(jìn)行無(wú)代理遷移。且遷移至目的端后可能出現(xiàn) SCMT 切換失敗,此時(shí)需源端關(guān)機(jī)進(jìn)行最后一次增量同步后,再在 HCI 目標(biāo)端拉起。建議先取消 virtio,正常開機(jī)后嘗試安裝 tools。
超融合目的端
提前會(huì)進(jìn)行主動(dòng)服務(wù)adeploy巡檢和資源查看,提前發(fā)現(xiàn)和規(guī)避風(fēng)險(xiǎn),確保遷移資源充裕,如果資源不夠,會(huì)及時(shí)跟用戶以及市場(chǎng)同事進(jìn)行相應(yīng)溝通,保障整體遷移。
( 二 ) 分階段遷移階段
1. 三類業(yè)務(wù)遷移
遷移前期,深信服優(yōu)先將三類業(yè)務(wù)遷移至混閃集群。整體采用 SCMT 遷移工具進(jìn)行點(diǎn)對(duì)點(diǎn)遷移,在遷移過(guò)程中不影響原有業(yè)務(wù)并同步增量數(shù)據(jù)。大多數(shù)業(yè)務(wù)系統(tǒng)采用有代理→免代理業(yè)務(wù)遷移,遷移穩(wěn)定、數(shù)據(jù)傳輸速度快,少部分無(wú)法安裝agent的業(yè)務(wù)采用免代理→免代理業(yè)務(wù)遷移。在這個(gè)階段,需要密切關(guān)注遷移進(jìn)度和資源使用情況,通過(guò)主動(dòng)服務(wù) aDeploy 巡檢并查看資源,確保遷移過(guò)程順利進(jìn)行。若發(fā)現(xiàn)資源不足,及時(shí)與用戶及市場(chǎng)同事溝通,保障整體遷移順利進(jìn)行。
2. 二類業(yè)務(wù)遷移
待三類業(yè)務(wù)遷移穩(wěn)定后,深信服開始將二類業(yè)務(wù)遷移至高性能混閃集群。同樣采用 SCMT 遷移工具,遵循相同的遷移原則和風(fēng)險(xiǎn)規(guī)避措施。在這個(gè)階段,需要更加注重業(yè)務(wù)的穩(wěn)定性和可靠性,確保在遷移過(guò)程中不會(huì)對(duì)用戶的業(yè)務(wù)造成任何不良影響。
3. 一類業(yè)務(wù)遷移
在五一、國(guó)慶等重大節(jié)假日時(shí),深信服將一類業(yè)務(wù)遷移至全閃集群。由于一類業(yè)務(wù)的重要性和不可中斷性,在遷移過(guò)程中需要格外謹(jǐn)慎,提前做好充分的準(zhǔn)備工作,包括與用戶的溝通協(xié)調(diào)、資源的優(yōu)化配置以及風(fēng)險(xiǎn)的再次評(píng)估和規(guī)避。
遷移過(guò)程的部分截圖如下:
( 三 ) 重點(diǎn)業(yè)務(wù)遷移階段
—— 以 PCB_MES 業(yè)務(wù)系統(tǒng)為例
PCB_MES 業(yè)務(wù)系統(tǒng)作為用戶的核心業(yè)務(wù)系統(tǒng),于 2016 年左右新建,運(yùn)行著 Oracle 11.2 1T 的核心數(shù)據(jù)庫(kù)單機(jī),采用 Linux 5.0 內(nèi)核 2.6.18。由于系統(tǒng)無(wú)法安裝 SCMT 的遷移代理 agent,只能采用免代理方式進(jìn)行業(yè)務(wù)遷移。
整個(gè)虛機(jī)空間約為 1T,遷移速度約為 80MB/s。在遷移過(guò)程中,需要密切關(guān)注數(shù)據(jù)的完整性和一致性,確保不會(huì)出現(xiàn)數(shù)據(jù)丟失或損壞的情況。經(jīng)過(guò)約兩天的時(shí)間,完成了大部分?jǐn)?shù)據(jù)的遷移。
中午11時(shí)33分,執(zhí)行停庫(kù)操作,進(jìn)行最后一次增量同步后切換。切換至業(yè)務(wù)拉起驗(yàn)證時(shí)間約為 30 分鐘。在此期間,遭遇了因 Linux 內(nèi)核版本過(guò)低而無(wú)法在工具上完成切換的問(wèn)題。依據(jù)前期風(fēng)險(xiǎn)排查與規(guī)避手段,深信服在 HCI 中取消 virtio 磁盤后拉起,并進(jìn)行低版本內(nèi)核的 tools 安裝,最終成功完成業(yè)務(wù)遷移。
三、 遷移后的驗(yàn)證
在完成所有業(yè)務(wù)的遷移后,深信服對(duì)遷移后的系統(tǒng)進(jìn)行了全面的驗(yàn)證和優(yōu)化。
( 一 ) 功能驗(yàn)證
系統(tǒng)啟動(dòng)與運(yùn)行: 確保遷移后的系統(tǒng)能夠正常啟動(dòng),各個(gè)服務(wù)和進(jìn)程能夠穩(wěn)定運(yùn)行,沒(méi)有出現(xiàn)死機(jī)、崩潰等異常情況。例如,對(duì)于服務(wù)器,檢查其操作系統(tǒng)是否能夠順利加載,各種服務(wù)是否能夠正常啟動(dòng),如 Web 服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器等。
業(yè)務(wù)應(yīng)用功能業(yè)務(wù)流程完整性: 驗(yàn)證業(yè)務(wù)系統(tǒng)的各個(gè)功能模塊是否完整,業(yè)務(wù)流程是否順暢,是否能夠滿足用戶的實(shí)際需求。
功能響應(yīng)速度: 測(cè)試業(yè)務(wù)功能的響應(yīng)速度,包括頁(yè)面加載速度、數(shù)據(jù)查詢和處理速度等,確保用戶能夠獲得良好的使用體驗(yàn)。
( 二 ) 數(shù)據(jù)驗(yàn)證
數(shù)據(jù)完整性: 檢查遷移后的數(shù)據(jù)是否完整,包括數(shù)據(jù)庫(kù)中的表數(shù)據(jù)、文件數(shù)據(jù)等,確保數(shù)據(jù)沒(méi)有丟失或損壞。比如,對(duì)比遷移前后數(shù)據(jù)庫(kù)中表的記錄數(shù)量、數(shù)據(jù)內(nèi)容是否一致。
數(shù)據(jù)一致性: 驗(yàn)證數(shù)據(jù)的一致性,確保不同業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)能夠正確交互和共享,沒(méi)有出現(xiàn)數(shù)據(jù)不一致的情況。例如,在涉及多個(gè)系統(tǒng)的業(yè)務(wù)場(chǎng)景中,檢查數(shù)據(jù)的一致性,如訂單數(shù)據(jù)在不同系統(tǒng)中的一致性。
四、 業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行
深信服對(duì)遷移到HCI的業(yè)務(wù)應(yīng)用,通過(guò) 云端智能大腦 等智能運(yùn)維工具,結(jié)合線上線下服務(wù)協(xié)同人機(jī)共智的模式實(shí)現(xiàn)智能監(jiān)控,相較于VMware承載,主要優(yōu)化并解決如下關(guān)鍵點(diǎn):
( 一 ) 構(gòu)建全棧監(jiān)控體系
建立涵蓋硬件、云平臺(tái)、云主機(jī)、數(shù)據(jù)庫(kù)、應(yīng)用等全棧的監(jiān)控體系,實(shí)現(xiàn)對(duì) IT 基礎(chǔ)設(shè)施和業(yè)務(wù)系統(tǒng)的全方位監(jiān)測(cè)。通過(guò)多種監(jiān)控指標(biāo)和告警規(guī)則,及時(shí)發(fā)現(xiàn)潛在問(wèn)題和異常情況。有效減少生產(chǎn)中斷事件發(fā)生次數(shù),保障業(yè)務(wù)連續(xù)性,以全年不發(fā)生業(yè)務(wù)中斷為目標(biāo)進(jìn)行建設(shè)。
( 二 ) 配備專屬服務(wù)團(tuán)隊(duì)
為用戶配備專屬線上線下服務(wù)經(jīng)理,建立線上線下協(xié)同的故障處置機(jī)制,7*24H及時(shí)響應(yīng)用戶問(wèn)題,協(xié)同進(jìn)行故障排除和恢復(fù)。能夠在事件發(fā)生前期提前發(fā)出預(yù)警,識(shí)別風(fēng)險(xiǎn),達(dá)到提前介入處理,事先消除風(fēng)險(xiǎn),規(guī)避事件發(fā)生。
自2023年初啟動(dòng),歷經(jīng)近兩年的精心規(guī)劃與實(shí)施,于 2024年10月成功完成業(yè)務(wù)遷移任務(wù),滿足了用戶存儲(chǔ)雙活和數(shù)據(jù)保護(hù)的核心訴求。該企業(yè)業(yè)務(wù)成功遷移,是深信服在制造業(yè)打磨技術(shù)方案的有效實(shí)踐證明。深信服始終關(guān)注各行業(yè)用戶替代升級(jí)的需求,持續(xù)打造有效、穩(wěn)定的解決方案,為用戶構(gòu)建自主創(chuàng)新的數(shù)字化基礎(chǔ)設(shè)施。