亚洲国产三级在线理论,K8福利精品第一导航

從虛機(jī)到容器，秒拍架構(gòu)師告訴你如何平滑進(jìn)行業(yè)務(wù)遷移

作者：sdfff
來源：互聯(lián)網(wǎng)
瀏覽：100
2020-01-20 16:27:21

近期，炫一下（北京）科技有限公司（簡稱“一下科技”）短視頻產(chǎn)品“秒拍”完成了一個“大動作”——將原來部署在虛擬機(jī)上的主體業(yè)務(wù)遷移到華為云，同時將公司的技術(shù)體系承載在下一代虛擬技術(shù)容器（Docker）上。而這一系列動作是在業(yè)務(wù)不下線，用戶無感知的前提下完成的，秒拍是如何做到的？

秒拍是一個媒體屬性很強(qiáng)的業(yè)務(wù)，在用戶規(guī)模達(dá)到一定體量后，由明星熱點事件引發(fā)的流量突發(fā)狀況非常嚴(yán)重，而傳統(tǒng)虛機(jī)業(yè)務(wù)存在擴(kuò)容響應(yīng)速度慢，成本高等一系列問題，于是秒拍想到了容器。容器服務(wù)擁有啟動快速、占用資源少、運行效率高等技術(shù)特點，在處理海量數(shù)據(jù)方面擁有天然的優(yōu)勢。但是如何保證業(yè)務(wù)能夠快速無縫地進(jìn)行切換，讓最終用戶毫無感知的完成從虛機(jī)到容器的遷移，真正要做到這一點非常困難。

盡管困難重重，但秒拍在評估了未來業(yè)務(wù)需求和技術(shù)團(tuán)隊規(guī)模之后，還是選擇將已部署在云上的主體業(yè)務(wù)遷移到華為云CCE上。而華為云強(qiáng)大的技術(shù)支持能力和服務(wù)團(tuán)隊，為這次遷移解決了后顧之憂。

以下是秒拍架構(gòu)師李東輝對本次業(yè)務(wù)遷移的記錄，如果你也希望從虛機(jī)向更靈活的容器升級，又不希望影響業(yè)務(wù)，不妨一看：

背景

我們現(xiàn)在主體業(yè)務(wù)已經(jīng)是部署在某云上了，但整個技術(shù)體系，還是基于傳統(tǒng)的虛擬機(jī)去承載的，由于我們產(chǎn)品本身的媒體屬性，導(dǎo)致了不可避免的會經(jīng)常遇到突發(fā)流量，相比于一直比較平穩(wěn)的流量，這種對服務(wù)端的考驗更高，核心關(guān)注點還是在怎么保障在這種時刻用戶都能得到良好的體驗。

另一方面，由于云平臺本身的一些不可抗力因素，不能保證百分百的高可用，怎么降低單點依賴的風(fēng)險，也是我們需要重點考慮的。

經(jīng)過綜合性的權(quán)衡，我們決定把主體業(yè)務(wù)遷移到華為云，并且優(yōu)化升級原來的架構(gòu)，以便更好的支撐海量用戶訪問。前端機(jī)也從VM過渡到docker，遷移后的整體架構(gòu)圖如下

各個資源的遷移過程

1. mc遷移

現(xiàn)在業(yè)務(wù)上使用mc只是做臨時緩存，cache miss會從存儲（DB、ES等）拉一份寫進(jìn)去，并且業(yè)內(nèi)也沒有比較成熟的mc存量與增量遷移方案，所以這部分?jǐn)?shù)據(jù)可以忽略，等上線前，預(yù)熱一部分熱點數(shù)據(jù)進(jìn)去。不過使用上有一些區(qū)別，原平臺使用的是服務(wù)端集群，現(xiàn)在是客戶端集群，需要建立MC連接的時候，添加所有的服務(wù)器列表以及權(quán)重。

2. mq遷移

mq主要用來解耦業(yè)務(wù)模塊，生產(chǎn)端生產(chǎn)一份數(shù)據(jù)，消費端可能有多個，遷移的話，需要先配置好資源的vhost，exechange還有queue，服務(wù)端先更新配置上線，數(shù)據(jù)寫入到新資源，消費端在舊資源消費完成后，切換到新資源的消費上。

3. redis遷移

redis的遷移需要區(qū)分兩個場景的數(shù)據(jù)，一個是緩存數(shù)據(jù)，可以按照mc的遷移策略忽略，另一部分是持久化數(shù)據(jù)，主要是業(yè)務(wù)上的各種計數(shù)，這部分?jǐn)?shù)據(jù)要求盡量精確快速的遷移到新資源，當(dāng)時考慮了兩種方案

· 一種呢，是基于快照文件遷移存量數(shù)據(jù)可以通過RDB快照，只需要原平臺有備份RDB的權(quán)限，在新資源通過快照回放完成全量數(shù)據(jù)的遷移。這種方案優(yōu)點比較突出，操作簡單快速，但缺點是不支持增量同步。

· 另一種呢，基于業(yè)務(wù)遷移首先，讀優(yōu)先從新資源讀，沒有命中的從老資源讀取一份，寫入到新資源并返回這個值。其次，寫（incr decr操作）優(yōu)先更新老資源，并且按照更新后的返回值寫入到新資源。

這種方案能兼顧存量與增量數(shù)據(jù)，但存在的問題是，讀寫新老資源的過程非原子性，理論上高并發(fā)情況下會存在一定誤差，并且業(yè)務(wù)上的這種改造增加了后期的維護(hù)成本，另外，從性能方面考慮，原來一次連接（短連接）、一次redis操作就能搞定的事，現(xiàn)在都需要兩到三次。

綜合現(xiàn)在的業(yè)務(wù)量考慮，我們采取了第一種方案，但是時間點選在凌晨四點低峰時段，將影響范圍盡可能降到最低，后續(xù)通過落到DB的數(shù)據(jù)做統(tǒng)計恢復(fù)。

4. db遷移

db遷移相對比較容易，全量數(shù)據(jù)預(yù)先復(fù)制一份過去，增量數(shù)據(jù)因為都是基于binlog訂閱，只需要獲取原平臺DB的權(quán)限，就可以通過binlog同步到新數(shù)據(jù)庫。

這里需要注意的是一個主從同步的問題，新資源主從是半同步復(fù)制，主庫只需要等待一個從庫節(jié)點收到并且 Flush Binlog 到 Relay Log 文件即可，同時，這里只是一個收到的反饋，而不是已經(jīng)完全完成并且提交的反饋，這時候，主庫就會進(jìn)行其他操作，相比與之前的全同步的事務(wù)復(fù)制，節(jié)省了很多時間，但是也造成了新的問題，即：主從有理論上1ms的延遲，實際測試延遲時間是0.5-0.8ms，這在“更新DB后又立馬讀取一次DB數(shù)據(jù)”的場景下會有問題，并且根據(jù)Cache Aside Pattern的緩存更新策略，DB更新成功會直接刪除緩存，由于主從延遲，這時候讀進(jìn)程讀取到老數(shù)據(jù)并且寫入到緩存，從而導(dǎo)致了一段時間內(nèi)的臟數(shù)據(jù)。

有一個比較快速的方式能夠解決這個問題，那就是在DB更新成功后直接更新緩存，但是這樣處理后會產(chǎn)生新的問題，并發(fā)的寫操作，又會導(dǎo)致同一資源key的臟數(shù)據(jù)，不過是概率大小的問題。這就涉及到了取舍，就像為了保證DB、cache的強(qiáng)一致性，采用2PC（prepare, commit/rollback），大大降低性能一樣，軟件設(shè)計從來都是取舍。

5. ES遷移

ES主要服務(wù)的是APP以及Admin后臺，用戶、媒資等數(shù)據(jù)的搜索，數(shù)據(jù)源在DB，所以存量數(shù)據(jù)直接從DB拉一份進(jìn)去，增量數(shù)據(jù)通過監(jiān)聽DB更新，同步到ES里。

6. 版本庫遷移

版本庫的遷移主要是方便接入鏡像構(gòu)建與k8s部署，同時呢，項目使用到的資源鏈接地址、用戶名、密碼等也需要更新，這部分都是統(tǒng)一配置，直接修改就行。

7. 服務(wù)發(fā)現(xiàn)

原來業(yè)務(wù)上都是基于服務(wù)端發(fā)現(xiàn)的模式，一個微服務(wù)對應(yīng)著一個LB，通過DNS解析到對應(yīng)的LB IP，LB實現(xiàn)VM的負(fù)載均衡策略與?；顧C(jī)制。LB下層現(xiàn)在多了一層k8s的調(diào)度，k8s調(diào)度的單元也不再是VM，而是Pod(邏輯主機(jī))，在這里VM的存在也僅僅是提供不同規(guī)格的物理資源。

其次使用DNS解析也可以方便不同VPC子網(wǎng)指向不同的資源IP，例如測試環(huán)境與生產(chǎn)環(huán)境，項目使用到的資源地址是相同的，只不過解析到了不同的資源。

8. Dokerfile

需要預(yù)先制作好基礎(chǔ)鏡像，包含基本的php、nginx環(huán)境跟用戶權(quán)限這些，Dokerfile主要實現(xiàn)將項目代碼復(fù)制到容器。

9. 切流量

后端資源遷移完成，準(zhǔn)備就緒以后，就可以開始切公網(wǎng)流量了，非核心業(yè)務(wù)直接修改公網(wǎng)DNS，解析到新LB IP，核心業(yè)務(wù)LB上層還有一層高防，在高防不變的情況下，只需要修改高防源站IP到新LB就行。

流量遷移完畢后，全線驗證，觀察錯誤日志，當(dāng)然這個過程并不是只有等流量切完才會開始，而是從資源遷移開始就一直持續(xù)進(jìn)行的。

10. 部署上線

原來的部署是通過中控機(jī)，將代碼分發(fā)到各個線上服務(wù)器，現(xiàn)在呢，需要使用上一步創(chuàng)建的Dockerfile，構(gòu)建鏡像，將構(gòu)建好的鏡像通過k8s滾動升級（先kill老鏡像，再派生出新鏡像）。升級的步驟如下：

push后鏡像已經(jīng)推送到私有倉庫，現(xiàn)在需要創(chuàng)建k8s的配置文件用于管理和升級容器。

創(chuàng)建pod kubectl create -f miaopai.yaml 后邊再升級容器，先把容器更新push到倉庫后，修改image地址，通過apply進(jìn)行升級就可以。

架構(gòu)優(yōu)化

架構(gòu)優(yōu)化的目標(biāo)是分析現(xiàn)在業(yè)務(wù)上存在的問題，并針對性的優(yōu)化解決，結(jié)合壓測結(jié)果，主要確定了幾個優(yōu)化點。

1. mc、redis的優(yōu)化

mc使用上存在的問題是，只有在存儲查詢到的情況下才會緩存數(shù)據(jù)，這樣就會導(dǎo)致很多空查詢落到存儲，解決這個問題只需要將沒有查詢到數(shù)據(jù)的情況，也寫一份空數(shù)據(jù)到緩存就能解決。

除此之外，mc的批量查詢，存在太多的偽批量（redis也存在)，例如：foreach每次循環(huán)里都使用get查詢，需要將這樣的處理都改成multiget的形式，不過multiget在集群的情況下會存在hole現(xiàn)象，這個問題最早是由 facebook 的工作人員提出的

facebook 在 2010 年左右,memcached 節(jié)點就已經(jīng)達(dá)3000 個.緩存數(shù)千 G 內(nèi)容.他們發(fā)現(xiàn)了一個問題-memcached 連接頻率,效率下降了,于是加 memcached 節(jié)點, 添加了后, 發(fā)現(xiàn)因為連接頻率導(dǎo)致的問題, 仍然存在, 并沒有好轉(zhuǎn),稱之為”multiget hole現(xiàn)象”。請求多臺服務(wù)器并不是問題的癥結(jié)，真正的原因在于客戶端在請求多臺服務(wù)器時是并行的還是串行的！問題是很多客戶端，包括Libmemcached在內(nèi)，在處理Multiget多服務(wù)器請求時，使用的是串行的方式！也就是說，先請求一臺服務(wù)器，然后等待響應(yīng)結(jié)果，接著請求另一臺，結(jié)果導(dǎo)致客戶端操作時間累加，請求堆積，性能下降。

有推薦根據(jù)key做hash的，這樣就可以使得相同key前綴的數(shù)據(jù)分布在一臺機(jī)器上，但是這樣又會導(dǎo)致新的問題，例如：增加業(yè)務(wù)復(fù)雜度，每個節(jié)點的數(shù)據(jù)分布不均等等，不過相信大部分公司業(yè)務(wù)的體量都沒辦法對標(biāo)facebook的，如果真的到了需要考慮這個問題的時候，其實是推薦使用redis的pipeline并行機(jī)制來解決的。

2. 核心業(yè)務(wù)的降級策略

作為APP內(nèi)首屏的幾個tab，數(shù)據(jù)都是從推薦系統(tǒng)中獲取，一旦推薦系統(tǒng)掛掉，基本沒有了用戶體驗，所以必要時還是需要采用熔斷降級策略，降級策略相對來說，只需要保證用戶能獲取到部分列表數(shù)據(jù)，即使所有用戶獲取到的數(shù)據(jù)都一樣。實現(xiàn)上呢，先把部分列表數(shù)據(jù)存儲到cache，一旦發(fā)生熔斷，那么數(shù)據(jù)從推薦系統(tǒng)讀取的渠道會直接切斷，轉(zhuǎn)而從cache里讀取返回給用戶。但是有一個問題，讀取的這個流程應(yīng)該是由業(yè)務(wù)完成，還是由前端web服務(wù)器（nginx）直接完成呢。我們目前采用的后者，一方面使用ngx_lua能保證系統(tǒng)的吞吐，另一方面不僅僅是推薦系統(tǒng)，即使在服務(wù)端整體掛掉的情況下，也可以繼續(xù)提供服務(wù)。

觸發(fā)熔斷的條件可以有很多，例如：每20個請求中，50%失敗，當(dāng)然了，失敗包括響應(yīng)失敗跟超時，也可以根據(jù)當(dāng)次請求結(jié)果來判斷。熔斷的條件其實并沒有什么標(biāo)準(zhǔn)，更多的是依照以往系統(tǒng)的經(jīng)驗來一步步調(diào)整。在以前并沒有很多熔斷經(jīng)驗的情況下，盡量擴(kuò)大這個閾值，隨著經(jīng)驗的一步步積累，再確定各個模塊比較合理的熔斷條件和降級策略。

3. 負(fù)載均衡策略

傳統(tǒng)負(fù)載均衡LB，實現(xiàn)的是請求到VM和端口的負(fù)載均衡，容器化之后，LB下層掛載了k8s集群，實際上這里的負(fù)載均衡除了LB的，還有k8s的，即請求到達(dá)節(jié)點（VM）后，再負(fù)載均衡到不同的容器。

上邊提到的負(fù)載均衡只是四層（IP加端口），如果要根據(jù)應(yīng)用層的信息，比如：URI，cookie等等，做負(fù)載均衡，就需要使用七層LB，我們使用到的場景，主要是還沒有切割成微服務(wù)的大單體，根據(jù)URI，將不同模塊的請求打到不同的四層LB。

4. Mysql HA

Mysql作為我們底層的核心存儲，必須要保障它的高可用，現(xiàn)在架構(gòu)是采用主從+主備的形式，不過這兩種方式都有個共性的問題，主機(jī)故障后，無法進(jìn)行寫操作，如果主機(jī)一直無法恢復(fù)，需要人工指定新主機(jī)角色。優(yōu)化的目標(biāo)也顯而易見，就是設(shè)計雙機(jī)切換，在主機(jī)故障之后，能夠自動切換到其他主機(jī)。

PHP本身實現(xiàn)了mysql的負(fù)載均衡和failover策略，需要依賴插件mysqlnd_ms，詳見https://php.net/mysqlnd_ms，不過僅限于PHP5.x版本，倒是有支持PHP7.0以上的非官方版本，https://github.com/sergiotabanelli/mysqlnd_ms，但如果直接用在生產(chǎn)環(huán)境，并不十分明智，并且mysqlnd_ms需要特殊格式的資源配置，在一個項目里維護(hù)兩份資源配置，也會帶來新的復(fù)雜度問題。

要實現(xiàn)雙擊切換的核心點在于，對主機(jī)狀態(tài)的判斷，和狀態(tài)決策，可以通過引入一個中介角色，主機(jī)和備機(jī)把狀態(tài)傳遞給中介，由中介完成決策功能，但引入中介的角色并不是沒有代價的，那就是要考慮中介角色的高可用。這就陷入了一個遞歸的陷阱：為了實現(xiàn)高可用，我們引入中介，但中介本身又要求高可用，于是又要設(shè)計中介的高可用方案……如此遞歸下去就無窮無盡了。

MongoDB的Replica Set采取的就是這種方式，基本架構(gòu)如下：

幸運的是，開源方案已經(jīng)有比較成熟的中介式解決方案，例如：Zookeeper和Keepalived。ZP本身已經(jīng)實現(xiàn)了高可用集群架構(gòu)，因此已經(jīng)解決了中介本身的可靠性問題，在實踐中也推薦這種架構(gòu)。

5. 日志與監(jiān)控

線上日志的定時收集反饋也是必不可少的，日志包括服務(wù)器的access_log，error_log，當(dāng)然還有業(yè)務(wù)的自定義log。收集的目的主要是用來統(tǒng)計一段時間內(nèi)的http code 分布、響應(yīng)時間和錯誤信息。

通過在實例跟資源上部署agent，定時收集CPU和內(nèi)存信息也是必要的。統(tǒng)計型的數(shù)據(jù)需要收集匯總成表格，方便觀察，各種指標(biāo)的閾值也需要提前設(shè)置好，超過閾值后能夠及時報警，通知到責(zé)任人。當(dāng)然了，監(jiān)控不是最終目的，及時巡檢線上資源、接口，排除系統(tǒng)隱患，防范于未然才是終極之道。

不得不說，互聯(lián)網(wǎng)企業(yè)把大多數(shù)業(yè)務(wù)部署在云服務(wù)器上，現(xiàn)在已漸成趨勢，但由于歷史原因，技術(shù)往往是架設(shè)在傳統(tǒng)的虛擬機(jī)（VM）上。如果企業(yè)要過渡到下一代虛擬技術(shù)容器，會涉及到各類資源遷移和技術(shù)架構(gòu)優(yōu)化，整個過程是必須短暫而痛苦的。但如果沒有相應(yīng)規(guī)模的技術(shù)團(tuán)隊來操作，再加上云廠商沒有完善的技術(shù)支持團(tuán)隊，這個過程會更加痛苦。如何減少企業(yè)業(yè)務(wù)升級的痛苦，這就非?？简炂髽I(yè)技術(shù)決策者的選擇智慧！華為云，目前已經(jīng)展現(xiàn)出了在技術(shù)服務(wù)的獨特優(yōu)勢，未來肯定是擺在企業(yè)面前最具競爭力的選項之一。

上一篇：虛擬主機(jī)上的網(wǎng)站備份方法

下一篇：企業(yè)建網(wǎng)站」必懂建站常識：虛擬主機(jī)的選擇及...

免責(zé)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳，本網(wǎng)站不擁有所有權(quán)，也不承認(rèn)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，請發(fā)送郵件至：operations@xinnet.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

域名管理	我要充值
未支付訂單	發(fā)票管理
安全退出	進(jìn)入我的賬戶

域名

新網(wǎng)云

企業(yè)建站

虛擬主機(jī)

企業(yè)郵箱

從虛機(jī)到容器，秒拍架構(gòu)師告訴你如何平滑進(jìn)行業(yè)務(wù)遷移

相關(guān)文章

推薦閱讀

售前咨詢電話

售前咨詢

域名信息查詢（whois）

售后咨詢 (7*24小時)

售前咨詢

域名

新網(wǎng)云

企業(yè)建站

虛擬主機(jī)

企業(yè)郵箱

從虛機(jī)到容器，秒拍架構(gòu)師告訴你如何平滑進(jìn)行業(yè)務(wù)遷移

相關(guān)文章

推薦閱讀

售前咨詢電話

售前咨詢

域名信息查詢（whois）

售后咨詢 (7*24小時)

售前咨詢

從虛機(jī)到容器，秒拍架構(gòu)師告訴你如何平滑進(jìn)行業(yè)務(wù)遷移