計算虛擬化的硬件擴展話題
??針對不同的資源,虛擬化主要包含三個方面的內(nèi)容:計算虛擬化、存儲虛擬化和網(wǎng)絡(luò)虛擬化,接下來咱們就分別詳細介紹這三類資源的虛擬化手段和技術(shù)。今天主要聊虛擬化中的“計算虛擬化”,也就是主要針對 CPU 的虛擬化。CPU 虛擬化可以說是計算虛擬化最關(guān)鍵的核心,弄清楚了 VM Exit 和 VM Entry。后續(xù)的I/O 虛擬化,內(nèi)存虛擬化都是建立在這個基礎(chǔ)上。下面就由新網(wǎng)小編和大家講一講什么是計算虛擬化。
??計算虛擬化通常包括三方面的內(nèi)容
??1、CPU虛擬化:由于多個 VM 共享 CPU 資源,需要對 VM 中的敏感指令進行截獲并模擬執(zhí)行。
??2、內(nèi)存虛擬化:由于多個 VM 共享同一物理內(nèi)存,需要相互隔離
??3、I/O虛擬化:由于多個 VM 共享一個物理設(shè)備,如磁盤、網(wǎng)卡,一般借用 TDMA 的思想,通過分時多路技術(shù)進行復用。
??二、CPU虛擬化簡介
??對于 X86 處理器來說,CPU 虛擬化的基礎(chǔ)是因為其保護模式下一共有 4 個不同優(yōu)先級,分別從 Ring 0 直到 Ring3。這些 Ring 的優(yōu)先級隨其所執(zhí)行功能的不同也有所不同。其中Ring 0 用于操作系統(tǒng)內(nèi)核和驅(qū)動,優(yōu)先級最高,擁有最高的“特權(quán)”,Ring 1 和 Ring 2 用于操作系統(tǒng)服務,優(yōu)先級次之,Ring 3 用于應用程序,優(yōu)先級最低。一般應用程序都放在 Ring 3 等級,至于 Ring 1 和 2 則很少被使用。對于應用程序與 OS 發(fā)出的命令要求,CPU 一律采取 Direct ExecuTIon,如下圖所示:
??如果要進行虛擬化,Ring 0 這一層就必須交給 VMM來掌控,進行硬件資源的分配處理。
??那么問題來了,由于 OS 一定要在 Ring 0 進行訪問,直接控制硬件,而現(xiàn)在 Ring 0 的部分已經(jīng)交給 VMM,操作系統(tǒng)則被調(diào)降到 Ring 1,但是由于 X86 CPU 最初定位為單個用戶使用,當時并沒有考慮到將計算資源分配給不同 OS 的問題;而且 X86 的指令集架構(gòu)(即ISA,是處理器的一個抽象描述,即設(shè)計規(guī)范,定義處理器能夠做什么。其本質(zhì)就是一系列的指令集綜合。當前主流的 ISA 有 X86、ARM、MIPS、Power 等,這里我們僅講 X86 ISA)中有 19 條敏感指令不是特權(quán)指令,這些指令必須要在 Ring 0 這個層級才能作用,否則操作系統(tǒng)將會產(chǎn)生警告、終止掉應用程序甚至導致系統(tǒng)崩潰。
??于是,經(jīng)過研究,我們的攻城獅們提出以下三種方法來解決這個問題。
??(1)全虛擬化(Full VirtualizaTIon)
??這一方法最初由 VMware 在 1999 年提出,這是一種叫做二進制翻譯(Binary TranslaTIon)的技術(shù),原理是通過 VMM 來預先攔截這些 OS 當中原本不能被虛擬化的命令(nonvirtualizable instrucTIons),并將其進行二進制轉(zhuǎn)譯的替換操作,使操作系統(tǒng)認為自己可以直接掌控硬件,并不知道實際上已經(jīng)被虛擬化成為虛擬機了。如下圖所示:
??而應用程序一般性的命令則還是直接向硬件請求,以維持良好的性能。全虛擬化的好處是 OS 不必做任何修改,直接安裝即可使用。而且所支持的 OS 種類也最多,但若不靠硬件輔助(Hardware Assisted Virtualization),全虛擬化的實現(xiàn)難度是非常大。
??(2)半虛擬化( ParaVirtualization)
??半虛擬化的原理是修改 Guest OS 核心中部分代碼,植入了 Hypercall(超級調(diào)用),從而使 Guest OS 會將和特權(quán)指令相關(guān)的操作都轉(zhuǎn)換為發(fā)給 VMM 的 Hypercall(超級調(diào)用),由 VMM 繼續(xù)進行處理。而 Hypercall 支持的批處理和異步這兩種優(yōu)化方式,使得通過Hypercall 能得到近似于物理機的速度。
??這樣就能讓原本不能被虛擬化的命令(nonvirtualizable instructions)可以經(jīng)過 Hypercall interfaces 直接向硬件提出請求,Guest OS 的部分還是一樣在Ring 0,不用被調(diào)降到 Ring 1。如下圖所示:
??半虛擬化的優(yōu)點是 CPU、I/O 損耗減到最低,理論上性能勝過全虛擬化技術(shù),缺點則是必須要修改 OS 內(nèi)核才行,只有 SuSE、Ubuntu 等少數(shù) Linux 版本才支持,OS 兼容性不佳,因為微軟不肯修改自家的操作系統(tǒng)內(nèi)核,因此如果是 Windows 系統(tǒng),就無法使用半虛擬化了。
??VMware 在 2005 年發(fā)表了透明半虛擬化(Transparent Paravirtualization),針對支持半虛擬化的 OS 可以在 VMware 的平臺通過 VMI(Virtual Machine Interface)打開半虛擬化來增加 I/O 性能,降低CPU 的使用率。
??其原理是在支持半虛擬化的 Guest OS 上面由 VMware tools 開一道后門,與 VMM 進行溝通,然后在 OS 上安裝半虛擬優(yōu)化驅(qū)動程序,以提高 I/O 性能,降低 CPU 使用率。這是一種在 VMware 平臺上可以支持半虛擬化 OS 的最佳方式,但是必須要注意的是,底層 CPU Virtualization 仍然是使用二進制轉(zhuǎn)換(Binary Translation)的全虛擬化技術(shù)(Full Virtualization),而不是半虛擬化技術(shù)。
??(3)CPU 硬件輔助虛擬化( Hardware Assisted Virtualization)
??2005 年后,虛擬化漸漸成為潮流,勢不可擋。Intel 與 AMD 決定從 CPU 根本架構(gòu)著手,更改原來的特權(quán)等級 Ring 0、1、2、3,將之歸類為 Non-Root mode,又新增了一個 Root Mode 特權(quán)等級(有人稱為Ring -1),這樣一來,OS 便可以在原來Ring 0 的等級,而VMM 則調(diào)整到更底層的 Root Mode 等級。如下圖所示:
??目前主要有 Intel 的 VT-x 和 AMD 的 AMD-V 這兩種技術(shù)。其核心思想都是通過引入新的指令和運行模式,使 VMM 和 Guest OS 分別運行在不同模式(ROOT 模式和非 ROOT 模式)下,且 Guest OS 運行在 Ring 0 下。通常情況下,Guest OS 的核心指令可以直接下達到計算機系統(tǒng)硬件執(zhí)行,而不需要經(jīng)過 VMM。當 Guest OS 執(zhí)行到特殊指令的時候,系統(tǒng)會切換到 VMM,讓 VMM 來處理特殊指令。
??三、硬件輔助虛擬化擴展話題
??在硬件輔助虛擬化中,虛擬機的指令集直接運行在宿主機物理 CPU 上,當虛擬機中的指令設(shè)計到 I/O 操作或者一些特殊指令的時候,控制權(quán)轉(zhuǎn)讓給了宿主機(這里其實是轉(zhuǎn)讓給了 VMM),也就是一個進程,它在宿主機上的表現(xiàn)形式也就是一個用戶級進程。
??下面我們僅針對 VT-x 的一些重點概念展開談一下。
??(1)兩種模式
??VT-x 為 IA 32 處理器增加了兩種操作模式:VMX root operation 和 VMX non-root operation。
??VMM 自己運行在 VMX root operation 模式,VMX non-root operation 模式則由 Guest OS 使用。兩種操作模式都支持 Ring 0 ~ Ring 3 這 4 個特權(quán)級,因此 VMM 和 Guest OS 都可以自由選擇它們所期望的運行級別。
??(2)模式轉(zhuǎn)換 VM entry,運行 Guest OS
??這兩種操作模式可以互相轉(zhuǎn)換。運行在 VMX root operation 模式下的 VMM 通過顯式調(diào)用 VMLAUNCH 或 VMRESUME 指令切換到 VMX non-root operation 模式,硬件自動加載 Guest OS 的上下文,于是 Guest OS 獲得運行,這種轉(zhuǎn)換稱為 VM entry。
??(3)模式轉(zhuǎn)換 VM exit,運行 VMM
??Guest OS 運行過程中遇到需要 VMM 處理的事件,例如外部中斷或缺頁異常,或者主動調(diào)用 VMCALL 指令調(diào)用 VMM 的服務的時候(與系統(tǒng)調(diào)用類似),硬件自動掛起 Guest OS,切換到 VMX root operation 模式,恢復 VMM 的運行,這種轉(zhuǎn)換稱為 VM exit。
??VMX root operation 模式下,軟件的行為與在沒有 VT-x 技術(shù)的處理器上的行為基本一致;而 VMX non-root operation 模式則有很大不同,最主要的區(qū)別是此時運行某些指令或遇到某些事件時,發(fā)生 VM exit。
??(4) VMM 的生命周期
??VMM 開始于 VMXON 指令,結(jié)束與 VMXOFF 指令。
??第一次啟動 Guest,通過 VMLAUNCH 指令加載 Guest,這時候一切都是新的,比如說起始的 rip 寄存器等。后續(xù) Guest exit 后再 entry,是通過 VMRESUME 指令,此指令會將VMCS(后面會介紹到)所指向的內(nèi)容加載到當前 Guest 的上下文,以便 Guest 繼續(xù)執(zhí)行。
??(5)虛擬機控制塊 VMCS(Virtual-Machine control structure)
??VMCS 是一個 64 位的指針,指向一個真實的內(nèi)存地址,VMCS 是以 vCPU 為單位的,就是說當前有多少個 vCPU,就有多少個 VMCS 指針。
??VMM 和 Guest OS 共享底層的處理器資源,因此硬件需要一個物理內(nèi)存區(qū)域來自動保存或恢復彼此執(zhí)行的上下文。這個區(qū)域稱為虛擬機控制塊(VMCS),包括客戶機狀態(tài)區(qū)(Guest State Area),主機狀態(tài)區(qū)(Host State Area)和執(zhí)行控制區(qū)。小伙伴們要想獲得更多計算虛擬化的內(nèi)容,請關(guān)注新網(wǎng)!
聲明:免責聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),也不承認相關(guān)法律責任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,請發(fā)
送郵件至:operations@xinnet.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時
需注明出處:新網(wǎng)idc知識百科