CPU跑滿或跑高
如果服務器上的CPU持續(xù)跑高,則會對系統(tǒng)穩(wěn)定性和業(yè)務運行造成影響。以下對CPU占用率較高問題的排查分析做簡要說明。
使用vmstat 查看系統(tǒng)緯度的 CPU 負載
您可以通過vmstat從系統(tǒng)維度查看CPU資源的使用情況。
用法說明:
l 命令:
1. vmstat -n 1
2. # -n 1 表示結(jié)果一秒刷新一次。
l 示例輸出:
l 返回結(jié)果中的主要數(shù)據(jù)列說明:
r:表示系統(tǒng)中 CPU 等待處理的線程。由于 CPU 每次只能處理一個線程,所以,該數(shù)值越大,通常表示系統(tǒng)運行越慢。
us:用戶模式消耗的 CPU 時間百分比。該值較高時,說明用戶進程消耗的 CPU 時間比較多,比如,如果該值長期超過 50%,則需要對程序算法或代碼等進行優(yōu)化。
sy:內(nèi)核模式消耗的 CPU 時間百分比。
wa:IO 等待消耗的 CPU 時間百分比。該值較高時,說明IO等待比較嚴重,這可能磁盤大量作隨機訪問造成的,也可能是磁盤性能出現(xiàn)了瓶頸。
id:處于空閑狀態(tài)的 CPU 時間百分比。如果該值持續(xù)為 0,同時 sy 是 us 的兩倍,則通常說明系統(tǒng)則面臨著 CPU 資源的短缺。
使用top查看進程緯度的CPU負載
您可以通過top從進程緯度來查看其CPU、內(nèi)存等資源的使用情況。
用法說明:
l 命令:
1. top
l 示例輸出:
l 回顯說明:默認界面上第三行會顯示當前CPU資源的總體使用情況,下方會顯示各個進程的資源占用情況。
可以直接在界面輸入大寫字母P,來使監(jiān)控結(jié)果按CPU使用率倒序排列,進而定位系統(tǒng)中占用CPU較高的進程。最后,根據(jù)系統(tǒng)日志和程序自身相關(guān)日志,對相應進程做進一步排查分析,以判斷其占用過高 CPU 的原因。
操作案例
使用top直接終止CPU消耗較大的進程
如前面所述,可以通過top命令查看系統(tǒng)的負載問題,并定位耗用較多CPU資源的進程。
您可以直接在top運行界面快速終止相應的異常進程。說明如下:
1.想要終止某個進程,只需按下小寫的k鍵。
2.輸入想要終止的進程PID(top輸出結(jié)果的第一列)。比如,如下圖所示,假如想要終止 PID 為 23 的進程,輸入 23后按回車。
3. 如下圖所示,操作成功后,界面會出現(xiàn)類似 Send pid 23 signal [15/sigterm] 的提示信息讓用戶進行確認。按回車確認即可。
CPU使用率較低但負載較高
問題描述
Linux 系統(tǒng)沒有業(yè)務程序運行,通過 top 觀察,類似如下圖所示,CPU 很空閑,但是 load average 卻非常高,如下圖所示。
處理辦法
load average 是對 CPU 負載的評估,其值越高,說明其任務隊列越長,處于等待執(zhí)行的任務越多。出現(xiàn)此種情況時,可能是由于僵死進程導致的??梢酝ㄟ^指令 ps -axjf 查看是否存在 D 狀態(tài)進程。
D 狀態(tài)是指不可中斷的睡眠狀態(tài)。該狀態(tài)的進程無法被 kill,也無法自行退出。只能通過恢復其依賴的資源或者重啟系統(tǒng)來解決。
kswapd0 進程占用 CPU 較高
操作系統(tǒng)都用分頁機制來管理物理內(nèi)存,操作系統(tǒng)將磁盤的一部分劃出來作為虛擬內(nèi)存,由于內(nèi)存的速度要比磁盤快得多,所以操作系統(tǒng)要按照某種換頁機制將不需要的頁面換到磁盤中,將需要的頁面調(diào)到內(nèi)存中,由于內(nèi)存持續(xù)不足,這個換頁動作持續(xù)進行,kswapd0是虛擬內(nèi)存管理中負責換頁的,當服務器內(nèi)存不足的時候kswapd0會執(zhí)行換頁操作,這個換頁操作是十分消耗主機CPU資源的。如果通過top發(fā)現(xiàn)該進程持續(xù)處于非睡眠狀態(tài),且運行時間較長,可以初步判定系統(tǒng)在持續(xù)的進行換頁操作,可以將問題轉(zhuǎn)向內(nèi)存不足的原因來排查。
問題描述
kswapd0 進程占用了系統(tǒng)大量 CPU 資源。
處理辦法
Linux 系統(tǒng)通過分頁機制管理內(nèi)存的同時,將磁盤的一部分劃出來作為虛擬內(nèi)存。而 kswapd0 是 Linux 系統(tǒng)虛擬內(nèi)存管理中負責換頁的進程。當系統(tǒng)內(nèi)存不足時,kswapd0 會頻繁的進行換頁操作。而由于換頁操作非常消耗 CPU 資源,所以會導致該進程持續(xù)占用較高 CPU 資源。
如果通過 top 等監(jiān)控發(fā)現(xiàn) kswapd0 進程持續(xù)處于非睡眠狀態(tài),且運行時間較長并持續(xù)占用較高 CPU 資源,則通常是由于系統(tǒng)在持續(xù)的進行換頁操作所致。則可以通過 free 、ps 等指令進一步查詢系統(tǒng)及系統(tǒng)內(nèi)進程的內(nèi)存占用情況,做進一步排查分析。
如問題還沒有解決,請?zhí)峤还握埣夹g(shù)幫忙協(xié)助排查。
帶寬跑滿或跑高
對于正常進程導致的帶寬跑滿或跑高的問題,需要對服務器的帶寬進行升級。對于異常進程,有可能是由于惡意程序問題,或者是部分 IP 惡意訪問導致,也可能是服務遭到了 CC 攻擊。
通常情況下,您可以使用 iftop 工具或 nethogs 查看流量的占用情況,進而定位到具體的進程。
使用iftop工具排查
1.在服務器內(nèi)部安裝iftop流量監(jiān)控工具。
yum install iftop -y
2.服務器外網(wǎng)帶寬被占滿時,如果通過遠程無法登陸,可通過VNC登錄到服務器內(nèi)部,運行下面命令查看流量占用情況:
iftop -i eth1 –P
注意:-P參數(shù)將會顯示請求端口。執(zhí)行 iftop -i eth0 –P命令,可以查看通過服務器哪個端口建立的連接,以及內(nèi)網(wǎng)流量。舉例如下:
在上圖中,您可以查看到流量高耗的是服務器上 53139 端口和 115.205.150.235 地址建立的連接。
3. 執(zhí)行 netstat 命令反查 53139 端口對應的進程。
netstat -tunlp |grep 53139
4.經(jīng)反查,服務器上 vsftpd 服務產(chǎn)生大量流量,您可以通過停止服務或使用 iptables 服務來對指定地址進行處理,如屏蔽 IP 地址或限速,以保證服務器帶寬能夠正常使用。
使用nethogs進行排查
1.在服務器內(nèi)部安裝nethogs流量監(jiān)控工具。
yum install nethogs -y
2.通過nethogs工具來查看網(wǎng)卡上進程級的流量信息,若未安裝可以通過yum、apt-get等方式安裝。舉例如下:
a. 若 eth1 網(wǎng)卡跑滿,執(zhí)行命令 nethogs eth1。
b. 查看每個進程的網(wǎng)絡帶寬情況以及進程對應的 PID。
c. 確定導致帶寬跑滿或跑高的具體進程。
3. 若進程確定是惡意程序,可以通過執(zhí)行 kill -TERM <PID> 來終止程序。
說明:如果是 Web 服務程序,您可以使用 iftop 等工具來查詢具體 IP 來源,然后分析 Web 訪問日志是否為正常流量。日志分析可以使用 logwatch 或 awstats 等工具進行。
如問題還沒有解決,請?zhí)峤还温?lián)系技術(shù)為您處理。