Linux系统之运行状态分析及问题排查思路

〇、一件事儿

以下分析是站在Java工程师的角度来分析的。

top命令：第1部分。

怎么看load average的值？
通常先看15分钟的load值，如果load很高，再看1分钟和5分钟的load值，查看是否有下降趋势。短时间内load值高，无须太担心；但是如果长时间内load值持续过高，那么就要赶紧看看发生了什么。
需要警惕的load average的值（以单核CPU为例）:
- load值持续大于0.7，必须开始找问题出在哪里，防止情况恶化；
- load值持续大于1.0，解决问题已迫在眉睫；
- load值持续大升高达到5.0，表示各种请求几乎得不到响应，机器几近崩溃；
对于多核机器，则需要根据CPU个数来判断系统负载是否过高。如，若认为0.7算是单核机器负载的安全线的话，则四核机器的负载最好保持在3(4*0.7 = 2.8)以下。

查看CPU利用率，见top命令：第3部分和第5部分。

CPU利用率高，系统负载低
- 死循环？
- 复杂计算？
- 超大对象耗时读写？
系统负载高，CPU利用率低
- 大量进程执行IO操作 -> 中断和上下文切换
  - 磁盘IO -> 使用阻塞IO时，进程状态为D
  - 网络IO -> 使用阻塞IO时，进程状态为D
- 频繁中断，上下文切换
系统负载高，CPU利用率高
- 大量进程出现死循环？
- 大量进程进行复杂计算？
- 大量进程对超大对象耗时读写？
- 内存不足，频繁GC？ -> 硬件无法支撑应用，升级机器？

free命令和top命令：第5部分。

pidstat命令找到I/O读写高的进程；

查看I/O读写状况，见iostat命令。

netstat命令和tcpdump命令。

就是线上机器磁盘快满了，看看是否有无用的文件占用磁盘空间。

LinuxOS Linux 运行状态问题排查思路