首页 > 新闻动态 > CPU 只有 30%，系统却慢到不可用？

CPU 只有 30%，系统却慢到不可用？

发布日期：2026-02-11 阅读数：12

这是我们排查最多的

“假健康事故”

这是一次非常典型的事故场景。

业务反馈系统响应明显变慢，
用户投诉集中在「接口卡顿」「页面转圈」。

首先打开系统监控进行排查：

CPU Usage:      30%Memory Usage:   55%Load Average:   0.8Disk IO:        正常

Grafana指标全都正常。

从资源视角看，系统甚至谈不上有压力。

但事实是——
请求已经慢到用户无法接受。

CPU不高≠系统在“正常工作”

这是很多团队在监控体系上踩的第一个认知坑。

CPU 只代表一件事：

CPU 正在消耗多少计算资源

它完全不能反映：

请求是否被阻塞
线程是否在等待
I/O 是否成为瓶颈
业务链路是否已经“局部瘫痪”

一句话总结：

CPU 低，只能说明系统没在算，不代表系统没在等。

CPU 低系统慢，原因何在？

1️⃣线程池被 I/O 阻塞“悄悄吃满”

我们先看一段最常见的 Java 服务结构：

@RestControllerpublic Result queryOrder() {    Order order = orderService.getOrder(id);    return Result.ok(order);}

在代码层面，它看起来是同步、顺序、可控的。

但在运行时，真实路径可能是：

HTTP Request  ↓Tomcat Worker Thread  ↓数据库连接池获取连接（阻塞）  ↓执行 SQL（慢查询）  ↓等待下游 RPC 返回

如果其中任意一步变慢：

Tomcat 工作线程被占用
新请求开始排队
响应时间指数级上升

而 CPU 使用率呢？

几乎不变。

因为线程大多数时间都在

WAITING / TIMED_WAITING。

2️⃣连接池耗尽，比 CPU 打满更致命

我们在事故中经常看到这样的监控组合：

DB CPU:           40%DB QPS:           正常Application TPS:  下降

问题在哪？

HikariCP Active Connections: 50 / 50Waiting Threads:             持续增长

这意味着：

数据库还能扛
但应用已经拿不到连接
请求在 getConnection()阶段就被阻塞

从 JVM 角度看：

HTTP-8080-exec-123" waiting on condition

系统没有崩溃，

但已经无法提供有效服务。

3️⃣一个慢接口，拖垮整个系统吞吐

很多团队忽略了一个事实：

系统吞吐 ≈ 最慢路径的能力

假设你的接口响应时间从 50ms 变成 300ms：

原 QPS ≈ 1000实际 QPS ≈ 160

CPU 依然很低，
但线程池开始排队，延迟开始堆积。

这类问题的典型特征是：

CPU 不高
内存不满
但 P95 / P99 延迟持续升高

如果你只盯着平均值和 CPU，是完全感知不到的。

Java 应用怎么查？

当你确认：

CPU 不高
内存正常
但请求明显变慢

第一件事，别再盯 Grafana 了。

你需要直接进入 JVM 内部，看它到底在“忙什么”。

1️⃣ 先看线程：CPU 不高，线程在干嘛？

第一步，永远是线程状态。

jstack <pid> > jstack.log

重点不是线程数量，而是状态分布：

RUNNABLEBLOCKEDWAITINGTIMED_WAITING

在“CPU 低但系统慢”的事故中，我们最常看到的是：

RUNNABLE 很少
WAITING / TIMED_WAITING 占大多数

典型线程栈长这样：

"HTTP-8080-exec-124" prio=5 tid=0x00007f8c940 waiting    at java.util.concurrent.locks.LockSupport.park()    at java.util.concurrent.FutureTask.get()

这说明什么？

线程没有在算，而是在等结果。

等什么？

数据库返回
下游 RPC
锁释放
线程池资源

2️⃣ 看线程池：不是没线程，是用不上线程

很多团队只关心线程池大小，却不看运行状态。

如果你用的是 ThreadPoolExecutor，重点看这几个指标：

activeCount queueSize completedTaskCount

一个非常危险的组合是：

activeCount ≈ maxPoolSizequeueSize 持续增长

这意味着：

线程已经被慢任务占满
新请求只能排队
延迟开始指数级放大

而 CPU？

依然不高。

3️⃣ 再看 GC：不是 Full GC，但“轻微抖动”很要命

很多人一看到系统慢，就下意识否定 GC：

“没有 Full GC，应该不是 GC 问题。”

但真实情况是：

频繁 Young GC
Stop The World 很短，但次数极多

你会在 GC 日志里看到类似：

[GC (Allocation Failure) 256M->128M(512M), 15ms]

15ms 不长，但如果：

每秒 20 次

那对延迟型服务来说，就是灾难。

尤其是：

接口本身就慢
请求已经在排队

GC 抖动会直接放大用户感知延迟。

4️⃣ 堆没满，但对象“活得太久”

这是非常容易被忽略的一点。

jmap -histo <pid> | head -20

你可能会看到：

num     #instances    #bytes  class name --------------------------------------- 1:      8,000,000     640MB   byte[] 2:      2,300,000     184MB   java.lang.String

这说明：

对象在堆里大量堆积
GC 清不掉
线程在分配内存时越来越慢

CPU 不高，
但 JVM 已经开始效率衰减。

5️⃣ 最后看一个致命点：同步与锁

如果线程栈里频繁出现：

java.lang.Object.wait() java.util.concurrent.locks.AbstractQueuedSynchronizer

那你基本可以确认：

系统慢，不是因为算得慢，而是锁抢不过来。

这类问题的特点是：

CPU 利用率低
吞吐下降明显
延迟突然拉长

而且，扩容几乎无效。

Prometheus + Grafana

为啥看不出问题？

因为大多数监控只做了资源观测，没有做系统行为观测。

常见指标是：

node_cpu_seconds_total node_memory_MemAvailable_bytes

但真正该关注的，是这些：

http_server_requests_seconds_bucket jvm_threads_state{state="BLOCKED"} hikaricp_connections_active mysql_global_status_threads_running

如果你没有：

接口分位延迟（P95 / P99）
线程池状态
连接池使用情况
关键依赖的响应时间

那么监控只能告诉你一句话：

“服务器还活着。”

但业务是否健康，它不知道。

中小团队常忽视的“慢性事故”

我们复盘过大量事故后发现：

这类问题很少第一时间报警

通常是用户先感知

再由人肉排查发现

原因只有一个：

监控体系没有覆盖“用户体验劣化”的早期信号

等到 CPU 真正升高时，
系统往往已经处在雪崩边缘。

一个更靠谱的判断逻辑

与其问：

“CPU 高不高？”

不如问这三个问题：

请求在系统中卡在哪一层？
哪个资源正在成为隐形瓶颈？
如果现在继续变慢，谁能第一时间发现？

真正成熟的运维体系，
不是等系统挂了再报警，
而是能在**“慢”刚开始出现时就介入**。

写在最后

CPU 只有 30%，系统却慢到不可用，
从来不是一个偶发问题。

它往往意味着：

系统已经进入亚健康状态
只是还没触发致命阈值

真正的分水岭，不在于是否出过事故，而在于：

系统开始变慢的那一刻，
你能不能看见？

所以、单纯的监控系统层面的cpu、内存、磁盘等等，

是远远不够的。

线程在等什么？

连接池还有多少空闲？

GC 暂停是否隐形拖垮了延迟？

数据库/Redis 调用是否在异常？

只有把以下这些 JVM 核心亚健康指标

实时采集、可视化、设置阈值告警，

你才能在“页面刚开始卡”而不是“系统彻底挂”的时候发现问题。

CPU 只有 30%，系统却慢到不可用？

1️⃣线程池被 I/O 阻塞“悄悄吃满”

2️⃣连接池耗尽，比 CPU 打满更致命

3️⃣一个慢接口，拖垮整个系统吞吐

1️⃣ 先看线程：CPU 不高，线程在干嘛？

2️⃣ 看线程池：不是没线程，是用不上线程

3️⃣ 再看 GC：不是 Full GC，但“轻微抖动”很要命

4️⃣ 堆没满，但对象“活得太久”

5️⃣ 最后看一个致命点：同步与锁

新闻搜索

相关新闻

别再用“重启大法”了：你重启的时候，可能把关键证据也一起清掉了

Prometheus用了几年，这些坑你注意过没？

为什么你的Prometheus监控"一切正常"，用户却说系统崩了？

Linux 磁盘空间总是不够用？也许你需要重新认识 LVM

一文整理：并发请求隔离的常见误区与最佳实践

揭秘交换分区可用率：如何优化让系统运行更流畅？

监控运维不抓瞎，这些小技巧让你效率翻倍！

OpsEye | 交换机监控方案详解

开源明星夜莺深度解析，与OpsEye的破局之道

监控全绿，但业务已经“半死不活”，你一定见过这种场景

Redis 内存碎片的隐形消耗——如何用 memory purge 命令释放空间？

Zabbix Server内存泄漏排查及优化实践

日常运维踩坑指南：这些坑我替你踩过了

网络拓扑自动发现：OpsEye让硬件设备连接关系一目了然

历史告警：运维监控体系中被低估的 “决策基石”

告警屏蔽：运维中的 “双刃剑”，用对了才是效率神器

无线网络里的 “黄金搭档”：AC 和 AP 到底是什么关系？

Zabbix 使用时的那些注意事项

Prometheus告警规则编写：你必须知道的7个注意事项

ICMP：网络世界的“快递小哥”，除了送快递还兼职当侦探？

用数据“炼金术”，让运维决策告别“盲人摸象”

30个避坑点，让你的信创迁移少走弯路

从“苏超”看企业运维：OpsEye如何锻造“城市级”系统的协作与韧性

等保测评中最易失分的5个运维配置项：从踩坑到避坑的实战指南

深度解码Nagios的监控艺术

探索OpenNMS：开源网络管理的强大工具

SNMP：网络管理的高效守护者

告别运维焦虑！OpsEye让运维管理“一眼掌控”

构建高效运维监控体系，助力企业稳健前行

信息化监控：企业数字化转型的"千里眼"

数据丢失？专业运维帮你规避风险

Agent一键安装，快速上手Zabbix监控！

PromQL基础使用和案例解析

Zabbix告警通知部署方案详解

Windows事件日志分析工具介绍

掌握Windows事件日志，系统故障无处遁形

Grafana功能菜单介绍

警惕！Zabbix曝出严重漏洞，紧急修复指南速看

MongoDB集群分片安装部署手册

Grafana插件安装并接入zabbix数据源

MySQL数据库迁移方式详解

MySQL本地安装及密码重置常见错误处理

防范暴力破解工具之Fail2Ban

Grafana安装、升级与备份指南

塔石配置解析

构建高效安全的数据库异地备份方案

高效指南：Windows下Oracle 19c一键安装卸载！

Navicat数据库备份教程全解析

服务器及MySQL安全设置指南

主流数据库与最佳备份工具选择

MySQL数据库备份详解

Hadoop 2.8.5一键部署：完全分布式实战指南

选择合适磁盘的一次小结

揭秘Docker：轻松玩转轻量级虚拟化的艺术

小白手册｜基于Ubuntu24的Zabbix 7.0安装部署

基础指南：使用Vue快速搭建可视化仪表盘

MySQL-MGR实战指南：打造企业级高可用数据库集群

从漏洞到防护：浅谈Docker不容忽视的安全问题

白话编码：让十六进制“说人话”

OpenResty动态地域定向：基于IP地址展示差异化页面

linux深度探秘：LVM卷与磁盘限额管理

eNSP虚拟交换机与真实物理环境通信

IT运维服务平台的发展趋势与挑战

江苏立维互联科技有限公司乔迁新办公地址！

基于Zabbix的最佳一体化监控实践