百T目录并行删除

 2025/08/29 

正在美美摸鱼呢，领导来消息了，让我帮他删一下一台云主机上的文件，要求删除所有/mnt下所有archived开头的目录

这是一个超大nfs挂载，使用的是阿里云的NAS，其中有500T数据被占用，有多大呢，连输入ls都会卡住

1 2	df -Th \| grep mnt xxx[.cn-hangzhou.nas.aliyuncs.com:/ nfs 10P 502T 9.6P 5% /mnt2

解决思路

find与xargs

首先肯定是find，因为我们要的是archived开头的目录，它可以很快帮我们找出哪些目录需要删除

find /mnt2 -maxdepth 1 -type d -name "archived*"
这样就可以列出所有我们需要删除的目录

然后配合xargs
就可以使用这样的命令：
find ./ -maxdepth 1 -type d -name "archived*" -print0 | xargs -0 -n5 sh -c '
  echo "已删除以下目录：";
  printf "%s\n" "$@";
  rm -rf "$@"' --
这条命令会5个5个删除目录，并且将已经删除的目录打印在控制台，非常好，非常安全

在普通环境中大大的好，但是在这里行不通
因为这条命令甚至会直接卡住，都没有下文了

更重要的是，这条命令是单线程运行的，也就是每五个一批，先输出要删除目录了，然后等待删除完之后
才会进行下五个目录的删除，这显然是不行不够快的

;与+

{} \;
{} +
这两种管道符与xargs的使用方式有什么区别呢
第一种是发现一个就删一个
第二种是全部列出后，通过rm全部删除

这两种哪个好呢？都不行

通过grep -c可以查看到到底有多少个目录
ls | grep archived -c
62320

无论是5个一次，还是一次删6w个，都不合适

rsync

rsync是一种清空单个大目录的好方法
将空目录中的数据强制同步到目标目录
rsync -a --delete ~/empty_dir/ /mnt2/tmp/

但很遗憾，它不支持将一个目录同步到多个目录，依然需要使用find，会阻塞
而且会产生大量系统调用来分析目录结构，真不如rm

parallel多线程

这个时候就需要使用多线程工具了，

使用parallel，find会首先找到所有符合条件的目录，将其交给parallel，parallel再根据参数发起对应数量的任务，完美的规避了单线程阻塞的问题

find ./ -maxdepth 1 -type d -name "archived*" -print0 | \
parallel -j 12 -0 rm -rf {}

-j 并发线程数

性能瓶颈

CPU瓶颈

那么问题又来了，这个-j到底填多少合适呢？

常识告诉我们并发数应该和CPU线程数一致，也就是填一个12

填完之后越想越觉出不对劲来，点开top看看CPU状态吧

top
- 11:30:57 up 7 days, 21:36,  3 users,  load average: 12.11, 8.98, 3.33
Tasks: 235 total,   2 running, 233 sleeping,   0 stopped,   0 zombie
%Cpu0  :  1.3 us,  1.0 sy,  0.0 ni, 97.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  :  0.3 us,  0.3 sy,  0.0 ni, 99.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu2  :  0.7 us,  1.3 sy,  0.0 ni, 98.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu3  :  0.3 us,  0.3 sy,  0.0 ni, 99.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu4  :  1.0 us,  1.0 sy,  0.0 ni, 98.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu5  :  0.3 us,  0.0 sy,  0.0 ni, 99.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu6  :  1.7 us,  1.0 sy,  0.0 ni, 97.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu7  :  0.7 us,  0.3 sy,  0.0 ni, 99.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu8  :  1.0 us,  1.0 sy,  0.0 ni, 98.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu9  :  0.7 us,  1.3 sy,  0.0 ni, 98.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu10 :  0.7 us,  0.7 sy,  0.0 ni, 98.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu11 :  0.7 us,  0.7 sy,  0.0 ni, 98.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

可以看到，虽然load average挺高的
但是所有CPU核心的空闲时间id都在97%以上
用户态使用率us和系统态使用率sy都很低

不是哥们，哥几个表面上很忙，实际上搁这儿摸鱼呢？

这是因为我们执行的删除文件任务并非CPU密集型任务
rm任务只是在队列中等待而已，实际上并不占用CPU
卡住它的另有其人

带宽瓶颈

那我这个存储是NFS挂载的NAS，是不是因为网络带宽或者其他什么的？
（也许在这种场景下没有必要，因为公有云有自己的VPC，云主机和NAS肯定连得贼快，但其实有更普遍的意义）

yum -y install iftop bind-utils

host xxxx(nfs挂载名称)
解析出对端IP

然后使用iftop
localhost       => 172.28.4.39           4.53Mb  4.65Mb  5.02Mb
                <=                       9.49Mb  8.49Mb  8.16Mb

这还是Mb，换成MB得除以8
现在家用的宽带跑的都比这玩意快

可见网络带宽远远没有达到瓶
问题不是出在带宽不足上，而是出在网络延迟或NFS服务器处理单个请求的延迟上

nfs读写延迟

nfsiostat 1
op/s		rpc bklog
5427.50	   0.00
read:   ops/s		   kB/s		  kB/op		retrans		avg RTT (ms)	avg exe (ms)
0.000	  0.000	  0.000       0 (0.0%)	  0.000	  0.000
write:  ops/s		   kB/s		  kB/op		retrans		avg RTT (ms)	avg exe (ms)
0.000	  0.000	  0.000       0 (0.0%)	  0.000	  0.000

可见
op/s为5000
retrans为0%  丢包率
rpc bklog为0 客户端积压的RPC请求
avg RTT 0    每个操作的平均延迟

下面这三项可能因为内核版本过低，所以没有出来，但实际上avg RTT肯定为非0
那么接下来要做什么呢

根据nfs ops调优并发线程数

调呗，硬调，要通过调整并发线程数，找出一个ops最高的点

-j   avg ops
12    300
100   6600
150   7500
160   8000
180   8000
200   7500

命令执行

yum -y install tmux
tmux new -s cleanup
find ./ -maxdepth 1 -type d -name "archived*" -print0 | parallel -j 160 -0 rm -rf {}

快捷键
Ctrl+b 松手d

原文作者：王盛

原文链接：https://akemi.zj.cn/2025/08/29/Delete-dir/

发表日期：August 29th 2025, 5:22:49 pm

更新日期：August 29th 2025, 5:51:22 pm

Next Post

ISCSI+共享LVM搭建GFS2提供httpd
Previous Post

Ubuntu管理网络的不同方式

CATALOG

1. 解决思路
2. 性能瓶颈

Total : 277

2025

10/21 ssh端口转发
10/21 ubuntu设置k8s dns解析
10/13 grub-BLS
10/13 统一认证FreeIPA
10/03 Kubespray部署纯ipv6 k8s+ceph集群
09/30 ubuntu部署k8s v1.28
09/25 Salt批量安装zabbix
09/23 Salt的pillar变量
09/22 Salt静态信息grains
09/19 Salt状态管理与高级状态文件
09/18 Salt执行模块与常用模块
09/17 使用OpenELB创建私有云LB service
09/16 使用MetalLB创建私有云LB service
09/15 Ceph-csi供应商给kubernetes集群提供存储
09/15 Cephadm快速部署ceph
09/11 Kubespray使用HAProxy+keepalived做集群高可用
09/10 Kubespray部署多节点k8s集群v1.27.5
09/04 SaltStack部署与key操作
09/03 ISCSI+共享LVM搭建GFS2提供httpd
08/29 百T目录并行删除
08/27 Ubuntu管理网络的不同方式
08/26 DRBD+Pacemaker+提供高可用NFS
08/25 iSCSI+多路径存储使用HA-LVM
08/19 多路径存储dm-multipath
08/18 Pacemaker双节点问题与仲裁部署
08/12 云环境主机根分区扩容
08/07 Pacemaker组件介绍与部署
08/07 Pacemaker节点管理与仲裁机制
08/06 使用NFS-Ganesha挂载cephFS
07/28 Helm集成Cronjob备份mysql
07/23 新增虚拟网卡导致的calico组件报错
07/14 MGR进行集群监控和维护
07/14 Ceph-OSD更换
07/10 部署CephFS与挂载
07/10 RGW部署与awscli连接
07/08 Ceph-Import-Export
07/08 RBD mirror参数与配置介绍
07/08 RBD镜像快照与克隆--COW/COR
07/08 RADOS提供块存储RBD
07/04 管理Ceph的StorageMap--CRUSH MAP与OSD MAP
07/03 Ceph用户认证
07/03 Ceph的存储池Pool
07/02 OSD存储后端BlueStore介绍与生成OSD
07/01 Ceph集群MON、Network配置
07/01 Ceph集群配置方式介绍
06/30 Helm部署nvidia-pulgin
06/30 nfs与nfs供应商快速部署
06/30 Nivdia驱动安装
06/27 Cephadm部署Ceph集群与扩容
06/25 Helm labels渲染bug
06/23 Ceph组件
06/20 使用kubeadm的k8s IP地址改变-单主节点集群
06/17 kubeadm安装k8s 1.30集群
06/16 VCSA-Cluster集群特性
06/13 Helm渲染顺序bug
06/12 VCSA-DVS创建与使用LACP
06/12 编译安装kubeadm—修改初始证书时长
06/11 Docker缓存污染报错
06/11 VCSA—DVS分布式虚拟交换机创建与迁移
06/06 VCSA的部署与基本使用
06/04 ESXI存储--使用NFS与ISCSI提供存储
06/04 Linux虚拟化调优
05/30 Linux网络调优
05/28 Linux文件系统调优
05/28 Python-fastapi框架
05/27 FIO工具与存储诊断思路
05/27 I/O调优--多队列IO调度器
05/27 磁盘RAID调优简介
05/26 Linux内存调优
05/21 CPU缓存介绍
05/20 CPU亲和性与平衡中断
05/19 Linux进程优先级
04/29 系统性能追踪工具perf/strace
04/29 系统性能追踪工具systemtap/eBPF
04/25 Tuned系统调优服务
04/25 资源限制ulimit/systemd-cgroupv1/v2
04/24 Linux内核参数与模块调整
04/23 内核监控dmesg/lstopo/lshw
04/22 将镜像仓库信息保存到Secret与反向解密
04/22 Jenkins从节点并发构建数改0消失故障
04/22 sysstat性能监控
04/17 iSCSI协议
04/17 Samba多用户挂载
04/15 Python自动化调整Jenkins从节点并发数
04/15 SMB文件共享协议--在linux上通过SMB实现共享
04/15 SMB文件共享协议--在windows上通过SMB实现共享
04/11 HAProxy代理后端服务器
04/10 Varnish缓存加速
04/10 制作适用于EVE-NG的操作系统镜像win与centos
04/09 Apache虚拟主机
04/08 k8s剩余资源计算脚本
04/08 Postfix搭建send-only邮件服务器
04/08 Postfix搭建内网环境邮件服务器
04/03 CUPS服务管理打印机
04/02 DHCPv4服务器搭建
04/01 BIND搭建主从DNS权威服务器
03/31 DNS排查
03/28 Unbound搭建DNS缓存服务器
03/28 Unbound假装自己是DNS权威服务器
03/25 Linux网卡绑定
03/24 使用RHEL System Roles管理网络
03/22 使用cronjob自动化巡检k8s告警
03/22 systemd Unit及其配置文件
03/11 通过Let's Encrypt生成免费SSL证书
03/07 ESXi 网络组件与功能介绍
03/07 CKS认证题目与解法（2025版）
03/07 CKA认证题目与解法（2024版）
02/28 Apache配置文件详解与性能调优
02/28 使用Apache搭建能够传输大文件的web文件服务器
02/28 高效使用Linux-执行命令的不同方式
02/26 高效使用Linux-父与子shell环境
02/26 git仓库使用cherry-pick进行单独代码合并
02/24 win10使用代理docker拉取外网镜像
02/24 高效使用Linux-文本处理
02/21 Python-pytest框架
02/21 高效使用Linux-文件系统目录
02/20 使用rclone进行对象存储迁移-R2→OSS
02/19 RHAAP红帽Ansible自动化平台
02/19 高效使用Linux-历史记录操作
02/19 基于ECS的网站访问速度与nginx优化
02/19 高效使用Linux-shell环境与运算
02/13 SSH跳板
02/13 高效使用Linux-管道与组合命令
02/13 Helm接管生产环境数据库
02/08 修改网络接口命名规则
02/06 使用kind快速部署多节点k8s
02/06 使用Minikube快速部署k8s
02/05 docker拉取gcr.io镜像
02/05 k8s证书延长有效期
01/17 Python-Django框架入门学习
01/16 Helm定义规范与模板全解析
01/15 Gitlab+Jenkins+argo+k8s CICD
01/14 博客从github page迁移到ECS
01/13 前端入门--JS
01/13 jenkins插件Generic Webhook Trigger
01/13 jenkins流水线与git凭证报错
01/03 前端入门--CSS选择器
01/03 前端入门--CSS样式

2024

12/30 前端入门--HTML基础标签
12/17 Helm父子chart的关系与实战
12/12 常用的对象存储连接方式
12/11 Shell脚本-添加Openvpn账号密码
12/10 Python-tk库—图形化管理httpd服务
12/09 Python-tk库—图形化管理tomcat服务
12/09 argoCD介绍，部署与对接代码仓库
12/08 CRD自定义API资源介绍与使用官方案例
12/08 无敌的镜像加速器地址
12/08 使用Mongodb-Kubernetes-Operator部署mongodb集群
12/05 OpenVPN原理与证书类型
12/05 Helm部署minIO-单点与分布式
12/04 Helm部署mysql8
12/04 Helm部署redis5与使用local-path-provisioner
12/01 镜像管理工具skopeo部署与实战
12/01 Python-tk库—图形化管理nginx服务
12/01 k3s两节点测试环境快速部署
12/01 ubuntu20.04桌面版快速部署单点k8s
11/19 Python基于多种方式检测linux服务运行状态(进程筛选、systemctl、API)
11/17 Python使用mysql-connector-python库实现CRUD
11/16 Python-kubernetes模块案例—根据不同ns更新pod副本数
11/16 Python-kubernetes模块—k8s集群资源管理方法
11/13 Python socket模块案例—简单网络编程
11/13 Python boto3模块—访问S3风格API
11/11 Python Flask框架—快速开发API
11/10 Python request模块常用方法
11/09 Python json模块案例—提取与交换json数据
11/09 Python yaml模块案例——提取与修改k8s配置文件
11/08 Python fabric模块案例—更方便使用ssh
11/07 Python paramiko模块案例—创建SSH、SFTP连接
11/07 Python logging模块案例—切割日志与告警发送
11/05 Python psutil模块案例—获取系统硬件状态
11/03 Python subprocess模块案例—执行系统命令与创建子进程
11/01 面对锁表，他的选择是……查询锁源
11/01 面对锁表，他的选择是……监控锁状态与查看死锁
11/01 面对主从延时，他的选择是……主从性能优化
10/31 Python案例——备份文件，清理过期日志，批量重命名文件
10/29 博客迁移小记——从github page迁移到cloudflare page
10/16 Kafka集群搭建
10/15 jenkins构建pipeline项目到k8s
10/13 K8s二进制安装
10/10 Jenkins构建pipeline项目到docker
10/08 Jenkins yum部署与k8s容器化部署
10/08 Jenkins主从架构
10/08 Jenkins构建maven项目
10/08 Jenkins构建自由风格项目——拉取gitlab代码、使用脚本上传代码
10/05 使用Dockerfile打包与发布一个tomcat博客
10/01 Git与Gitlab使用知识整理
09/26 Ansible项目
09/24 Redis集群主从关系优化
09/24 Redis ASK机制、cluster-node-timeout参数
09/24 Redis-Cluster集群模式
09/24 Redis-Cluster扩容与缩容
09/22 Redis主从复制
09/22 Redis哨兵模式
09/19 Redis事务
09/19 Redis部署与参数
09/19 Redis持久化
09/19 Redis数据类型与常用操作
09/18 zabbix自定义报警——mysql主从复制状态检查
09/17 Zabbix-Proxy
09/17 Zabbix自动注册
09/16 Zabbix自动发现
09/16 zabbix监控——JMX客户端
09/14 Zabbix企业微信报警
09/13 Zabbix邮件报警
09/12 Zabbix自定义监控
09/12 Zabbix自定义模板
09/12 Zabbix5.0安装与部署
09/10 Mycat与keepalived高可用
09/10 Mycat部署与读写分离
09/08 MySQL高可用之MHA
09/05 MySQL高可用之主从复制(已更新)
09/04 MySQL高可用之双主+keepalived
09/03 MySQL高可用方案介绍
09/03 MySQL元数据与information_schema
09/02 SQL语句详解
08/31 MySQL多实例
08/27 Shell实战
08/23 Tomcat综合案例
08/21 Tomcat基础知识
08/18 Nginx综合案例
08/15 lnmp搭建笔记
08/14 Nginx案例
08/13 logrotate服务
08/13 使用mailx发送到企业邮箱
08/11 Rsync数据备份工具
08/09 Linux系统Firewalld使用
07/26 Mysql备份
07/26 Mysql-Federate远程链接数据库
07/24 mysql安全审计之Mcafee Mysql-Audit
07/22 Mysql用户权限与密码管理、角色管理
07/22 Mysql-Linux环境部署
07/18 Mysql-InnoDB存储引擎、InnoDB事务
07/15 Shell零碎知识
06/28 Linux环境初始化
06/28 Iptables使用
06/28 Linux零碎常识
06/28 Linux常见报错记录
06/28 Nginx详解
06/23 虚拟化基础知识
06/18 Docker-compose部署lnmp
06/18 临时容器ephemeralcontainers
06/13 k8s可视化UI界面Kuboard
06/13 k8s部署MongoDB主从集群
06/12 k8s部署Redis高可用集群
06/04 Playbook实战案例
06/04 Rook部署ceph
06/02 EFK日志处理平台-2
06/01 k8s自动扩缩容HPA VPA KPA
06/01 Python代码封装至k8s中运行
06/01 将SpringCloud项目迁移至k8s
05/17 EFK日志处理平台
05/15 Linux单机监控
05/14 Docker管理
05/06 linux screen与tmux
05/06 DevOps工具链
05/06 Helm
05/06 Istio微服务网格
05/06 Prometheus普罗米修斯
05/06 k8s可视化UI界面Rancher
05/01 Gitlab
05/01 ceph对接k8s
05/01 Git代码管理工具
05/01 go代码封装到k8s中运行
05/01 VMware I2I迁移至PVE 小记
04/26 ESXi物理机安装踩坑汇总
04/26 Ansible笔记集合
04/23 根分区扩容小记
03/16 CEPH分布式存储
02/27 本地部署harbor私有镜像仓库
02/27 k8s基础知识
02/06 Python学习笔记
02/06 虚拟化系统PVE物理机快速安装指南
02/02 使用1panel搭建Hexo博客

2023