记录一次因着急没有检查原因而直接下线 ceph 对象存储的的失败记录
操作流程
ceph 节点内存持续超过90%,因为本身有三个 OSD,检查内存使用情况发现 radosgw
bash
|
|
因为这台节点包含3个 OSD, ceph-mon, ceph-mds 等全功能使用,所以最初的想法是 radosgw 转移到其他节点上,而不是分析为什么 radosgw 进程使用内存较高
申请一个新节点部署 radosgw,部署时出现错误没有提示日志
bash
|
|
通过 journalctl -u 查看到如下错误 (新节点)
bash
|
|
配置 sudo
bash
|
|
配置完成后部署 radosgw
bash
|
|
完整的输出
bash
|
|
查看节点是否上线
bash
|
|
流量的请求时访问 radosgw 服务,这个时候新实例是没有引入流量的,需要修改负载均衡器增加新的节点进来,流量引入后需要确认旧服务已经不在处理业务请求后可以下线 确认请求,查看活跃连接
bash
|
|
确认请求,查看服务日志
bash
|
|
确认无误可以下线,ceph-deploy 部署的服务没有 cephadm ceph orch rgw delete xx 这类工具进行下线,直接通过 systemd 停止服务即可
bash
|
|
停止服务并检查内存状态
bash
|
|
总结
本次操作没有分析为什么使用内存高,只是着急做了迁移,这样导致在事后无法确定问题的根本原因,后期遇到问题要先分析并保留证据,其次在做迁移之类动作。