大规模的数据库存储系统中,数据的生命周期管理是很有必要的;从业务角度发现过期数据,数据归档和数据碎片整理等。以 MySQL 为例,1 个运行很久的 TB 级 MySQL 实例中,极有可能数百 GB 的数据,对业务来说是”过期数据”可直接归档后清理。如果不能发现和及时清理,这部分“过期数据”对生产数据库备份资源消耗,占用工作集数据内存 (过期数据行可能分散 InnoDB 的 page 中),影响数据还原的 RTO 等。从成本和运维的角度看,代价都是很大的。针对 MySQL 这类”过期数据”问题,通过 MySQL 巡检系统发现问题,使用 MySQL 归档系统备份和删除数据等。
Redis 死键的定义
本文简单聊下 Redis ”死键”的问题,从业务角度对”死键”的 2 个定义:
- 设置有生存时间 Time to live:TTL 的键,已经过期”死亡”,但因 Redis 主动清理不及时,导致这类键堆积.(这里可能不清晰,后文会详解)
- 未设置有 TTL 键,使用这批键的程序功能已下线,导致这类键在集群中堆积,无人管理;有的键长达 6 个月访问过一次。
Redis 过期键不能及时清理
Redis 可对键设置生存时间, 当键的生存时间为 0(过期键) 理论就会被删除,并释放占用的数据结构和内存资源。
但 Redis 为保证请求的性能,过期键并不是立即删除的。
这节主要讨论,当产生过期键的速度大于 Redis 删除过期键的速度时,导致过期键堆积的问题。
Redis 删除过期键的策略
Redis 删除过期键有两种策略:passive way 和 active way.
- passive way(惰性删除):当客户端访问到过期键时,发现它已过期,Redis 会主动删除它
- active way(定期删除):Redis 会定期调用删除过期键,调用频率由参数 hz 控制,默认每秒调用 10 次
我们重点讨论第二种”定期删除策略”。Redis 每个 database(Cluster 模式下只有 0 号库) 都对应 expire 的 dict,用以保存 Redis 设置有生存时间的键;Redis 每秒调用 10 次 (hz 参数决定) activeExpireCycle 函数;
每次随机获取 20 个带有生存时间的键。
删除其中已过期的键。
如果其中过期键超过 25%(即大于 5 个键是过期的),activeExpireCycle 函数会重新调用,开始第一步 (如果大量 KEY 同时过期,可能引起 Redis 性能抖动)。
Redis 定期删除的速度
Redis 定期删除过期键的速度? 怎么监控它?
Redis 定期删除动作每秒执行 10 次,正常情况每次删除几个过期键,这样每秒删除过期键约数十个。
通过 info stats 的 expired_keys 指标记录累计删除的过期键数量。根据生产监控 (hz=10)Redis 每秒删除过期键 20~25 个,每天能删除约 200 百万个过期键。有的 Redis 单个实例包含数千万个键,如果业务设计键过期处理不合理,每天产生过期键多于 200 百万。这容易导致 Redis 实例中存在过期键,最坏情况占整个键容量的 25%;也就说 Redis 实例最坏有 1/4 的内存被这类过期的”死键”所占据浪费。
1 | Redis 查看过期键删除数量 |
大量过期键堆积,最直接影响是浪费内存空间;另外还会有些”灵异现象”
- Master 的键个数比 Slave 多 20%
- 读写分离时,应用程序读取 Slave 时能返回快过期的键
- Redis scan 或 keys 出来的键个数,远小于 dbsize 返回的个数
- 高并发情况下,可能出现 performance 抖动,定期删除最坏可占 25%的 CPU 时间片
这些现象都和过期键的堆积有关。那么我们怎么避免这类过期键堆积呢。
如何避免过期键堆积,成为”死键”
有效避免 Redis 过期键堆积,从两个方面解决: 降低过期键产生的速度;和加快定期删除的速度。
- 业务设计键的过期时长时,是否考虑过期键生成的速度;能否加大过期键的生存时间。
如天气缓存集群,大量的键要求 1 分钟过期,从产品需求角度,能否设置更大。 - 尽量避免使用大实例,控制 Redis 单实例的键个数 (如 1kw),可有效控制单个实例过期键产生的速度;拆分为更多的分片,加大集群定期删除的速度
- 适当调大 hz 的值,增大每秒定期删除的次数;建议调整 60,官方建议小 100;
因调用 serverCron 除了过期删除动作外,还有很多其他操作,可能占用过多的 CPU 时间片,影响业务请求。
我们测试 hz 从默认 10 调整到 100 时,清理过期键的速度从 20 个升高到 140 个。 - 主动触发 Redis”惰性删除策略”,通过 scan 命令扫描整个实例的键,Redis 会删除所有已过期的键。
如果通过业务优化,扩容实例和调整 hz 都不能解决,可考虑定期使用这个大招。
以下是一个 shell, 获取当前服务器,Cluser 的 Master 通过 scan 方式清理过期键
1 | local_ip=`ifconfig | grep -Eo 'inet (addr:)?([0-9]*\.){3}[0-9]*' | grep -Eo '([0-9]*\.){3}[0-9]*' | grep -v '127.0.0.1'` |
你的 Redis 有堆积过期键吗?
业务低峰期,找个 Redis Master 实例,支持 scan 命令 (QPS 会增长 1w),查看命令执行前后,dbsize/used_memory 是否有明显下降
redis-cli -h node_ins -p node_port –scan >> /dev/null
应用程序已不使用的键
一个 Redis 集群,分析键空间发现 70%的键,3 个月未访问过。这类键没未设置生存时间,实例也不能设置淘汰机制。
很多应用程序功能已下线,但它使用的 Redis 键往往无人清理或通过 DBA 处理;这样的键从业务角度看,属于无用的”死键”。
获取键的 idletime
每个 Redis 键都有一个 lru 的属性字段,用于记录它最后一次被访问的时间。
而 object idletime 命令,可通过系统当前时间-lru 时间,得到键多久没有被访问的秒数。
说明:object idletime 命令访问键时,不会改变键的 lru 属性,即不会影响键的访问时间
以下示例,键”key:000000008149”已有150039秒未被访问过
1 | 127.0.0.1:7000> object idletime "key:000000008149" |
获取键空间空闲时间超过指定时间的键
使用Python写个简单程序,scan指定数据库的键空间,打印idletime超过指定时阀值的键。
1 | #-*- coding:utf8 -* |
我们定位Redis的长期未被访问的键,我们怎么确认属于哪个业务功能呢? 怎么预防业务的“死键”存在?
怎么减少业务”死键”的产生
通过3.1中定期巡检,自动发现1个月未访问过的键,并自动通知业务确认
设置合理的命名空间,我们建议三段式,用”:”分隔。每个集群固定前缀:每个业务功能前缀:实际键名(前缀尽量短,建议2个字节,减少内存消耗)。
每个团队按大业务功能有多个集群,每个集群有多个小功能模块;这样命空间管理后,集群有任何问题,DBA定位导致问题的”键前缀”,通过集群对接负责的工程师
很快就定位是哪个功能,什么情况引起的问题。1
2| 前缀 | 业务功能 | 存储内容 | 存储规模 | 生存时间 | 预计容量 |
| ap:1: | 应用商场xxx功能 | 用户安装的appid列表 | x亿 | xx小时 | xxGB |给键设置合理的生存时间; 有效避免业务死键发生。比如用户session, 用户最近x小时已安装APP列表等业务场景。有存储性质的集群,也可要求设置合理过期时间,如几个月。通过info Keyspace命令,可查看当前实例有多少键设置有生存时间属性。(另外设置过期时间,每个键多消耗约32Bytes)
可下线的过期键
数据备份
数据清理
原文链接:https://blog.csdn.net/liuxiao723846/article/details/78089577