首页 / 行业
英特尔傲腾数据中心级持久内存(AEP)在Redis上的应用实践
2021-06-24 17:15:00
什么是英特尔傲腾技术?
无晶体管设计数据按位级别写入,因此每个单元的状态可以独立于其他单元被改变为0或1
英特尔傲腾Pmem和SSD填补数据中心计算和存储间的差距
测试背景
由于Redis实例规模比较大45000+,使用服务器数量多2000+,而且使用内存存储成本相比磁盘要高很多,基于Redis集群进行现状分析,针对以下集群决定使用傲腾AEP存储进行成本优化。
1.请求量低的小集群非常多,部署比较分散,服务器资源成本高。
2.大容量集群每次申请200G到2T容量不等,使用服务器数量多。
傲腾AEP上线需要做什么
傲腾AEP性能如何
首先性能测试,整体来讲跟纯内存相比有10%左右的损耗,测试数据如下。目前我们在该机型仅支持小集群、大容量的业务,目前不存在性能问题。
说明:上图为当Redis单进程cpu负载80%左右的情况下,在内存和傲腾不同存储上分别运行在不同版本3.2.11、4.0.12、5.0.8、6.0.5,当set命令value为10、100、1000字节每秒处理请求个数压测结果对比。
说明:上图为当Redis单进程cpu负载80%左右的情况下,在内存和傲腾不同存储上分别运行在不同版本3.2.11、4.0.12、5.0.8、6.0.5,当get命令value为10、100、1000字节每秒处理请求个数压测结果对比。
说明:上图为当Redis单进程cpu负载80%左右的情况下,在内存和傲腾不同存储上分别运行在不同版本3.2.11、4.0.12、5.0.8、6.0.5,当set命令value为10、100、1000字节响应时间分别为1、2、3、4毫秒的百分比压测结果对比。
说明:上图为当Redis单进程cpu负载80%左右的情况下,在内存和傲腾不同存储上分别运行在不同版本3.2.11、4.0.12、5.0.8、6.0.5,当get命令value为10、100、1000字节响应时间分别为1、2、3、4毫秒的百分比压测结果对比。
密集部署调度是否能打散
1.redis集群1个节点下主从不在同一个机柜组。
2.redis内存利用率大于50%不再调度新实例
3.一个机柜组承载每个集群不超过25%的实例数。
4.扩容k8s集群中node后新增实例的打散依然符合以上规则。
密集部署宕机业务影响范围
1.业务恢复时间从实例不可用到域名切换完成耗时20~40s之间。
2.拓扑恢复时间完全自动化,DBA关注进度就好,宕机服务器500+G内存恢复需要30min左右。
密集部署遇到的问题
1>.整点cpu高,慢日志数量增多,业务出现规律性超时。
原因:
1.每个docker容器整点执行收集Redis客户端连接,遇到客户端连接多的情况尤为严重。
2.每个docker容器整点执行收集Redis元信息的任务。
3.每个docker容器整点执行anacron任务。
解决方案:
1.降低定时任务收集客户端连接的频率。
2.随机打散定时任务的执行时间。
3.去掉不必要的定时任务。
2>.senTInel高可用服务自动切换部分失败。
原因:
1.senTInel服务线程数不够,丢弃部分待处理任务。
2.senTInel元信息更新失败问题。
解决方案:
1.优化senTInel服务线程数。
2.优化更新sentinel元信息的版本控制。
3>.sentinel高可用服务异常切换慢。
原因:
1.异常检测周期长。
2.域名切换耗时高。
解决方案:
1.异常检测周期由原来30s降低到10s。
2.优化域名切换接口索引缺失问题由原来平均30s降低到3s。
4>.Redis负载高,操作系统卡顿。
原因:
1.docker容器管理Redis进程,sentinel-agent组件沿用物理机部署版本,线程数过高导致操作系统卡。
2.每个docker容器部署了repl-agent组件。
3.每个docker容器的cadvisor监控项过多。
解决方案:
1.优化sentinel-agent组件降低线程数。
2.下线repl-agent弃用组件。
3.优化cadvisor监控项数量
5>./var目录容量满出现Redis所在容器被驱逐。
解决方案:
1.将coredump日志记录到较大分区。
2.优化各个分区容量的使用的报警等级。
6>.Redis宿主机重启后二次调度,导致数据异常。
解决方案:
1.任务原因导致的宿主机宕机,自动进行调度隔离。
管理方式变更
1>.Redis资源申请 1.目前可以做到Redis资源分钟级别交付。
2>.增加异常诊断
1.基于Redis、操作系统,中间件层快速聚合分析到历史时间段的异常指标。生成集群诊断报告。
2.通过获取Redis实时monitor日志,分析出热点数据,输出热点报表信息。
3>.异常处理预案
1.增加了sentinel服务异常后宕机批量切换工具。
2.增加了主从同时宕机批量从异地备份机恢复数据的工具。
4>.增加集群画像
1.集群列表页关联业务组,划分权限,只显示各自归属集群,方便业务方查看。
2.业务方更详细了解集群基础信息(架构、分片、机房等)和性能信息(访问量、容量等指标的实时统计和天级统计)。
3.基础数据完整和准确,有效实施后续自动化功能建设。
4.实时统计、天级统计信息可定时产出报表,分析低访问量、慢查询多等集群。
5.集群信息完整,出问题时可以快速定位业务方、访问源服务、关联申请原工单、操作类型统计等维度方便排查。
阶段工作成本对比
总结
1.非核心业务可以先上AEP,如果性能不够再迁移到纯内存服务器上。
2.目前存量小实例继续进行迁移。
3.性能和TCO优势分析: 英特尔® 傲腾™ 数据中心级持久内存在新的推荐异构存储系统和升级后 的Redis 服务中,不仅有着与 DRAM 内存相近的性能表现,其大容量 和非易失性还可帮助实现更优的可用性;通过不同的硬件组合,为不 同应用场景下的存储需求提供高性能,高可扩展、安全可靠以及低 TCO的解决方案;在满足应用性能需求的同时,内存的采购成本还得 到显著降低,并减少了集群所需的节点数量,进而降低了TCO。
最新内容
手机 |
相关内容
英特尔不应该担心英伟达Arm架构的P
英特尔不应该担心英伟达Arm架构的PC芯片?恰恰相反,芯片,英伟达,英特尔,调整,研发,推出,英特尔目前是全球最大的半导体公司之一,主要以美光低功耗内存解决方案助力高通第
美光低功耗内存解决方案助力高通第二代骁龙XR2平台,解决方案,助力,低功耗,内存,美光,第二代,随着虚拟现实(VR)和增强现实(AR)技术的迅猛苹果发布M3系列新款MacBook Pro/iM
苹果发布M3系列新款MacBook Pro/iMac:业界首批PC 3nm芯片,新款,芯片,业界,核心,用户,性能,近日,苹果公司发布了M3系列新款MacBook Pro平头哥首颗SSD主控芯片镇岳510问世
平头哥首颗SSD主控芯片镇岳510问世,将率先在阿里云数据中心部署,数据中心,芯片,平头,需求,可靠性,稳定性,近日,平头哥首颗SSD主控芯片数据中心如何更快、更经济地利用AI
数据中心如何更快、更经济地利用AI?,经济,数据中心,用于,机器学习,计算,自动化运维,数据中心中使用人工智能(AI)技术可以带来许多好处,慧荣科技打造企业级SSD主控芯片,为
慧荣科技打造企业级SSD主控芯片,为企业数据中心保驾护航,芯片,数据中心,企业,企业级,多种,数据存储,慧荣科技是一家专注于研发和生产数据中心短缺:人工智能未来的致命阻
数据中心短缺:人工智能未来的致命阻碍?,人工智能,数据中心,采用,需求,算法,存储技术,数据中心短缺是人工智能未来发展的一个重要致命俄罗斯采购龙芯5000系列处理器减少
俄罗斯采购龙芯5000系列处理器减少对英特尔依赖,中国处理器走出国门,处理器,英特尔,俄罗斯,龙芯,国门,中国,近年来,俄罗斯政府一直在