时间: 2021-07-30 11:14:22 人气: 8 评论: 0
编辑导读:618作为一年中最重要的两个促销活动之一,**涉及到各个部门各个系统。而作为一名任务调度产品经理,要如何开展工作,为618保驾护航?本文作者对此进行了分析,与你分享。
618是电商的大日子,各路人马各显神通。作为中台系统的小伙伴儿们,在“见不得人的中后台”各种忙活。我们揭开它的神秘面纱,探究这群“地下”工作者们,是如何为618保驾护航的,如何让那千万台冷冰冰的服务器协作起来、支撑PB级的数据运转,保障百亿级订单,千亿级别的GMV的达成……
故事,从大数据平台的核心环节“调度平台”说起,任务调度是大数据平台离线计算的重量级产品,它既承载了各类数据库与数据集市间的同步工作,还承载了各类的离线数据计算工作。主要的应用场景是数据的管理、搬运、计算、存储。
目前任务调度支持多种任务类型,包括:普通任务、数据计算(py/sh/zip)、数据入库任务、数据出库任务、数据拉链任务、数据同步(JDW到Jmart)。
通过任务调度系统,可以方便快捷的管理定时任务,支持任务间建立依赖关系,任务的快速补数和重跑,以及强大的监控功能,提供良好的作业管理服务。
任务调度以强大的技术能力保障618的各种任务、那么作为调度的产品经理如何保障618呢?
准备工作一:制定任务等级划分规范、分等级保障机制和管控规范
将任务等级划分为:0级、1级、2级、3级。0级:公司核心业务,数据面向对象为外部客户或内部VP、一级部门领导及以上。一旦发生不可用**直接影响外部客户合作项目,可能造成P0-P2级事故发生。
准备工作二:制定调度任务和质量检测的降级策略
制定任务调度的降级策略:
制定数据质量的降级策略:
准备工作三:制定调度任务的封板管理措施(新建、拷贝,禁用、重跑等)
在大促备战期间如果有用户进行任务的创建及拷贝,由于新任务的安全性得不到保证,**存在诸如性能低、资源占用高等风险,影响系统稳定性等问题,针对上述问题产品制定了如下管控措施:禁止新建和拷贝任务,需二级部门负责人审批。
对于新建任务项需要逐一检查,包括:
对于拷贝的任务建议转为新建任务,按照新建任务进行检验。如果没有转换要确认一下几项:
准备工作四:保障策略宣贯
按天发送调度任务等级划分策略宣贯邮件。2.用户视频培训,主要针对离线平台、常用场景、监控告警配置、调优策略、大促保障五个方面为用户做介绍。保证用户在大促期间充分了解调度保障策略。
准备工作五:资源倾斜,保障重点业务
产品经理推进用户去评估任务的等级,并进行变更,对L0、L1的任务必须要配置告警和质量;对于核心业务, 数据质量检测时长**过5分钟,需配置**时策略,避免影响SLA;对于管控和保障大促稳定性的措施,产品经理对产品功能做相应的设计、跟进落地上线。做好大促保障的每一环。
1)严格执行封版管控措施
虽然在5月25号任务调度平台**进行封版的管控,但期间仍有特殊场景或业务进行任务的新建和修改,此时需要二级部门负责人进行审批。比如,在大促期间一个部门要批量禁用所有任务,此时产品经理就要考虑几个问题:
这些都是产品经理需要在研发之前把控的信息。这些信息需要业务方提供,由产品经理来衡量是否可以提供封版期间禁用任务的白名单权限。一般这种批量禁用任务的情况都是业务方为了保证高级别任务的稳定。所以产品应该做好把控,做到灵活应对,即不影响业务稳定,又快速解决业务面临的问题。
2)优先保障高级别任务平稳运行
同一队列中运行的多种级别任务**争抢资源,如果在线上核心数据出现问题需快速恢复、大促活动产生极大数据量等应急场景下,需优先保障高级别任务平稳运行。这时需要启动一键推迟功能,下面介绍一下一键推迟功能:
3)值班保障
针对任务调度的保障策略和大促期间的紧急事项如果用户有疑问,提供交流群群答疑并且每日安排固定的值班人员进行答疑。对于用户的咨询做到及时回复,让用户充分了解任务调度的保障策略
在618期间,产品经理**在11点就开始坚守在电脑前,目不转睛的各自盯住显示器,一旦某台机器、某个业务、某条链路出现一点点的波动,他们都能第一时间看到,流量上涨、积压、抖动,出现问题及时跟进,推动解决,及时报备问题。
因为调度平台上跑着很多离线任务,所以到6月19号的凌晨才**解除平台的封版,大促结束之后要对出现的问题进行复**、总结、归档。
对于电商来说618意义非凡,虽然作为偏底层的产品经理,离618业务较远,但是也在用行动保障大促平滑稳定。
本文由 @斗罗魂灵 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。