百度的春晚战事
(一)生死战
不用多想,你都能把百度的春晚发红包的姿势猜得八九不离十:
1、时间:春晚期间,分几轮发红包;2、地点:打开“百度 App”;3、人物:全体中国人;4、动作:点点点点点。
万万想不到,就是这么简单的四步,引发了接下来整整一个月惊天动地血雨腥风的故事。
说回当时。
远在三亚休假的百度信息流主任架构师吴永巍也同时接到这个消息,一刻不停地赶回他所在的上海研发中心,又赶最早的飞机降落北京。
震宇代表基础技术保障团队,吴永巍代表百度 App 的技术团队组成了联合作战组。他们一秒都不敢耽搁,当天就开始筹备组建春晚红包技术团队。
贺锋,十一年百度人,运维负责人,他责无旁贷地成为“百度春晚红包”稳定性计划总制定者。陈曦洋,十一年百度人,系统性能优化大神,他的能力是像庖丁解牛一样把一个 App 拆解成细碎的零件,为每一个零件做细致的优化,使得 App 所需的系统网络资源降低到理论最低极限。汪瑫,七年百度人,不仅是技术大牛,还和百度登录帐号团队非常熟悉。宋磊,十年百度人,系统部网络组专家,主要工作是维护百度网络的稳定运行。张家军,八年百度人,系统部供应链负责人,百度平日所需的新增服务器,都由他来搞定。等等等等,后面的名单还有长长一串。
所有的技术人,听到“春晚任务”,第一反应都是懵逼。因为他们的很多朋友都在阿里、腾讯,这些人曾经哭诉春晚有多么残忍的场景还历历在目。风水轮流转,这下轮到自己了。。。
但是,几乎只有一秒钟的迟疑,他们又变得像孩子一样兴奋。
外界不总是说,百度在移动时代不行了么?但是,行不行别人说了可不算。十年了,我们终于不用再等了。厂长既然给我们这次机会,我倒要证明给所有人看,我们到底是行还是不行!
贺锋对所有人说。
很快,经过全部专家组讨论,贺锋把最终的计划表拿出来了。(原任务表极其复杂,中哥用自己的话解释给你。)
任务一:陈曦洋“拆解”百度 App 的每一个零件,精确计算出当天每一个 App 将会发出多少流量,进而计算出春晚时百度所需准备的总资源数量。(时间:第一周。)
任务二:贺锋亲自操刀,制定“春晚剧本”。春晚当天,百度集团所有系统资源全部切换档位,其他系统让位给红包系统。红包抢完,要在最短时间内再把系统资源还给其他部门。为此,需要一个极其精密无缝切换的操作预案。(时间:第一周+第二周。)
任务三:由于百度内部所能协调出来的系统资源不够,张家军要向全国厂商发出数万台服务器的紧急采购,确保打仗所需的全部“粮草”及时到位。(时间:第二周+第三周。)
任务四:宋磊向运营商全面采购带宽等软资源,建设足够的IDC 网络 和CDN 网络。(时间:第二周-第四周。)
任务五:陈曦洋协助百度 App 团队,把百度 App 每秒数据传输量降到最少,然后打包成最新版百度 App 下发,确保春晚当天每个人手上的百度 App 都是性能最佳的最新版。(时间:第二周+第三周。)
任务六:陈曦洋协助小程序团队,一起开发春晚当天刷红包的小程序,确保这个小程序也占用最少的资源。(时间:第四周)
任务七:汪瑫负责协助百度帐号登录体系(Passport)进行全方位加固,应对春晚涌来的登录请求。(时间:第一周直到春晚。)
任务八:通知各大第三方应用市场,告诉他们春晚的时候,可能会有大量用户去下载百度 App,让他们也做好准备。
任务九:所有资源+调优全部到位,联合百度 App 的业务部门进行四轮“全链路联合测试”。(时间:第四周。)
任务十:春晚当天,所有人全力以赴,抗住十三亿人的流量海啸。
十大任务列阵于此,旌旗猎猎。
彼时,即使是计划制定者贺锋也难以想象,在未来四周时间里,百度、三大运营商、全球硬件供应链、中国数家服务器厂商、外包建设团队、机房运维团队、全世界总计数万人和他们的家人将会为此付出怎样艰苦卓绝的努力。
但此时此刻,已经没人能阻挡这一切发生了。
这将是我职业生涯的生死战。
贺锋说。
(二)太空变轨
计算结果出来了!我预计春晚的流量,每秒峰值将会达到5000万次!每分钟的峰值将会达到10亿次!
陈曦洋一夜没睡,拿着最新出炉的报表对贺锋说。
为了测算流量,陈曦洋研究了不少腾讯、阿里红包相关新闻。
经过计算,支撑这些流量的云计算系统,需要由10万台服务器组成。
这意味着什么呢?
2018年全年,全中国960万平方公里销售的全部服务器是300万台。而百度需要在一个月内,毫无准备的情况下,搞定去年全国销量的三十分之一,并且完成采购、生产、调试、接入百度云的全过程。
贺锋知道,如果全靠临时采购,这件事不可能完成。百度内部必须让出至少5万台服务器来支持春晚红包计划。
“凤巢广告系统、原生广告系统、网盟变现系统,统统要在春晚过程中熄火,把资源让给红包系统。”贺锋的计划白纸黑字。
要知道,凤巢系统是百度的广告收入核心。凤巢暂停四小时,意味着百度这艘火箭要在万米高空强行熄火,失速四小时。
而这不仅是真金白银的损失,还是一个极其危险的操作——万一熄火之后点不着,凤巢系统将面临对数百万客户的巨额赔偿。
当贺锋把计划拿给凤巢负责人王岳的时候,内心是很打鼓的,他知道对方有一万个理由拒绝他的计划。但是,王岳仅仅花十分钟看完了方案,说了三个字:没问题!
“没问题”,意味着一部包含5万台服务器的超级引擎将会在春晚四小时交由贺锋团队驾驶,这一下就满足了计划所需的一半。
剩下的5万台,交给采购部门,这个等下再说。回来继续看陈曦洋。
10万台服务器已经是团队的极限了。但是陈曦洋知道,把服务器总数控制在10万台,这还是有前提的。前提就是每个用户手机上的百度 App 还需要进行大量优化。
当陈曦洋带着三个兄弟完成对百度 App 的解析之后,他的眼泪都快流下来了。
百度 App 在启动时,会对自家服务器发送100多个连接。这些连接来自于百度不同的业务团队。陈曦洋一下就懂了。由于百度 App 是目前百度装机量最高的超级 App,是“全村人的希望”。所以很多业务和技术同学都把展示自己团队成果的模块挤进百度 App,只是希望自己的努力能够被更多的用户感受到。
这些年逆风行船,百度的技术产品人其实一直在用力。
但是对于此刻的陈曦洋来说,这意味着灾难。在春晚当天,每一秒钟,每一个连接都要乘以几千万人这么一个倍数,每个 App 100 个连接,每秒就是几十亿次连接,BAT 加在一起都必跪无疑。
只见陈曦洋,此时已经红了眼,变成了“操刀鬼”——对百度 App 所有连接大砍大杀。
1月10日,陈曦洋和指挥部的领导开会,大家一致认定,百度 App 对外连接的数量,要从100个砍到3个。
由于 AppStore 和各大安卓商店都需要有审核时间,百度 App 必须在春晚前两周发布最新版本,所以很多连接来不及修改背后的整体逻辑,只能用暂时抑制的方式来处理。
花开两朵,各表一枝。
那边“操刀鬼”陈曦洋正在为百度 App 瘦身,这边“拼命三郎”汪瑫已经代表项目组进驻了百度帐号体系团队。
多说一句,汪瑫本来属于上海团队,和春晚项目关系不大。但是由于他技术非常牛,又和帐号团队比较熟悉,被震宇和吴永巍“强行”拉来参与春晚计划。接到任务时他二话没说,第二天就飞到北京,开始了长达一个月的加班。
业内八卦显示:2018年,淘宝春晚发红包,最大的问题就出在了登录系统。
讲真,由于搜索业务天然不必须登陆操作。这么多年来,百度的帐号体系建设是弱于电商阿里和社交腾讯的。
祸不单行,就在接到春晚任务之前,帐号团队的技术负责人李盈沉浸在苦恼中,因为他团队的一位优秀的同学提出了离职。但是,就在接到任务的当天,那位原本想离职的同学找到李盈,说自己不走了。
“我想打仗。”他说。
百度 App 登录状态的比例比较低。但是抢红包的时候,技术上必须要登录才能知道给谁“结账”。所以汪瑫预计,春晚当天百度 App 会遭受一波剧烈的登录冲击。有多剧烈呢?预计会是平常登录峰值的 2500 倍。
这意味着将会有很多人请求短信验证码。
还没有评论,快来抢沙发!