新闻是有分量的

从脸书大当机看两个网站永远不会通知你的数字

2019-08-01 11:47栏目:198观点



198彩社区 从脸


前天晚间脸书在全球各地纷传异常,经过22小时才完整修复。而这起当机事情,也与矽谷网络公司绝不会通知你的“网站可用性”息息相关,终究他们是如何权衡网站毛病,并预算出对营收形成的影响? 
前天脸书大当机22小时。他们独一的解释是系统维修发作问题。这些公司每年投资在材料中心的根底建立可能超越10亿美金。可是金钱关于网站可用性的协助十分有限,由于问题经常是出在营运管理与软件设计。所以不论花了几钱,网站还是会当。科技艺够处理的十分有限。不论当机的缘由为何,网站一定要有一套仗量的机制,而这些都是商业秘密。
 
矽谷每一个大型网络公司都有两个永远不会通知你的数字:一个是“网站可用性” (Site Availability),另一个是“当机一秒对公司形成的金钱损失” 。每一个从事网站营运的工程师对这些数字都必需倒背如流。
 
上面这两个数字常常用作红利的根据,也能够作为高层人士改换的数据。有些微小的时势局外人或许不会去留意,那就是每经过一次大当机,担任网站营运的高阶主管总会有一些变动。管理不善的代价最后总是要换算成金钱。脸书这次应该也不会例外。这些奖惩的数据都来自下面要讨论的这两个数字。
 
“网站可用性”到底是什么?
这个数字是个百分比。一个永远不当机的网站可用性就是100%。
 
100%是神话。过去曾有人努力追求“五个9”,也就是99.999%都不当机。那也是骗人的,以至“四个9”99.99% 也近乎骗人。“五个9”在机器的层次能够做到,可是在网站整体功用的层次就是神话,由于网站是由无数不共戴天的机器叠构起来的。
 
AI、5G、区块链的最新开展现况为何?订阅《数位时期》日报 
email address
通常每一次网络查询至少都会经过五到六个层次的机器群组。即便你运用的是最高端“五个9”的机器,跑完一趟查询,那个指令的“存活率”曾经自动降为“四个9”。这是简单的数学问题,由于任何一个层次发作问题,整个查询就必定会失败──在运用者来讲,这就叫做当机。把“五个9”的或然率连乘六次 (指令必需经过的层次和途径),最后真实的存活率最多只要“四个9”。层次越复杂,最后存活率就越低。
 
 限编辑用处_shutterstock_196005458_social networking web
每一个网站都有一套仗量毛病的机制,而这些都是商业秘密。
REDPIXEL.PL via shutterstock
所以就网站整体功用而言,科技所能提供的就是“四个9”。这就是今天的科技所能做到的极限。剩下人为疏失、网站设计及材料规划都是额外的风险。
 
晓得内情的人会说每一个层次的机器都是一个群组,一台机器当了,其他机器能够继续运作,交通能够绕道,所以应该没有阻碍。这是机器厂商的美丽的谎话。这里牵扯到十分复杂的交通导流及监控,也牵扯到材料规划和及时性问题,碍于篇幅今天暂且跳过不谈。我只能通知你,事实历来就不是如此。
 
网站可用性到底是怎样算出来的?很简单,那就是把一切当机的“时间”加起来。
 
以时间计算
最简单的算法是如下:一年共有525600分钟,假如一整年这台机器一切当机时间加起来是5分钟,你的可用性就高达99.999%。这也是传说中的“五个9”;假如当机时间是52分钟,十分祝贺,你也近乎制造了神话──你的网站可用性高达99.99%。矽谷大局部网站都是在99.9%(520分钟)、99.95%左近挣扎。这是一台机器的算法。假如你有一千台机器,就把一切数据加起来。当然这里的机器是包括全部的硬件设备。
 
此外,这里讲的不只是机器毛病的当机,而是包括一切人为疏失与定期维修所形成的当机事情。事实上人为疏失占一切当机事情的35%。这些都是额外的帐。
 
以时间计算是最简单,也是最不担任任的算法。15年前我们也是这样计算。
 
但事实并不这么简单
上面这种算法有很大的问题,由于你把时间当作独一的权衡,而没有思索时段。我们都晓得在尖峰时段关闭高速公路一小时,跟在半夜关闭一小时,两者背后的意义完整不同。另一个问题是,假如机器并没有当,只是反响迟缓,致使于运用者纷繁愤恨地关掉阅读器,这笔帐又要怎样算?
 
所以一个成熟的网站必需就“流量”这个层次再作进一步剖析。
 
以流量计算
要控制这个数据就必需要有历史材料作为依据。在这里我们把当机转换成会计问题。假设依据历史材料,今天网站的总到访量“应该”是一百万次,可是由于当机 (不论几点钟当、或当了多久),总到访量降为90万次,那么我今天的网站可用性就是90%。如此类推我们能够算出一季的可用性。不过这项工作需求“预估”当机那天本来该有的交通量,这局部需求大量数据支持及制造一些模型。
 
只是问题仍旧没有这么简单。 交通代表的只是量,无法反映出“质”的损失 。就算今天由于当机,只承受了90万次的造访量,但这并不代表一切的造访都圆满完毕。假如我是个电商,在最后关键付款功用上发作问题,这90万次的造访量对我毫无意义。我的收入可能是零。
 
所以下一步就应该再进阶剖析当机是哪些“功用”遭到损失,也就是从量依功用来讨论质。
 
依功用加重计算流量
这是上一步骤的延伸,也就是你不但要搜集交通流量,还要以功用来辨别,然后在各种不同功用上加重或减轻比重。大约5年前我们开端采用这种做法。这种做法的益处是“不把一切的交通视为等量”,所以能更精准反映出当机所遭到的影响。
 
就脸书的例子来说,他们简直一切收入都是靠广告点击。假如广告点击功用当机,收入就停摆。假如只是点赞的功用当机,对他们来说或许是不痛不痒。广告点击量少了一千万次,与点赞量少了一千万次,绝对不能等量计算。于是脸书可能在前者加重计分,以反映出网站可用性对营收真正的影响。矽谷很多公司都是在“三个9”与“四个9”之间彷徨,而且这曾经算是佼佼者。
 
至于脸书的可用性我置信帐面上看起来会很高,但实践内容精确度会十分低,198彩社区由于他们的材料真实性并不需求那么精确。一篇Po文到底是100个赞还是90个赞,不会有人晓得真相,也不会有人在乎。他们在材料读取的途径上,有很多变通的办法。也就是由于有了这些弹性,当机关于交通流量不会有太大影响。相反地,线上付款网站可用性通常都很低,缘由是材料的真相只要一笔,绝对不能有误差。所以读取途径完整没有弹性,只需碰到当机,流量与功用也跟着停摆。
 
最后一个数字:网站当机每秒营收损失
万流归宗,最后都扯到钱这个字。最高层看到的不是99.9%或99.99%而是营收。假如前面几个步骤都做到了,最后这个步骤就十分容易,那就是把每秒当机所形成金钱损失,以各主要功用流量按照营收来比例换算。当然这个数字会随着公司的营运而有所改动,所以应该每年调整。而且为了简化,你能够取一个均匀值,让一切参与营运的员工牢记在心。
 
当然这个白纸黑字的数字,也能够用来改换指导无方的高阶主管。
 
网站可用性是矽谷每一家网站的最高秘密,而且各自有不同的计算法。今天这里讨论的应该是经过多年演化最成熟的方式。假如我把过去十多年计算法的进化用一句话总结,那就是:
 
以时间计 → 以流量计 → 以功用加重流量计算
 
有了这个公式,网站也能够准确地算出当机对公司营收的影响。
 
套句商业上最常说的一句话 :“假如不晓得数字,你就不可能改善。”
 
《数位时期》长期征稿,针对时势科技议题,198彩精神需求您的共同观念,欢送各类专业人士来稿一同交流。投稿请寄[email protected],文长至少800字,请附上个人100字内简介,文章若采用将经编辑修饰,如需改标会与您讨论。