谷歌失败案例赏析:那些年在微服务上踩的坑

大家好,今天和在座的各位分享一些失败的经验教训。聊一聊这一类的话题要比那些成功案例更有意思。行业在进步,我们可以从过去的错误中吸取经验,并主动在未来的计划中避免,这一点很令人鼓舞。

背景信息

在开始之前,先介绍一下我在谷歌的经历。2003 年大学毕业后我直接加入了谷歌,在这之前我是一个音乐营地的营地顾问,营地顾问之前我在一家冰激凌店工作。我还记得在谷歌的第一天,第一个项目的技术负责人是 Andrew Fights,他现在是类似谷歌杰出的工程师的角色,我记得当时告诉他,我得去找人聊一聊因为实在不知道我在做什么,今天想起来还是很有趣的事情。在谷歌里我像海绵一样快速的吸收技术和其他的信息。今天我在这里谈论的一些事情其实要早于我在谷歌的时间,大约 2000 年和 2001 年左右。让我们从微服务,即谷歌的微服务版本开始讲起。

当时,谷歌的业务仍然押注在 GSA(谷歌搜索服务器)产品,其实最终 GSA 也并没有像想象中的那么顺利。当然了,其它事情也是这样,毕竟不能将一个虚拟的垄断产品与像广告这样数十亿美元的巨额业务相对比。不过,谷歌最开始是以搜索起家的,并专注在解决这一类的技术问题。

接下来要讨论的很多内容的原始驱动力来自于这张幻灯片。在经济危机之前,很多企业都将他们的基础设施构建在 Sun Microsystems 的硬件之上,并将 SolARis 作为操作系统。如果不考虑成本的话,这一套解决方案比现有的其它东西都要好,很多人买了很多这种 Sun box 也是基于这样的原因。但 Sun box 真的很贵,尤其是一个拥有庞大数据中心的企业,整个数据中心需要填满这种机箱以支撑业务的发展,成本就会影响到其业务渠道和活下去的底线。

谷歌当时就处在这样一个状况。当时的人会很自然的说:“Linux 虽然不够完美,不过功能也够用,它的硬件又很便宜,所以平衡下来我们可以选择 Linux 作为替代”。一定程度上,我也认同这些过往的事情是真实的,当时的人们成本意识很强,所以他们会不遗余力的去解决一系列 RAM、芯片等 Linux 出现的一切故障,以降低成本。而这就带来了一个结果 – 即 Linux 真的不可靠,特别是使用垃圾站硬件的时候,且问题很严重。我认为,谷歌从 Compaq DEC 并购中受益匪浅,这也是导致 90 年代一些真正令人难以置信的研究实验室死亡的原因。许多人比如 Jeff Dean 和 Sanjay Kumar 都来自那个世界,他们现在几乎都是质量工程师。当时的他们对如何在那些难以令人置信的不可靠硬件之上构建软件这个问题产生了强大的兴趣,后面发生的事情也是很多接下来要分享的内容。

然而在 2001 年并没有什么可以替代的方案,所以必须自己做。另一个问题是非常古怪的扩展要求。他们试图做一些当时非常大胆的事情,即索引每个网页的每个字。一些人将每个网页的每个单词收录并编入索引,其他人只是给它建立索引,然后丢弃那些限制竞争对手能力的原始数据。这是一项艰巨的任务,需要用到当时根本不存在的计算机软件。

因此,由于不可靠的 Linux 盒子,该软件必须横向扩展,并且必须在堆栈的任何组件中容纳频繁的例行故障。之前有一篇很棒的文章提出了“机器是牛而不是宠物”。我认为在这件事情上谷歌做对了。这些机器没有来自“星际迷航”的酷炫名字,它们只是 AB 1,2,5,7 类似的东西,那也是机器名。系统对它没有太多的依赖,它死了或者继续运行都不会影响其它部分。这个问题让人们开始思考如何建立更具弹性的系统。

以上是我如何描述事物的方式。在谷歌很多人都有博士学位。记得面试时,我还没有博士学位。而且,我只跟一个没有博士学位的人谈过,面试结束时,他说,“别担心,现在开始雇用没有博士学位的人了”,在那里有很多人比我更聪明,并且真的想将他们的知识应用到 CS 系统研究中,将这种类型的经验和知识应用于现实问题是一件很有趣的事情。

我认为构建微服务的唯一充分理由是组织结构,并且这也应该是大多数组织构建微服务的唯一原因。然而,这并不是谷歌构建微服务的原因。谷歌构建微服务是为了计算机科学,在这里,我不会去争辩从这个角度构建微服务其实也没有什么好处,当然肯定是有很多痛点驱动。

开始构建微服务之后,如果简单的认为它一定会很顺利,也没有事先调研所有可能的失败情况,那么一定不会顺利,而且实际上也可能会带来很多令人遗憾的结果。我和很多企业讨论过这个问题,这些企业也因为迁移的过程实在太痛苦了而放弃了向微服务的迁移。所以,一定要事先了解构建微服务的动因。就像谷歌里有很多人效仿大型的基础设施项目一样,有时我认为他们在构建一些并不必须的架构。理智的投资方式应该是遵循以下原则:“如果你不需要就不要去做,否则只会会让事情变得更困难”。

这样做的主要原因是最大限度地减少团队之间的人员沟通成本,一个超过 10 个或 12 个人的团队无法在一个工程项目上成功协作,它与人员沟通结构和工作授权有很大关系。因此,将项目团队映射到微服务可以减少人与人之间的沟通开销,从而提高开发速度。这是一个选择微服务的合理原因,但这也并不是我们在谷歌构建微服务的原因。

我认为可观察性包括两件事,一个是检测关键信号,即 SLI 的部分,它需要非常精确;另一个则是改进搜索空间。每增加一个微服务,可能发生的故障模式的数量随着服务数量的增长而几何式增长。我并不认为机器学习或 AI 可以神奇地解决这个问题。我们需要尽快发现可以帮助减少人脑假设的方法,只有在使用巨型仪表板之外的技术时才能实现引导过程。巨型仪表板在单体环境中运行良好,但我看到人们采用这种理念并围绕它构建微服务的可观察性。我认为有必要使用仪表板,但肯定不够。我采访过的 SRE 小组当时正在构建巨大的仪表板,我们的效率明显低于让它设计上更紧凑的团队,之后再使用其他工具来改进搜索空间。所以,不要混淆搜索空间的可视化和对它的精炼优化。整个搜索空间太大了且无法可视化,而且人类迄今也无法处理那么多信息。

在 LightStep,我们看到很多客户一直在努力解决这类问题。我不知道在座的各位是否经历过同样的情况,但我认为这是一种失败模式,谷歌肯定也明白这一点。曾经有一个大型的 Google 服务,大概名字是家庭类型之类的服务,它不得不使用代码生成器生成告警配置,最终导致了 35,000 行还要长的代码。我不记得其中的所有原因。但随后他们不得不开始手动维护这 35,000 行代码,然而这些配置是在 Google 内部完全模糊的 DSL 中编写的,手动维护所带来的痛苦程度无法比拟,这就是因为他们混淆了对 SLI 的告警信息和可能是根本原因的告警信息。监控不应该对根本原因发出告警,它应该是细化过程的一部分;而应该对 SLI 发出告警,对于任何特定系统,SLI 的信息不会有那么多而导致无法处理。

文章内容仅供参考,不构成投资建议,投资者据此操作风险自负。转载请注明出处:天府财经网

(2)
上一篇 2019-07-02 15:22
下一篇 2019-07-02 16:11

相关推荐

  • 阿里云AI势能峰会·成都启幕,共话AI产业落地新实践

    近日,2025年阿里云AI势能峰会在成都举行。峰会聚焦AI技术在产业中的落地实践,汇聚多位企业领袖与技术专家深入解析大模型的创新突破,以及企业推动AI战略落地的策略与路径,为AI技术向产业动能转化提供新思路。阿里云智能集团公共云事业部副总裁、西部大区总经理叶永军表示,AI已经从“实验性应用”阶段发展到了“产业核心”位置,成为推动创新的关键力量。 阿里云智能集团公共云事业部副总裁,西部大区总经理叶永军 他指出,对于企业来说,AI的战略定位决定了其价值边界。若仅把AI视为工具升级,那么它只能带来局部效率提升,但若将AI作为企业的长期战略建设,AI将有巨大潜力重构企业的商业模式和核心竞争力。 新希望集团首席数字官、新希望数科集团CEO李旭昶 会上,新希望集团首席数字官、新希望数科集团CEO李旭昶分享了新希望集团数智化历程。他表示,新希望以产业智能化和智能产业化为策略,布局“智能灯塔2.0”,并基于阿里云全栈AI能力,共同开展在多模态智能、自主智能、边缘智能、物理智能、生物智能等五大方面进行建设,统筹推进集团从管理到运营再到创新业务开展的一体化AI战略落地。他指出,传统企业的智能化转型,并没有可直接复制的标杆经验,需要企业敢于拥抱AI,结合自身业务情况不断摸索,在试错中不断迭代。 通威股份CIO 周勇 通威股份 CIO 周勇分享了通威在模型、平台、应用及其实施方面的见解与实践。他着重指出,数字化是AI的基础,一旦在这一领域落后就会处处受制。为了支撑公司跨越式发展,通威数字化4.0采用了“全云架构”来重塑业务核心能力。目前,通威正与阿里等业内顶尖供应商携手,共同打造AI智能化一体平台。该平台将提供模型管理、智能体构建、向量知识库管理等关键功能,同时还将建立通威的知识和数据中心,以支持各业务领域的智能体应用,从而全面提升员工效率、业务运营和企业决策能力。 通威股份CIO 周勇 &nbs…

    2025-07-29 TMT
    1.7K
  • 多家酒店举报携程平台“私自调价”,郑州市市场监督管理局:已立案调查

    郑州多家酒店商户近日举报,他们在携程平台上架的酒店房间价格被携程私自修改。多位酒店负责人称,携程平台要求酒店商户开通名为“调价助手”的改价工具,通过技术手段修改酒店房间价格,并且不经商家允许修改商家的活动折扣。 7月9日下午,记者从郑州市市场监督管理局了解到,“正在调查中,已向携程平台方面了解有关情况,其他情况结案前暂不便透露。” 记者联系到其中两家酒店,航空港区的一位酒店工作人员告诉记者:“这件事已经有相关部门在调查了。”另一家位于惠济区的酒店也遇到类似情况,其负责人告诉记者:“市场监管部门已经来过店里,询问了一些有关平台调价的情况。” 携程:“‘调价助手’是为帮助酒店提高市场竞争力” 9日下午,关于“调价助手”未经酒店商户允许私自调价一事,携程平台负责酒店相关业务的客服人员告诉记者,“调价助手”是为了使酒店的价格适应当地市场价格,帮助酒店商家提高市场竞争力。 这名客服人员还表示,如果需要关闭“调价助手”,酒店商户可用平台绑定的手机号向平台致电,方可关闭。 据此前媒体报道,有酒店负责人称,被调价后,一间房间的价格与酒店方原本设置的价格相差10元到20元之间。多位酒店负责人提到,在与携程沟通的过程中得知,携程之所以未经商家允许就调价,是因为酒店在其他平台有更优的价,所以携程采用了“系统跟价”的方式。 记者在黑猫投诉平台以“携程调价助手”为关键词检索发现,共有110条投诉结果,其中多条投诉提到,“调价助手”存在未经商家同意开通、并在商家要求关闭后又反复开关的情况。 律师:平台私自给商家调价或违反《价格法》 针对此事,河南泽槿律师事务所主任付建称,根据《价格法》第十一条规定,经营者享有自主制定属于市场调节的价格的权利。根据《电子商务法》第三十五条,电子商务平台经营者不得利用服务协议、交易规则以及技术等手段,对平台内经营者在平台内的交易、交易价格以及与其他经营者的交易等进行不合理…

    2025-07-10
    876
  • 蔡崇信谈领导力:成长型思维、年轻人赋能,以及开源AI的力量

    阿里巴巴正长期受到组织架构混乱、激烈的市场竞争,以及监管压力等困扰。

    2025-07-07 TMT
    3.2K
  • Twitter创始人Jack Dorsey谈AI代理、Nostr协议及未来支付|Disruptors Unplugged

    每天花 3 小时学习量子物理、意大利语和编程,冥想一小时,只吃一顿饭,这位用痛苦和孤独保持健康和精力充沛的长须修行者,不是什么避世高人,而是身价数十亿的硅谷传奇:Twitter 联合创始人、Block 联合创始人兼 CEO Jack Dorsey。 Jack Dorsey 图片来源:Daily Sabah 最近,Jack Dorsey 坐客 Nicolai Tangen 的播客,讲述了 Twitter 的诞生,去中心化社交平台 Blue sky、开放社交协议 Nostr、美国版支付宝 Block 的野心,以及他对生成式 AI、AI 代理的观察和预测。本期的 Disruptors Unplugged 将为你带来这位硅谷大佬横跨技术、金融与个人修行的思考和启迪。 主持人 Nicolai Tangen 是挪威知名金融业者,担任挪威主权财富基金(SWF)旗下管理机构 Norges Bank Investment Management 的 CEO,SWF 也是全球最大的主权财富基金之一。 Highlights Nicolai Tangen:大家好,我是 Nicolai Tangen,今天,我很荣幸邀请到世界上最具有远见的企业家之一 Jack Dorsey。Jack,你真的给世人留下深刻印象,欢迎你! Jack Dorsey:非常感谢! 用户用 @ 和 # 重新发明了 Twitter Nicolai Tangen:我们从 Twitter (现 X) 的诞生聊起,这个创意最初从何而来? Jack Dorsey:这个想法酝酿了很长时间。我从小就对「城市是如何运转的」这个问题非常着迷。我对地图非常着迷,经常盯着它,试图了解某个社区或区域正在发生什么。 后来,我在纽约一家大公司工作,拥有非常丰富的纽约市地图信息。但它缺少了一样东西——人们正在做什么、他们在哪里。这就是 Twitter…

    2025-03-01
    6.0K
  • 洗牌加剧、投诉不断,融360如何再造暴富“神话”?

    高额度、长分期、日息低,这是曾因 714高炮遭到315晚会点名批评的融360年化利息仍然偏高。 本人从融360上借款系统推送稳融花,借款3000元分12期偿还,总计还款4077.93元,对应年化利率约为35.93%。 我从融360上借款5000元需偿还6792.36元,借款2000元需偿还4122.96元,对应年化利率分别约为35.85%和106.15%。 但按照最高法院规定:金融借款合同年利率未超24%合法,超24%未超36%属自然债务区,超36%无效。换言之,融360合作的小贷平台或卡着36%的行业红线放款,或严重超过36%进行放款。 除高年化利息外,综合黑猫投诉上融360超万条投诉来看,融360同时存在几大问题: 一是过度收集用户信息所带来的暴力催收。这背后在于很多国人都有爱面子的习惯,催收通过威胁公开借款人的欠款信息,甚至骚扰借款人的亲友,利用借款人对社交网络的依赖,达到心理施压的效果,这样才能让负债者提前偿还某个平台的欠款。催收人员在拿到提成的同时,助贷平台才能降低逾期率,进而吸引更多“甲方爸爸”。 图源:黑猫投诉 二是高额的担保费管理费和会员费。结合用户投诉来看,借款9000元产生1800多元的担保费,借款15886.03元产生3133.49元的担保费,这意味着融360平台上的担保费比例在20%以上。 另有用户投诉称,在用户未开通会员的情况下,实际还款过程却产生每月高达1080元的会员费。 图源:黑猫投诉 图源:黑猫投诉 三是以各种名目变相收费,有用户投诉称,在融360借款1.5万元每月还款1520元,但在自己并不知情的情况下,前三期却累计产生3435元的商品分期费用。 图源:黑猫投诉 各种乱象的背后,正是网贷行业持续变天,融360正面临着前所未有的焦虑。 01.放款难和收款难成常态 助贷平台到底有多赚钱?以奇富科技代表产品为360借条为例,日前美国知名做空机构…

    2024-10-15 TMT
    12.0K
已有 0 条评论