谷歌失败案例赏析:那些年在微服务上踩的坑

大家好,今天和在座的各位分享一些失败的经验教训。聊一聊这一类的话题要比那些成功案例更有意思。行业在进步,我们可以从过去的错误中吸取经验,并主动在未来的计划中避免,这一点很令人鼓舞。

背景信息

在开始之前,先介绍一下我在谷歌的经历。2003 年大学毕业后我直接加入了谷歌,在这之前我是一个音乐营地的营地顾问,营地顾问之前我在一家冰激凌店工作。我还记得在谷歌的第一天,第一个项目的技术负责人是 Andrew Fights,他现在是类似谷歌杰出的工程师的角色,我记得当时告诉他,我得去找人聊一聊因为实在不知道我在做什么,今天想起来还是很有趣的事情。在谷歌里我像海绵一样快速的吸收技术和其他的信息。今天我在这里谈论的一些事情其实要早于我在谷歌的时间,大约 2000 年和 2001 年左右。让我们从微服务,即谷歌的微服务版本开始讲起。

当时,谷歌的业务仍然押注在 GSA(谷歌搜索服务器)产品,其实最终 GSA 也并没有像想象中的那么顺利。当然了,其它事情也是这样,毕竟不能将一个虚拟的垄断产品与像广告这样数十亿美元的巨额业务相对比。不过,谷歌最开始是以搜索起家的,并专注在解决这一类的技术问题。

接下来要讨论的很多内容的原始驱动力来自于这张幻灯片。在经济危机之前,很多企业都将他们的基础设施构建在 Sun Microsystems 的硬件之上,并将 SolARis 作为操作系统。如果不考虑成本的话,这一套解决方案比现有的其它东西都要好,很多人买了很多这种 Sun box 也是基于这样的原因。但 Sun box 真的很贵,尤其是一个拥有庞大数据中心的企业,整个数据中心需要填满这种机箱以支撑业务的发展,成本就会影响到其业务渠道和活下去的底线。

谷歌当时就处在这样一个状况。当时的人会很自然的说:“Linux 虽然不够完美,不过功能也够用,它的硬件又很便宜,所以平衡下来我们可以选择 Linux 作为替代”。一定程度上,我也认同这些过往的事情是真实的,当时的人们成本意识很强,所以他们会不遗余力的去解决一系列 RAM、芯片等 Linux 出现的一切故障,以降低成本。而这就带来了一个结果 – 即 Linux 真的不可靠,特别是使用垃圾站硬件的时候,且问题很严重。我认为,谷歌从 Compaq DEC 并购中受益匪浅,这也是导致 90 年代一些真正令人难以置信的研究实验室死亡的原因。许多人比如 Jeff Dean 和 Sanjay Kumar 都来自那个世界,他们现在几乎都是质量工程师。当时的他们对如何在那些难以令人置信的不可靠硬件之上构建软件这个问题产生了强大的兴趣,后面发生的事情也是很多接下来要分享的内容。

然而在 2001 年并没有什么可以替代的方案,所以必须自己做。另一个问题是非常古怪的扩展要求。他们试图做一些当时非常大胆的事情,即索引每个网页的每个字。一些人将每个网页的每个单词收录并编入索引,其他人只是给它建立索引,然后丢弃那些限制竞争对手能力的原始数据。这是一项艰巨的任务,需要用到当时根本不存在的计算机软件。

因此,由于不可靠的 Linux 盒子,该软件必须横向扩展,并且必须在堆栈的任何组件中容纳频繁的例行故障。之前有一篇很棒的文章提出了“机器是牛而不是宠物”。我认为在这件事情上谷歌做对了。这些机器没有来自“星际迷航”的酷炫名字,它们只是 AB 1,2,5,7 类似的东西,那也是机器名。系统对它没有太多的依赖,它死了或者继续运行都不会影响其它部分。这个问题让人们开始思考如何建立更具弹性的系统。

以上是我如何描述事物的方式。在谷歌很多人都有博士学位。记得面试时,我还没有博士学位。而且,我只跟一个没有博士学位的人谈过,面试结束时,他说,“别担心,现在开始雇用没有博士学位的人了”,在那里有很多人比我更聪明,并且真的想将他们的知识应用到 CS 系统研究中,将这种类型的经验和知识应用于现实问题是一件很有趣的事情。

我认为构建微服务的唯一充分理由是组织结构,并且这也应该是大多数组织构建微服务的唯一原因。然而,这并不是谷歌构建微服务的原因。谷歌构建微服务是为了计算机科学,在这里,我不会去争辩从这个角度构建微服务其实也没有什么好处,当然肯定是有很多痛点驱动。

开始构建微服务之后,如果简单的认为它一定会很顺利,也没有事先调研所有可能的失败情况,那么一定不会顺利,而且实际上也可能会带来很多令人遗憾的结果。我和很多企业讨论过这个问题,这些企业也因为迁移的过程实在太痛苦了而放弃了向微服务的迁移。所以,一定要事先了解构建微服务的动因。就像谷歌里有很多人效仿大型的基础设施项目一样,有时我认为他们在构建一些并不必须的架构。理智的投资方式应该是遵循以下原则:“如果你不需要就不要去做,否则只会会让事情变得更困难”。

这样做的主要原因是最大限度地减少团队之间的人员沟通成本,一个超过 10 个或 12 个人的团队无法在一个工程项目上成功协作,它与人员沟通结构和工作授权有很大关系。因此,将项目团队映射到微服务可以减少人与人之间的沟通开销,从而提高开发速度。这是一个选择微服务的合理原因,但这也并不是我们在谷歌构建微服务的原因。

我认为可观察性包括两件事,一个是检测关键信号,即 SLI 的部分,它需要非常精确;另一个则是改进搜索空间。每增加一个微服务,可能发生的故障模式的数量随着服务数量的增长而几何式增长。我并不认为机器学习或 AI 可以神奇地解决这个问题。我们需要尽快发现可以帮助减少人脑假设的方法,只有在使用巨型仪表板之外的技术时才能实现引导过程。巨型仪表板在单体环境中运行良好,但我看到人们采用这种理念并围绕它构建微服务的可观察性。我认为有必要使用仪表板,但肯定不够。我采访过的 SRE 小组当时正在构建巨大的仪表板,我们的效率明显低于让它设计上更紧凑的团队,之后再使用其他工具来改进搜索空间。所以,不要混淆搜索空间的可视化和对它的精炼优化。整个搜索空间太大了且无法可视化,而且人类迄今也无法处理那么多信息。

在 LightStep,我们看到很多客户一直在努力解决这类问题。我不知道在座的各位是否经历过同样的情况,但我认为这是一种失败模式,谷歌肯定也明白这一点。曾经有一个大型的 Google 服务,大概名字是家庭类型之类的服务,它不得不使用代码生成器生成告警配置,最终导致了 35,000 行还要长的代码。我不记得其中的所有原因。但随后他们不得不开始手动维护这 35,000 行代码,然而这些配置是在 Google 内部完全模糊的 DSL 中编写的,手动维护所带来的痛苦程度无法比拟,这就是因为他们混淆了对 SLI 的告警信息和可能是根本原因的告警信息。监控不应该对根本原因发出告警,它应该是细化过程的一部分;而应该对 SLI 发出告警,对于任何特定系统,SLI 的信息不会有那么多而导致无法处理。

文章内容仅供参考,不构成投资建议,投资者据此操作风险自负。转载请注明出处:天府财经网

(0)
上一篇 2019-07-02 15:22
下一篇 2019-07-02 16:11

相关推荐

  • 27岁坐拥52亿商业帝国:解密Mr.Beast的流量神话与双面困局

    如果把网红IP视作一个独立国家,拥有超4亿全球粉丝的Mr.Beast(本名詹姆斯·史蒂芬·唐纳森/James Stephen Donaldson,昵称Jimmy),其影响力足以跻身全球人口大国行列。作为YouTube订阅量、播放量双顶尖的顶流创作者,他打破了传统网红的流量天花板:单条视频稳定斩获亿级播放,十分钟以上长视频依旧保持超高完播率,单条内容制作成本堪比院线电影。 从2021年耗资350万美元复刻《鱿鱼游戏》场景、456人角逐45.6万美元奖金的爆款视频(累计8.8亿播放),到2024年包下三座埃及金字塔取景、为Amazon Prime Video打造《Beast Games》荒野城市实景节目,Mr.Beast的每一次内容创作,都是普通博主难以复刻的大手笔。 这位1998年出生、年仅27岁的年轻人,早已从默默无闻的游戏主播,蜕变为执掌数十个频道、年营收4.5亿美元、公司估值达52亿美元的全球娱乐巨头掌舵者。他独创的“烧钱换流量、流量造商业、商业反哺内容”闭环模式,重塑了全球网红变现的行业逻辑。但极致繁华的背后,剧本造假、职场争议、灰色金融操作、表演式慈善等多重丑闻缠身,让这位顶级流量缔造者,陷入了流量与争议共生的双面困局。 草根逆袭:偏执深耕算法,解锁极致流量密码 Mr.Beast的成长底色,没有天赋滤镜,只有极致的偏执与坚持。1998年,他出生于美国堪萨斯州威奇托的普通家庭,9岁时父母离异,母亲常年打两份工维持生计,家庭频繁搬家,童年大多在独处中度过。自幼患有克罗恩病的他,长期受慢性肠道炎症困扰,无法肆意社交、参与娱乐活动,也正因如此,他将全部精力倾注于视频创作。 2009年,11岁的Mr.Beast接触YouTube并首次投稿,因羞涩随即删除作品。2012年,13岁的他以「Mr Beast 6000」账号重启创作,主攻《Minecraft》《决胜时刻:黑色行动2》…

    2026-05-31
    2.0K00
  • 从顶流文化主播到争议缠身:董宇辉单飞后的商业蜕变与信任危机

    2024年7月,持续刷屏的东方甄选“小作文风波”尘埃落定,董宇辉正式完成与老东家东方甄选的切割,以7658.55万元对价全资收购“与辉同行”,开启独立创业之路。彼时,这场分手被外界视作体面的双赢结局:董宇辉挣脱平台束缚、掌握事业主导权,东方甄选则顺势推进去头部化转型,降低单一主播依赖。 单飞之初,市场与网友对董宇辉极尽包容与期待。“与辉同行”账号粉丝迅速突破3000万,一举超越老东家东方甄选,网友纷纷感慨“恭喜董宇辉脱离苦海”。凭借深耕多年的“文化人、严选、励志打工人”人设,他稳居直播电商顶流席位,被视作行业清流,一度被罗永浩等业内人士公开鸣不平,认为其此前在平台的价值与收益严重不匹配。无人预料到,短短不到两年,这位全民追捧的“国民女婿”便接连深陷舆论争议,精心构筑的人设全面崩塌,直面出道以来最严峻的商业信任危机。 寒门逆袭封神:知识带货开创直播新范式 董宇辉的爆红,是教培行业寒冬之下的一场行业奇迹,更是大众情绪与消费趋势共振的结果。1993年,董宇辉出生于陕西渭南农村,家境贫寒、自幼敏感细腻,受父亲影响深耕阅读,积淀了深厚的人文素养。2016年,毕业于西安外国语大学的他放弃20万年薪的企业offer,坚守教育初心成为新东方英语老师,23岁便升任高中英语教研组长,累计辅导超50万名学生,成为新东方明星教师。 2021年“双减”政策落地,教培行业遭遇重创,新东方主业崩塌、股价暴跌,大批员工离职。绝境之中,俞敏洪带领剩余团队转型直播带货,东方甄选应运而生。彼时直播行业充斥着低价叫卖、套路营销,转型初期的东方甄选直播间门可罗雀,常常仅有数十名观众,发展举步维艰。 2022年6月,董宇辉凭“知识带货”意外破圈。他跳出传统带货套路,将文史哲、天文地理、人生感悟融入直播,卖大米畅谈人间烟火与岁月温柔,卖玉米追忆童年时光与亲情暖意,没有生硬叫卖,只有真诚分享与人文输出。这种差异化的直播范…

    2026-05-29
    3.1K00
  • 2026懂车帝DCar直线竞速锦标赛即将正式开赛

    5月30日至31日,2026懂车帝DCar直线竞速锦标赛首场揭幕战将在成都天府国际赛道举办。赛事融合专业直线加速竞技与潮流车友互动,近百台专业赛车同台竞技、四百台精品改装展车将集中亮相,助力专业汽车文化走向民间。即日起,用户可通过懂车帝APP趣玩车频道,点击相关活动页面激活前往现场资格,参与嘉年华六大主题互动区活动,并观看直线加速锦标赛赛事情况。本届赛事全程将在抖音、懂车帝同步开启直播,用户还可在两个平台搜索“直线加速赛”,即可收看赛事实况。 据悉,该赛事是懂车帝面向玩车人群打造的年度重点活动,整体分为场内专业竞赛、场外车友嘉年华两大板块。其中,场内专业直线竞速锦标赛赛事采用两日赛程,5月30日开展排位赛,参赛选手自由约战角逐初始排名;5月31日开启淘汰赛,赛事依据车辆驱动形式与排位成绩划分组别展开对决,最终决出赛事冠亚季军。本次成都站赛事特设置两个直通世界顶级赛道德国纽博格林北环的体验名额,为国内赛车爱好者搭建通往国际顶级赛场的进阶通道。 赛事同期还将开启车友嘉年华活动,现场设置静态展示区、后市场体验、金卡纳驾控、钻杆挑战、大嗓门竞技、赛车模拟器及美食补给等六大互动区域,满足汽车爱好者打卡体验、休闲游玩等多重需求,让广大车友近距离感受汽车文化氛围。即日起,用户需更新懂车帝最新版本,点击主页右上角“趣玩车”,选择“改装”板块即可领取玩车执照,凭执照可在检录口有序入场。申领执照后,用户还可自主设置兴趣方向,完成车主认证等操作。普通用户可参与厂商金卡纳体验、亚洲模拟器大赛等专业驾控项目,或在观众区观看直线加速锦标赛,现场还有海量周边福利相送。 此前,懂车帝已正式发布2026年赛事规划及用户免费直通纽北相关计划。平台已陆续推出ASRC亚洲模拟赛车锦标赛等赛事活动,搭建起从模拟器体验、线下赛道实操到纽博格林北环实地征战的完整参与路径,全年将面向大众开放免费直通纽北体验名额。 作为一…

    2026-05-27
    1.4K00
  • 数字货币安全:如何预防剪贴板劫持?10万美元损失案例深度复盘

    根据 Cyvers 报告,2024 年 Web3 网络威胁加剧,全年共发生 165 起安全事件,造成资金损失超 23 亿美元,比 2023 年的 16.9 亿美元增加 40%。其中,与访问控制相关的事件就有 67 起,占了 23 亿美元损失的 81%。 对普通用户来说,最常遭遇的访问控制类型之一就是剪贴板被劫持。近期,WEEX 交易所社群内有人称,自己遭遇剪贴板被黑客劫持,攻击者将其复制的钱包地址替换为黑客控制的相似地址,导致其一笔近 10 万美元的入金转错地址,再也找不回来。 剪贴板劫持已成为数字时代的新型“数字扒手”,需通过技术防护与安全意识双管齐下。本文就来聊聊什么是剪贴板劫持?如何排查自己的电脑剪贴板是否被劫持?以及如何从源头防范剪贴板劫持风险,保护资产安全。 什么是剪贴板被劫持? 剪贴板是操作系统和应用程序中用于暂时存储复制、剪切功能的功能模块。当用户复制一段文字(如密码、链接、钱包地址)时,数据会暂存于剪贴板中等待粘贴。剪贴板被劫持是指恶意软件、病毒或未经授权的程序通过技术手段非法访问或篡改剪贴板内容,甚至替换用户复制的关键信息(如将转账地址修改为攻击者的钱包地址)。这种隐藏的攻击方式可能直接威胁个人隐私和财产安全。 剪贴板被劫持的潜在后果 如何排查剪贴板是否被劫持? 通过以下现象可初步判断: 深度排查步骤: 剪贴板被劫持后的紧急处理方案 六大防护策略:从根源避免劫持风险 总结:建议定期使用专业工具审查系统行为,并对金融、隐私类操作启用二次确认。在安全性面前,多一步验证,少一分风险。

    2026-04-30
    8700
  • 阿里云故障引发的 Web3 思考:交易所为何被云服务商“卡脖子”?

    阿里云香港机房节点的一次故障,脱下了不少交易所「假海外」的皇帝新装。 2022年12月18日中午,OKX发推表示,由于云端服务商故障,个别端口出现不稳定情况,部分用户如遇到网络不稳定/前端资产显示不全/充提不到账的问题,可尝试切换网络或重启APP。 随后,Gate.io也发公告,称受到运营商部分网络节点维护的影响,充值和提现服务将出现延缓。 到了傍晚,5个小时过去了,OKX称云服务商故障尚未修复,为避免可能产生的用户损失,已关停所有交易并限制提币。 与此同时,阿里云发布异常公告,称监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库Polar DB等云产品使用,工程师已在紧急处理中。 除了OKX和Gate.io,CoinW、BKEX、BitVenus等交易所也于18日发布系统临时维护、暂停部分币种交易及充提相关公告。此外,区块链媒体BlockBeats,以及澳门金融管理局、澳门日报等多家机构及企业官网和App也出现停摆。 直到19日中午11点,阿里云才宣布故障修复,系因机房制冷设备故障所致。 随后OKX公告,已于19日12:00恢复BTC(主网)、ETH(主网)、USDT(ERC20)等部分代币的充提服务,将于15:00恢复所有代币的充提服务。 前后算下来,此次云服务商故障对OKX相关业务的影响远超24小时,难怪连一向低调的徐明星都坐不住了,称这是“阿里云发展史上重大丑闻”。 谁会想到,长期站在币圈食物链顶端的交易所,居然被一家云服务供应商「卡脖子」。这也为行业数据安全敲响了警钟,将数据托付给一家云服务商,风险性不亚于将交易所钱包密钥交由一人保管。 事后,OKX宣布将在近期快速推进多云战略,确保核心服务部署在多个云服务商,在单个云服务商平台出现故障时,可以快速切换至其他平台,保证交易服务的稳定性。 Web3时代,数据安全是重中之重。

    2026-04-27
    71800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

twenty eight ÷ = 7
Powered by MathCaptcha