Goog免费的白板apple I/O 2024:开启新一代的 I/O

免费的白板app

IWEAP12AJDSF182812KLIASDF

  来源Google I/O 2024:开启新一代的 I/O:

  作者:SundarPichai

  Google和AlphabetCEO

  编者按:以下是SundarPichai在2024年I/O大会上讲话编辑稿,经过调整以包含更多在舞台上宣布的内容。

  Google已全面进入Gemini时代。

  在深入探讨之前,我想先回顾一下我们所处的时刻。十多年来,我们一直在AI领域进行投入,并在各个层面进行创新:研究、产品、基础设施,今天我们将对此进行全面讨论。

  尽管如此,我们仍处于AI平台转型的初期。我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在。让我们开始吧。

  Gemini时代

  一年前,在I/O大会上,我们首次分享了Gemini的计划:一个从一开始就构建为原生多模态的前沿模型,能够跨文本、图像、视频、代码等多种数据类型进行推理。它标志着将任意输入转换成任意输出的重要一步——新一代的“I/O”。

  自那以来,我们推出了首批Gemini模型,这是我们迄今为止功能最强大的模型。它们在每个多模态基准测试中都拥有卓越的表现。两个月后,我们又推出了Gemini1.5Pro,它在处理长上下文方面取得了重大突破,能够稳定地在生产环境中运行100万个令牌(Token),比目前任何其他大规模基础模型都要多。

  我们希望每个人都能从Gemini的功能中受益。因此,我们立即行动起来,与大家分享这些进展。目前,超过150万的开发者在使用我们各种工具中的Gemini模型。你们使用它来调试代码、获得新的见解并打造下一代的AI应用。

  我们也在不断将Gemini的突破性功能以强大的方式整合到我们的产品中。今天,我们将展示搜索、Photos、Workspace和Android等产品中的实例。

  今天,我们所有拥有20亿用户的产品都在使用Gemini。

  我们还推出了全新的体验,包括在移动设备上,人们现在可以通过Android和iOS上的应用程序直接与Gemini互动,GeminiAdvanced让用户还可以使用我们功能最强的模型。仅在三个月的时间里,已有超过一百万人注册试用,并且势头依然强劲。

  在搜索中扩展AIOverviews

  Gemini带来的最令人兴奋的变革之一是在Google搜索中。

  在过去的一年中,作为我们生成式搜索体验(SearchGenerativeExperience)的一部分,我们已经回答了数十亿个搜索查询。人们正在以全新的方式使用搜索,提出全新类型的问题,作出更长、更复杂的查询,甚至是通过照片进行搜索,并获得网络上的最佳信息。

  我们一直在Labs之外对这种体验进行测试。我们倍受鼓舞地看到,不仅搜索的使用量有所增加,用户满意度也得到了提升。

  我很高兴宣布,我们将于本周在美国向所有用户推出这一全新改版的AIOverviews体验。我们很快也将把这项体验推广到更多国家。

  在搜索领域正发生着诸多创新。得益于Gemini,我们能够打造更为强大的搜索体验,包括在我们的产品之中。

  介绍AskPhotos

  GooglePhotos就是一个例子,在大约九年前,我们发布了这款产品,自那以来,人们一直用它来整理最珍贵的回忆。如今,每天上传的照片和视频数量超过60亿。

  人们喜欢使用Photos来搜索他们生活中的点滴。借助Gemini,我们让这一切变得更加简单。

  假设你在停车场缴费时,却想不起自己的车牌号。以往,你需要在Photos中搜索关键词,然后翻找多年积累的照片来寻找车牌。但现在,你只需直接询问Photos即可。它能够识别出经常出现的车辆,通过多方信息交叉验证判断出哪一辆是你的,并提供车牌号码。

  AskPhotos还能够帮助你以更深入的方式重温回忆。例如,你可能正在回味女儿Lucia成长的早期重要时刻。现在,你可以直接问Photos:“Lucia是什么时候学会游泳的?”

  你甚至可以跟进提出更复杂的问题:“向我展示Lucia的游泳技能是怎么进步的。”

  在这里,Gemini不再只是进行简单的搜索,它会识别不同的上下文——从在游泳池中扑腾,到在海洋中浮潜,再到她游泳证书上的文字和日期。Photos会将所有这些信息整合在一起形成一个总结,让你能够全面了解,并再次重温那些美妙的回忆。我们将在今年夏天推出AskPhotos,并将持续增加更多功能。

  为了理解跨越不同格式的各种知识,我们从一开始就将Gemini打造成多模态的。它是一个内置了所有模态的模型。因此,它可以理解不同类型的输入,并找到它们之间的联系。

  多模态从根本上扩展了我们可以提出的问题以及我们将得到的答案。而长文本能力则使其更进一步,让我们能够引入更多信息:数百页文本、数小时音频或一小时的视频、整个代码存储库……或者,如果你愿意,大约96份芝士蛋糕工厂餐厅的菜单。

  处理这么大量的菜单,你可能需要100万令牌的上下文窗口,而现在通过Gemini1.5Pro就可以实现。开发者们就一直在以各种非常有趣的方式使用它。

  在过去的几个月里,我们已经推出了具有长上下文能力的Gemini1.5Pro的预览版,我们还对翻译、编码和推理的质量进行了一系列改进。从今天开始,你也将在模型中看到这些更新。

  现在我很高兴地宣布,我们将向全球所有开发者推出改进版的Gemini1.5Pro。此外,从今天开始,具有100万令牌上下文能力的Gemini1.5Pro也可供GeminiAdvanced的消费者直接使用,包含35种语言。

  在非公开预览版中扩展到200万令牌

  100万令牌正在开辟全新的可能性。这已经很振奋人心,但我认为我们还可以更进一步。

  今天,我们将上下文窗口扩展到200万个令牌,并将其以非公开预览版的方式提供给开发者们。

  过去几个月来我们所取得的进展让我非常激动,这代表着我们朝无限上下文的最终目标又迈出了一步。

  到目前为止,我们已经分享了两项技术进步:多模态和长上下文。他们各自已经非常强大,但二者结合能够释放更深层次的能力和更多的智能。

  这在GoogleWorkspace中体现得更加淋漓尽致。

  长期以来,人们总在Gmail中搜索他们的电子邮件。而现在我们正通过Gemini使其变得更加强大。例如,作为家长,你希望随时了解孩子在学校发生的一切,Gemini就可以帮助你!

  现在,我们可以让Gemini总结学校最近发来的所有电子邮件。在后台,它可以识别相关电子邮件,甚至分析PDF等附件,你可以获得一份包含关键要点和待办事项的摘要。也许你本周正在旅途中,无法参加家长会议,而会议录音长达一个小时。如果这份录音来自于GoogleMeet,你就可以让Gemini为你提供重点内容。倘若有个家长小组正在寻找志愿者,而你那天正好有空,那么当然,Gemini还可以帮助你起草回复邮件。

  还有无数其他例子可以说明Gemini如何让生活更轻松。今天起Gemini1.5Pro已经应用在WorkspaceLabs中。

  NotebookLM中的音频输出

  我们刚刚看了一个文本输出的例子,但通过多模态模型,我们可以做得更多。

  我们在这方面已经取得了进展,未来还会有更多。NotebookLM中的音频概述(AudioOverview)就显示了在这方面的进展:它通过Gemini1.5Pro,可以基于你的源文件生成个性化和交互式音频对话。

  这就是多模态带来的可能性,很快你就能够将输入和输出进行混合和匹配,这就是我们所说的新一代I/O的意思。但如果我们还能再进一步呢?

  使用AI智能体更进一步

  在这一方面更进一步就是我们在AI智能体(AIAgents)上看到的机遇之一。我认为它们是可以推理、规划和记忆的智能系统。它们能够提前多步”思考”,跨软件和系统工作,所有这些都是为了帮助你完成任务,而最重要的是要在你的监督之下。

  我们仍处于早期阶段,但让我向你展示一些我们正在努力解决的应用案例的类型。

  让我们以购物为例。买鞋很有意思,但当鞋子不合适需要退货时就不那么有趣了。

  想象一下,如果Gemini可以为你完成所有步骤:

  在你的收件箱中搜索收据……

  从你的电子邮件中找到订单号……

  填写退货表格……

  甚至安排UPS取件。

  那是不是容易多了?

  让我们再举一个更复杂一些的例子。

  假设你刚搬到芝加哥。想象一下Gemini和Chrome能够共同协作帮助你做很多准备工作——代替你组织、推理、综合分析等。

  比如,你想要探索这座城市并找到附近的服务——从干洗店到遛狗服务,你还必须在数十个网站上更新你的新地址。

  现在Gemini可以胜任这些工作,并在需要时提示你提供更多信息。这样事情始终在你的掌控之中。

  这部分非常重要——当我们做这些体验的原型设计时,我们深思熟虑如何以一种私密、安全且对每个人都适用的方式来进行。

  这些都是简单的应用案例,但它们可以让你很好地了解到,通过构建能够代表你去提前思考、推理和计划的智能系统,我们希望能够解决的问题类型。

  这对我们的使命意味着什么

  Gemini凭借其多模态、长上下文和智能体,使我们更接近我们的最终目标:让AI助力每个人。

  我们认为,这是我们在达成使命方面取得最大进展的方式:整合以各种方式输入的全球信息,使其可以通过任何输出方式被获取,并将全球信息与你的世界中的信息结合起来,以一种真正对你有用的方式进行呈现。

  新的突破

  为了充分发挥AI的潜力,我们需要开创新领域,谷歌DeepMind团队一直致力于此。

  我们已经收到了大家对1.5Pro及其长上下文窗口的热情反馈,但我们也从开发人员那里了解到,他们想要更快、更具成本效益。因此,明天,我们将推出Gemini1.5Flash,一个为规模化构建的更轻量级的模型,它针对以低延迟和成本为重的任务进行了优化。1.5Flash将于周二在AIStudio和VertexAI中提供。

  展望未来,我们始终希望构建一个在日常生活中有用的通用智能体。Astra项目展示了多模态理解和实时对话能力。

  我们还在视频和图像生成方面取得了进展,推出了Veo和Imagen3,并推出了Gemma2.0——我们为负责任的AI创新打造的下一代开放模型。

  AI时代的基础设施:介绍Trillium

  训练最先进的模型需要大量的计算能力。过去六年中,行业对机器学习计算能力的需求增长了100万倍。而且,每年都会以十倍的速度增长。

  Google在这方面具有优势。25年来,我们一直在投资世界一流的技术基础设施,从支持搜索的尖端硬件,到为我们的AI进步提供支持的定制张量处理单元(tensorprocessingunits)。

  Gemini完全在我们的第四代和第五代TPU上进行训练和服务。包括Anthropic在内的其他领先的AI公司也已经在TPU上训练了他们的模型。

  今天,我们很高兴地宣布推出第六代TPU——Trillium。Trillium是我们迄今为止性能最强、效率最高的TPU,与上一代TPUv5e相比,每个芯片的计算性能提高了4.7倍。

  我们将在2024年底向Cloud客户提供Trillium。

  除了我们的TPU,我们还推出CPU和GPU来支持任何工作负载。这包括我们上个月宣布的新型Axion处理器,我们的首款基于Arm定制的CPU,可提供业界领先的性能和能效。

  我们也很自豪成为首批提供

  芯片是我们集成端到端系统的基础部分,从性能优化的硬件和开放软件到灵活的消费模式。所有这些都汇集在我们的AI超级计算机(AIHypercomputer)中,这是一种开创性的超级计算机架构。

  企业和开发者正在使用它来应对更复杂的挑战,其效率是仅购买原始硬件和芯片的两倍多。我们的AI超级计算机的进步之所以成为可能,是因为我们在数据中心采用了液体冷却的方法。

  我们已经这样做近10年了,远早于它成为行业的先进技术。如今,我们部署的液体冷却系统总容量已接近1吉瓦,并且还在不断增长——这几乎是任何其他团队的70倍。

  这背后的基础是我们庞大的网络规模,它连接了我们全球的基础设施。我们的网络覆盖了超过200万英里的陆地和海底光纤:是紧随之后的云服务提供商的10倍(!)以上。

  我们将继续进行必要的投资,以推进AI创新并提供最先进的功能。

  搜索最激动人心的篇章

  我们最大的投资和创新领域之一是我们的创始产品——搜索。25年前,我们创建了搜索,以帮助人们理解互联网上汹涌的信息浪潮。

  随着每一次平台的转变,我们都在帮助更好地回答你的问题上取得了突破。在移动设备上,我们利用更好的上下文、位置感知和实时信息,解锁了新型的问题和答案。随着自然语言理解和计算机视觉技术的进步,我们实现了新的搜索方式,可以用语音或哼唱来找到你最喜欢的新歌;或者用你在散步时看到的那朵花的图像来进行搜索。现在,你甚至可以使用CircletoSearch来搜索你可能想要购买的那些很酷的新鞋。去试试吧,反正你总能退货!

  当然,Gemini时代的搜索将把这一切提升到一个全新的水平,它将把我们的基础设施优势、最新的AI功能、对信息质量的高标准以及数十年来把你与丰富的网络连接起来的经验相结合。其结果将是一款为你工作的产品。

  Google搜索是生成式AI,其规模足以满足人类好奇心。这是我们迄今为止最激动人心的搜索篇章。

  更智能的Gemini体验

  Gemini不仅仅是一个聊天机器人;它旨在成为你得力的私人助手,可以帮助你处理复杂的任务并代表你采取行动。

  与Gemini的互动应该是对话式的、直观的。因此,我们宣布推出称为Live的全新Gemini体验,让你可以使用语音与Gemini进行深入对话。我们还会在今年晚些时候将GeminiAdvanced提升为200万个令牌,以便能够上传和分析视频和长代码等超密集文件。

  Android上的Gemini

  全球有数十亿Android用户,因此我们很高兴能将Gemini更深入地融入用户体验。作为你的全新AI助手,Gemini可随时随地为你提供帮助。我们已将Gemini模型整合到Android中,包括我们最新的设备端模型:GeminiNano多模态模型(GeminiNanowithMultimodality),它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。

  我们负责任的AI方法

  我们继续大胆而振奋地把握住AI所带来的机遇。同时,我们也在确保以负责任的方法行事。我们正在开发一种叫做AI辅助红队测试(AI-assistedredteaming)的尖端技术,该技术利用了GoogleDeepMind在AlphaGo等游戏方面的突破以改进我们的模型。此外,我们也已将SynthID水印工具扩展到文本和视频两种新的模态,因此更容易识别AI生成的内容。

  所有这些都表明了我们在以大胆而负责任的方法,让AI助力每个人方面取得的重要进展。

  很长一段时间以来,我们一直采用AI为先的方法。我们数十年的研究领导者地位开创了许多现代突破,为我们和整个行业的AI进步提供了动力。最重要的是,我们拥有:

  专为AI时代打造的世界领先基础设施

  现在由Gemini提供支持的搜索领域的尖端创新

  在极大规模上提供帮助的产品——包括15款拥有5亿用户的产品

  这一进步之所以能够实现,是因为我们卓越的开发者社区。通过每天创建的体验和应用程序,你们将这一切变为现实。在此,我要向在Shoreline现场的各位以及全球数百万在线观看的朋友们致意:让我们共同迎接未来的无限可能,携手共创美

  责任编辑:欧阳名军

联系我们