Nota do editor: abaixo encontra-se uma transcrição editada dos comentários de Sundar Pichai no I/O 2024, adaptada para incluir mais detalhes das informações anunciadas em palco. Veja todos os anúncios da nossa coleção.
A Google está totalmente comprometida com a era Gemini.
Antes de falarmos disso, quero refletir sobre o momento presente. Temos estado a investir em IA há mais de uma década e a inovar em todas as áreas: pesquisa, produto, infraestrutura. Hoje vamos falar sobre tudo isto.
Ainda assim, ainda estamos a dar os primeiros passos no terreno da plataforma de IA. Há muitas oportunidades no futuro, tanto para criadores como para programadores e startups. Há oportunidades para todos. Contribuir para impulsionar essas oportunidades é o objetivo da era Gemini. Vamos começar.
A era Gemini
Há um ano, no palco do I/O, partilhámos pela primeira vez os nossos planos para o Gemini: um modelo inovador construído para ser nativamente multimodal desde o início, que poderia raciocinar através de texto, imagens, vídeo, código e muito mais. Trata-se de um grande passo no processo de transformação de qualquer informação de entrada (input) num resultado (output): um “I/O” para uma nova geração.
Desde então, introduzimos os primeiros modelos Gemini, os mais capazes até agora. Estes modelos demonstraram desempenho de última geração em todas as referências multimodais. Dois meses depois, apresentámos o Gemini 1.5 Pro, que representa um grande avanço em contextos amplos, já que pode executar 1 milhão de tokens em produção, de forma consistente; mais do que qualquer outro modelo básico de grande escala até agora.
Queremos que todos beneficiem do Gemini. Por isso, temos trabalhado sem parar para poder partilhar estes avanços com todos vocês. Hoje, mais de 1,5 milhão de programadores usam modelos Gemini nas nossas ferramentas. Vocês estão a usá-lo para depurar código, obter novas informações e construir a próxima geração de aplicações de IA.
Também temos introduzido os recursos inovadores do Gemini nos nossos produtos de forma inovadora. Mais tarde, vamos ver exemplos na Pesquisa, Fotos, Workspace, Android e muito mais.
Progresso do produto
Hoje em dia, o Gemini está totalmente presente nos nossos produtos com 2 mil milhões de utilizadores.
E também introduzimos novas experiências, inclusive para dispositivos móveis, para que as pessoas possam interagir com o Gemini diretamente através da aplicação, agora disponível para Android e iOS. E através do Gemini Advanced, que fornece acesso aos nossos modelos mais capazes. Em apenas três meses, já houve mais de um milhão de inscrições para experimentar o Gemini, que continua a mostrar um forte impulso.
Expansão dos Resumos de IA na Pesquisa
Uma das transformações mais incríveis do Gemini ocorreu na Pesquisa Google.
No âmbito da nossa experiência de Pesquisa Generativa, no ano passado, respondemos a milhares de milhões de perguntas. As pessoas estão a usar o Gemini para pesquisar de maneira totalmente inédita e fazer novos tipos de perguntas e consultas mais longas e complexas, e até para pesquisar com fotos, recolhendo, assim, o melhor que a Web tem para oferecer.
Esta experiência está a ser testada fora do Labs. E estamos muito animados por ver não apenas um crescimento no uso da Pesquisa, mas também um aumento da satisfação do utilizador.
Tenho o prazer de anunciar que vamos começar a lançar esta experiência totalmente renovada, os Resumos de IA, para todos os utilizadores nos EUA esta semana, que brevemente vai chegar a mais países.
Há muita inovação a ocorrer na Pesquisa. Graças ao Gemini, podemos criar experiências de pesquisa muito mais poderosas, inclusive dentro dos nossos produtos.
Introdução ao “Perguntar ao Fotos”
Um bom exemplo a ter em conta é o Google Fotos, que lançámos há quase nove anos. Desde então, as pessoas usam-no para organizar as memórias mais importantes. Hoje, isso equivale a mais de 6 mil milhões de fotos e vídeos carregados todos os dias.
Os utilizadores adoram usar o Fotos para pesquisar aspetos das suas vidas. Com Gemini estamos a tornar esse processo ainda mais fácil.
Imaginemos que está num parque de estacionamento e no momento de pagar não se lembra da matrícula. Anteriormente, podia pesquisar palavras-chave no Fotos e percorrer anos de imagens à procura de matrículas de carros. Agora, pode simplesmente pedir ajuda ao Fotos, que conhece os carros que aparecem com frequência e consegue distinguir o seu e reconhecer a sua matrícula.
O “Perguntar ao Fotos” pode ajudá-lo a pesquisar as suas memórias de uma forma mais profunda. Por exemplo, vamos imaginar que está a recordar as conquistas da sua filha. Agora já pode perguntar ao Fotos: “Quando a Lúcia aprendeu a nadar?”
E pode continuar com um pedido ainda mais complexo: “Mostra-me como a natação de Lúcia progrediu”.
Aqui, Gemini vai além de uma simples pesquisa, reconhecendo diferentes contextos, desde fazer várias piscinas, até mergulhar no oceano, passando pelo texto e datas dos certificados de natação dela. E o Fotos reúne todos esses elementos num resumo, permitindo-lhe a si absorver tudo e reviver memórias incríveis novamente. O “Perguntar ao Fotos” vai ser lançado neste verão, juntamente com mais recursos.
Desbloquear conhecimento em vários formatos é o motivo pelo qual construímos o Gemini para ser multimodal desde o início. Trata-se de um único modelo, mas com todas as modalidades integradas. Isto significa que o Gemini não só é capaz de interpretar cada tipo de entrada como também pode encontrar relações entre elas.
A multimodalidade expande radicalmente as perguntas que podemos fazer e as respostas que recebemos.
O contexto amplo vai ainda mais além, permitindo-nos lidar com ainda mais informações: centenas de páginas de texto, horas de áudio ou uma hora de vídeo, repositórios completos de código ou, se quiser, cerca de 96 menus do Cheesecake Factory.
Para tantos menus, seria necessária uma janela de contexto de um milhão de tokens, o que agora é possível com o Gemini 1.5 Pro. Os programadores têm usado este contexto amplo de maneira super interessante.
Nos últimos meses, temos vindo a lançar uma pré-visualização do Gemini 1.5 Pro com contexto longo. Fizemos uma série de melhorias de qualidade na tradução, codificação e raciocínio. Vocês vão poder ver essas atualizações refletidas no modelo a partir de hoje.
Tenho agora o prazer de anunciar que estamos a lançar esta versão aprimorada do Gemini 1.5 Pro para todos os programadores em todo o mundo. Além disso, hoje o Gemini 1.5 Pro com contexto longo de 1 milhão de tokens está disponível diretamente para os consumidores no Gemini Advanced e pode ser usado em 35 idiomas.
Expansão para 2 milhões de tokens na pré-visualização privada
Um milhão de tokens abre possibilidades inteiramente novas. É incrível, mas acho que podemos nos esforçar ainda mais.
Por isso, atualmente já estamos a expandir a janela de contexto para 2 milhões de tokens e disponibiliza-la a programadores em pré-visualização privada.
É incrível olhar para trás e ver quanto progresso fizemos em alguns meses. E isto é só o próximo passo no nosso trajeto em direção ao objetivo final, que é o do contexto infinito.
Integração do Gemini 1.5 Pro no Workspace
Até agora falamos de dois avanços técnicos: multimodalidade e contexto longo. Cada um é poderoso por si só, mas juntos desbloqueiam capacidades mais avançadas e mais inteligência.
Isto ganha vida com o Google Workspace.
As pessoas estão sempre à procura dos seus emails no Gmail. Estamos a trabalhar para torná-lo muito mais poderoso com o Gemini. Por exemplo, imaginemos que, na qualidade de pai, quer manter-se informado sobre tudo o que acontece na escola do seu filho. O Gemini pode ajudá-lo a fazer esse acompanhamento.
Já podemos pedir ao Gemini para resumir todos os emails recentes da escola. Em segundo plano, o Gemini identifica emails relevantes e até analisa anexos, como PDFs. Assim, pode obter um resumo dos pontos principais e itens de ação relacionados com a escola do seu filho. Imagine que está a viajar essa semana e não pode comparecer à reunião da Associação de Pais. A gravação da reunião dura uma hora. Se for organizada no Google Meet, é possível pedir ao Gemini para lhe dar os destaques. Há um grupo de pais à procura de voluntários e você está livre naquele dia. E claro, o Gemini pode redigir uma resposta.
Existem inúmeros outros exemplos de como isto pode facilitar a vida. O Gemini 1.5 Pro está disponível hoje no Workspace Labs. Aparna partilha mais.
Resultados de áudio em NotebookLM
Acabamos de ver um exemplo com resultados de texto. Mas com um modelo multimodal podemos fazer muito mais.
Estamos a progredir, e há muito mais por vir. Os Resumos de Áudio no NotebookLM mostram o progresso. Esta funcionalidade usa o Gemini para gerar uma conversa de áudio personalizada e interativa a partir dos seus materiais originais.
Esta é a oportunidade da multimodalidade. Em breve, poderá misturar e combinar entradas (input) e resultados (output). É disso que se trata quando nos referimos a I/O para uma nova geração. E se pudéssemos ir ainda mais longe?
Ir mais longe com os Agentes da IA
Ir ainda mais longe é uma das oportunidades que vemos com os Agentes da IA. Penso neles como sistemas inteligentes que mostram raciocínio, planeamento e memória, são capazes de “pensar” antecipando vários passos e podem trabalhar em software e sistemas, tudo para concluir tarefas por si e, mais importante, com a sua supervisão.
Ainda estamos no começo, mas deixem-me mostrar os exemplos de utilização que estamos a resolver com trabalho árduo.
Vamos começar com as compras. É muito divertido comprar sapatos e muito menos divertido devolvê-los quando não servem.
Imagine se Gemini pudesse fazer concluir todas estas etapas por si:
Procurar o recibo na sua caixa de entrada…Localizar o número do pedido no seu email…Preencher um formulário de devolução…Agendar uma recolha UPS.
Procurar o recibo na sua caixa de entrada…
Localizar o número do pedido no seu email…
Preencher um formulário de devolução…
Agendar uma recolha UPS.
Seria mais fácil, certo?
Vejamos outro exemplo um pouco mais complexo.
Digamos que acabou de se mudar para Chicago. Pode imaginar o Gemini e o Chrome a trabalharem em conjunto com o objetivo de o ajudar a fazer uma série de coisas para se preparar: organizar, raciocinar e sintetizar em seu nome.
Por exemplo, é possível que queria explorar a cidade e encontrar serviços próximos, desde lavandarias a passeadores de cães. Além disso, vai ser preciso atualizar a sua nova morada em dezenas de websites.
O Gemini pode trabalhar nessas tarefas e vai pedir-lhe mais informações quando necessário para que tenha sempre o poder de decisão.
Essa parte é muito importante: à medida que criamos protótipos dessas experiências, pensamos muito sobre como fazê-lo de forma privada, segura e que funcione para todos.
Estes são exemplos de utilização simples, mas dão-nos uma boa ideia dos tipos de problemas que queremos resolver através de sistemas inteligentes que pensam antecipadamente, raciocinam e planificam, tudo em seu nome.
O que isto significa para a nossa missão
Com a multimodalidade, o contexto longo e os agentes, o poder do Gemini aproxima-nos do nosso objetivo final: tornar a IA útil para todos.
É aqui que reside o nosso maior progresso em relação à nossa missão: organizar as informações sobre o mundo em cada entrada, tornando-as acessíveis através de qualquer resultado e combinando as informações do mundo com as informações do SEU mundo, de uma forma que seja realmente útil para si.
Abrir novos caminhos
Para concretizar todo o potencial da IA, é preciso abrir novos caminhos. A equipa da Google DeepMind tem trabalhado arduamente neste campo.
Vimos muito entusiasmo em torno do 1.5 Pro e da sua janela de contexto longo. Mas também recebemos o feedback dos programadores dando conta de que queriam uma solução mais rápida e com melhor relação qualidade-preço. Por isso, amanhã vamos apresentar o Gemini 1.5 Flash, um modelo mais leve construído para escala. Está otimizado para tarefas cujo custo e baixa latência são mais importantes. O Flash 1.5 vai estar disponível no AI Studio e Vertex AI na terça-feira.
Olhando mais adiante, sempre quisemos construir um agente universal que fosse útil no dia a dia. O Projeto Astra mostra compreensão multimodal e capacidades de conversação em tempo real.
Também avançámos na geração de vídeos e imagens com Veo e Imagen 3 e apresentámos o Gemma 2.0, a nossa próxima geração de modelos abertos para inovação responsável em IA. Leia mais de Demis Hassabis.
Infraestrutura para a era da IA: introdução ao Trillium
A formação de modelos de última geração requer muito poder de computação. A procura da indústria por computação de ML cresceu um fator de 1 milhão nos últimos seis anos. E a cada ano aumenta dez vezes.
A Google foi criada para isto. Durante 25 anos, investimos em infraestrutura técnica de classe mundial, desde o hardware de última geração que alimenta a Pesquisa até às nossas unidades de processamento de tensores personalizados que impulsionam os nossos avanços na área da IA.
O Gemini foi treinado e alimentado inteiramente nas nossas TPUs de quarta e quinta geração. E outras empresas líderes de IA, incluindo a Anthropic, também treinaram os seus modelos em TPUs.
Hoje, temos o prazer de anunciar a nossa 6ª geração de TPUs, a Trillium. Trata-se da nossa TPU com melhor desempenho e eficiência até ao momento, com uma melhoria de 4,7x no desempenho de computação por chip em relação à geração anterior, TPU v5e.
Vamos disponibilizar o Trillium aos clientes do Cloud no final de 2024.
Juntamente com as nossas TPUs, temos orgulho de disponibilizar CPUs e GPUs para suportar qualquer carga de trabalho. Isto inclui os novos processadores Axion que anunciámos no mês passado, a nossa primeira CPU personalizada baseada em Arm que oferece desempenho e eficiência energética líderes do setor.
Também temos orgulho de ser um dos primeiros fornecedores de Cloud a oferecer as GPUs Blackwell de última geração da Nvidia, disponíveis no início de 2025. Temos a sorte de ter uma parceria de longa data com a NVIDIA e estamos entusiasmados em trazer os recursos inovadores da Blackwell aos nossos clientes.
Os chips são uma parte fundamental do nosso sistema integrado de ponto a ponto, desde hardware com desempenho otimizado e software aberto até modelos de consumo flexíveis. Tudo isso se junta no nosso Hipercomputador de IA, uma arquitetura inovadora de supercomputador.
Empresas e programadores estão a usá-lo para enfrentar desafios mais complexos, com mais do dobro da eficiência em relação à compra apenas de hardware e chips brutos. Os avanços do nosso Hipercomputador de IA são possíveis em parte devido à nossa abordagem à refrigeração líquida nos nossos centros de dados.
Fazemos isso há quase uma década, muito antes de esta abordagem se tornar a mais avançada na indústria. E hoje a capacidade total do grupo implantado para sistemas de refrigeração líquida é de quase 1 Giga Watt e continua a crescer, tendo quase 70 vezes a capacidade de qualquer outro grupo.
Vamos continuar a fazer os investimentos necessários para promover a inovação em IA e fornecer capacidades de última geração.
A história mais emocionante da Pesquisa até agora
Uma das nossas maiores áreas de investimento e inovação está no nosso produto fundador, a Pesquisa. Há 25 anos, criámos a Pesquisa para ajudar as pessoas a entenderem os movimentos de informação que circulam online.
A cada mudança da plataforma, oferecemos inovações para ajudar a responder melhor às suas perguntas.
Nos dispositivos móveis, desbloqueámos novos tipos de perguntas e respostas, usando melhor contexto, reconhecimento de localização e informações em tempo real. Com os avanços na compreensão da linguagem natural e na visão computacional, possibilitámos novas maneiras de pesquisar, com voz ou cantarolando, para encontrar sua nova música favorita; ou com a imagem daquela flor que viu no seu passeio. E agora pode até circundar para pesquisar aqueles fantásticos sapatos novos e que quer comprar. Não hesite, pode sempre devolvê-los!
É claro que a Pesquisa na era Gemini representa um nível completamente novo, combinando os nossos pontos fortes de infraestrutura, os mais recentes recursos de IA, o nosso alto padrão de qualidade de informações e décadas de experiência a conectá-lo a si à riqueza da Web. O resultado é um produto que faz o trabalho por si.
A Pesquisa Google consiste numa IA generativa à escala da curiosidade humana. E é a nossa história mais emocionante da Pesquisa até agora. Leia mais sobre a era Gemini da Pesquisa com Liz Reid.
Experiências Gemini mais inteligentes
O Gemini é mais do que um chatbot; foi concebido para ser o seu assistente pessoal, que pode ajudá-lo a realizar tarefas complexas e concluir ações por si.
Interagir com o Gemini deve ser conversacional e intuitivo. Por isso, estamos a anunciar uma nova experiência Gemini que nos aproxima dessa visão, que se chama Live, e lhe permite ter uma conversa profunda com Gemini usando a sua própria voz. Também vamos introduzir 2 milhões de tokens no Gemini Advanced ainda este ano, possibilitando o carregamento e a análise de arquivos muito densos, como vídeo e código longo. Sissie Hsiao partilha mais.
Gemini para Android
Com milhares de milhões de utilizadores do Android em todo o mundo, é com entusiasmo que apresentamos uma experiência Gemini ainda mais integrada no nível do sistema operativo. Como seu novo assistente de IA, o Gemini está aqui para ajudá-lo a qualquer hora e em qualquer lugar. E incorporámos modelos Gemini no Android, incluindo o nosso mais recente modelo no dispositivo: Gemini Nano com Multimodalidade, que processa texto, imagens, áudio e fala para desbloquear novas experiências enquanto mantém as informações privadas no seu dispositivo. Todas as novidades do Android aqui.
A nossa abordagem responsável à IA
Continuamos a abordar a oportunidade da IA com ousadia e entusiasmo. Também nos queremos certificar de que tudo é feito com responsabilidade. Estamos a desenvolver uma técnica de ponta, que chamamos de red teaming assistida por IA, que se baseia nas inovações em jogos do Google DeepMind, como o AlphaGo. Além disso, expandimos as nossas inovações técnicas de marca de água, como SynthID, em duas novas modalidades de texto e vídeo, para que o conteúdo gerado por IA seja mais fácil de identificar. James Manyika compartilha mais.
Construir o futuro juntos
Tudo isto mostra o importante progresso à medida que adotamos uma abordagem ousada e responsável para tornar a IA útil para todos.
Antes de encerrarmos, tenho a sensação de que alguém pode estar a contar quantas vezes mencionámos a IA hoje. E presumo que vamos ter de adicionar mais algumas antes de terminarmos.
Esta contagem é mais do que apenas uma brincadeira. Reflete algo muito mais profundo. Há muito tempo que pusemos a IA em primeiro lugar na nossa abordagem. A nossa liderança de décadas de liderança em pesquisa foi pioneira em muitas das inovações modernas que impulsionam o progresso da IA, para nós e para a indústria. Além disso, temos:
Este progresso só é possível devido à nossa incrível comunidade de programadores. Vocês estão a tornar isto real através das experiências e aplicações que criam todos os dias. Por isso, para todos aqui em Shoreline e para os milhões de pessoas em todo o mundo que nos estão a ver, um brinde às possibilidades que temos pela frente e ao facto de as podermos criar juntos.
Publicado por Sundar Pichai, CEO of Google and Alphabet