Uma nota do CEO da Google e da Alphabet, Sundar Pichai:
A informação está no centro do progresso humano. É por isso que nos concentramos há mais de 26 anos na nossa missão de organizar as informações do mundo e torná-las acessíveis e úteis. E é por isso que continuamos a expandir as fronteiras da IA para organizar estas informações em todas as entradas e torná-las acessíveis através de qualquer saída, para que possam ser realmente úteis para si.
Esta era a nossa visão quando lançámos o Gemini 1.0 no passado mês de dezembro. O primeiro modelo criado para ser nativamente multimodal, o Gemini 1.0 e 1.5, impulsionou grandes avanços com multimodalidade e contexto longo para entender informações em texto, vídeo, imagens, áudio e código, e processar muito mais delas.
Agora, milhões de programadores estão a construir com Gemini. E está a ajudar-nos a reinventar todos os nossos produtos — incluindo todos os 7 com 2 mil milhões de utilizadores — e a criar novos. O NotebookLM é um ótimo exemplo do que a multimodalidade e o contexto longo podem possibilitar às pessoas, e é por isso que é adorado por tantos.
No último ano, investimos no desenvolvimento de modelos mais agentivos, o que significa que eles podem entender mais sobre o mundo ao seu redor, pensar vários passos à frente e agir em seu nome, com a sua supervisão.
Hoje estamos entusiasmados por lançar a nossa próxima era de modelos criados para esta nova era de agentes: apresentamos o Gemini 2.0, o nosso modelo mais capaz até agora. Com novos avanços na multimodalidade — como saída de imagem e áudio nativa – e uso de ferramentas nativas, tal irá permitir construir novos agentes de IA que nos vai aproximar da nossa visão de um assistente universal.
Estamos, hoje, a colocar a versão 2.0 nas mãos de programadores e grupos de testes de confiança. E estamos a trabalhar rapidamente para incluí-lo nos nossos produtos, a começar pelo Gemini e Pesquisa. A partir de hoje, o nosso modelo experimental Gemini 2.0 Flash estará disponível a todos os utilizadores do Gemini. Também estamos a lançar um novo recurso chamado Deep Research, que usa raciocínio avançado e recursos de contexto longo para atuar como um assistente de investigação, com a exploração de tópicos complexos e a compilação de relatórios para si. Já está disponível no Gemini Advanced.
Nenhum produto foi mais transformado pela IA do que a Pesquisa. As nossas vistas gerais de IA (IA Overviews) chegam agora a mil milhões de pessoas e permitem que façam tipos de perguntas totalmente novas, tornando-se rapidamente num dos nossos recursos de pesquisa mais populares de todos os tempos. Como próximo passo, estamos a trazer os recursos avançados de raciocínio do Gemini 2.0 para o AI Overviews para responder a tópicos mais complexos e a questões de várias etapas, incluindo equações matemáticas avançadas, consultas multimodais e programação. Começámos os testes limitados esta semana e iremos lançá-los de forma mais ampla no início do ano que vem. E vamos continuar a levar o AI Overview a mais países e idiomas ao longo do próximo ano.
Os avanços 2.0 são sustentados por investimentos de uma década na nossa abordagem diferenciada de full-stack para inovação em IA. Ele baseia-se em hardware personalizado como o Trillium, as nossas TPUs de sexta geração. As TPUs impulsionaram 100% do treino e da inferência do Gemini 2.0, e hoje o Trillium está disponível para os clientes para que também possam desenvolver com ele.
Se o Gemini 1.0 era sobre organizar e compreender informações, o Gemini 2.0 é sobre torná-las muito mais úteis. Mal posso esperar para ver o que esta próxima era nos vai trazer.
-Sundar
No ano passado, continuamos a fazer um progresso incrível na inteligência artificial. Hoje, estamos a disponibilizar o primeiro modelo da família de modelos Gemini 2.0: uma versão experimental do Gemini 2.0 Flash. É o nosso modelo de trabalho com baixa latência e desempenho melhorado na vanguarda da nossa tecnologia, em escala.
Também estamos a partilhar as fronteiras da nossa investigação de agentes ao apresentar protótipos habilitados pelos recursos multimodais nativos do Gemini 2.0.
Gemini 2.0 Flash
O Gemini 2.0 Flash baseia-se no sucesso do 1.5 Flash, o nosso modelo mais popular até agora para programadores, com desempenho melhorado e tempos de resposta igualmente rápidos. Notavelmente, o 2.0 Flash supera até mesmo o 1.5 Pro em benchmarks importantes, com o dobro da velocidade. O 2.0 Flash também vem com novos recursos. Além de oferecer suporte a entradas multimodais, como imagens, vídeo e áudio, o Flash 2.0 agora oferece suporte a saídas multimodais, como imagens geradas nativamente misturadas com texto e áudio multilíngue de texto para fala (TTS) direcionável. Ele também pode chamar nativamente ferramentas como a Pesquisa Google, execução de código e funções definidas por um utilizador terceiro.
O nosso objetivo é colocar os nossos modelos nas mãos das pessoas com segurança e rapidez. No mês passado, partilhámos versões iniciais e experimentais do Gemini 2.0, e recebemos ótimos comentários dos programadores.
O Gemini 2.0 Flash já está disponível como um modelo experimental para programadores através da API Gemini no Google AI Studio e Vertex AI, com entrada multimodal, saída de texto e conversão de texto em fala e geração de imagens nativas disponíveis para parceiros com acesso antecipado. A disponibilidade geral será em janeiro, juntamente com mais tamanhos do modelo.
Para ajudar os programadores a criar aplicações dinâmicas e interativas, também estamos a lançar uma nova API Multimodal Live que tem entrada de áudio e streaming de vídeo em tempo real e a capacidade de usar várias ferramentas combinadas. Mais informações sobre o Flash 2.0 e a Multimodal Live API podem ser encontradas no nosso blog para programadores.
Gemini 2.0 disponível na aplicação Gemini, o nosso assistente de IA
Também a partir de hoje, os utilizadores do Gemini em todo o mundo podem aceder a uma versão otimizada para chat do Flash Experimental 2.0 selecionando-a no menu suspenso de modelos nas versões desktop e web mobile, e ela estará disponível em breve na aplicação móvel Gemini. Com este novo modelo, os utilizadores podem experimentar um assistente Gemini ainda mais útil.
No início do ano que vem, expandiremos o Gemini 2.0 para mais produtos da Google.
Desbloquear experiências de agente com Gemini 2.0
Os recursos de ação da interface de utilizador nativa do Gemini 2.0 Flash, juntamente com outras melhorias, como raciocínio multimodal, compreensão de contexto longo, acompanhamento e planeamento de instruções complexas, chamada de função composicional, uso de ferramentas nativas e latência melhorada, trabalham em conjunto para permitir uma nova classe de experiências de agente.
A aplicação prática de agentes de IA é uma área de investigação cheia de possibilidades interessantes. Estamos a explorar esta nova fronteira com uma série de protótipos que podem ajudar as pessoas a realizar tarefas e fazer as coisas acontecerem. Isto inclui uma atualização do Projeto Astra, nosso protótipo de investigação que explora as capacidades futuras de um assistente de IA universal; o novo Projeto Mariner, que explora o futuro da interação entre humanos e agentes, a começar com o seu navegador de internet; e o Jules, um agente de código com tecnologia de IA que pode ajudar os programadores.
Ainda estamos nos estágios iniciais de desenvolvimento, mas estamos animados para ver como grupos de testes confiáveis usarão estes novos recursos e quais lições podemos aprender para que possamos torná-los mais amplamente disponíveis em produtos no futuro.
Projeto Astra: agentes a usar compreensão multimodal no mundo real
Desde que apresentámos o Projeto Astra no I/O, temos aprendido com grupos de testes confiáveis que o utilizam em telefones Android. O feedback valioso deles ajudou-nos a entender melhor como um assistente de IA universal poderia funcionar na prática, incluindo implicações para segurança e ética. As melhorias na versão mais recente criada com o Gemini 2.0 incluem:
Estamos a trabalhar para levar estes tipos de recursos aos produtos da Google, como a aplicação Gemini, o nosso assistente de IA e a outros formatos, como óculos. E estamos a começar a expandir o nosso programa de testes confiáveis a mais pessoas, incluindo um pequeno grupo que, em breve, irá começar a testar o Projeto Astra em protótipos de óculos.
Projeto Mariner: agentes que podem ajudá-lo a realizar tarefas complexas
O Projeto Mariner é um protótipo de investigação inicial criado com o Gemini 2.0 que explora o futuro da interação entre humanos e agentes, a começar pelo seu navegador de internet. Como um protótipo de investigação, ele é capaz de entender e raciocinar sobre informações no ecrã do seu navegador, incluindo pixels e elementos da web, como texto, código, imagens e formulários, e que usa depois essas informações através de uma extensão experimental do Chrome para concluir tarefas para si.
Quando avaliado no benchmark WebVoyager, que testa o desempenho do agente em tarefas web reais de ponta a ponta, o Projeto Mariner alcançou um resultado de última geração de 83,5% a trabalhar como uma configuração de agente único.
Ainda é cedo, mas o Projeto Mariner mostra que está a tornar-se tecnicamente possível navegar num navegador, embora nem sempre seja preciso e é lento a concluir tarefas hoje em dia, isso irá melhorar rapidamente com o tempo.
Para construir isto com segurança e responsabilidade, estamos a realizar investigações ativas sobre novos tipos de riscos e mitigações, ao mesmo tempo que mantemos os humanos no processo. Por exemplo, o Project Mariner só pode digitar, rolar ou clicar no separador ativo do seu navegador e pede aos utilizadores uma confirmação final antes de realizar certas ações confidenciais, como comprar algo.
Grupos de teste confiáveis estão a começar, agora, a testar o Projeto Mariner com uma extensão experimental do Chrome, e estamos a iniciar, em paralelo, conversas com o ecossistema da web.
Jules: agentes para programadores
Depois, estamos a explorar como os agentes de IA podem ajudar os programadores com o Jules — um agente de código experimental com tecnologia de IA que se integra diretamente num fluxo de trabalho do GitHub. Ele pode resolver um problema, desenvolver um plano e executá-lo, tudo sob a direção e supervisão de um programador. Este esforço faz parte do nosso objetivo de longo prazo de criar agentes de IA que sejam úteis em todos os domínios, incluindo programação.
Mais informações sobre esta experiência em curso podem ser encontradas no nosso post publicado no blog para programadores.
Agentes em jogos e outros domínios
Estamos a colaborar com programadores de jogos líderes, como a Supercell, para explorar como estes agentes funcionam, a testar a sua capacidade de interpretar regras e desafios numa ampla gama de jogos, desde títulos de estratégia como "Clash of Clans" até simuladores como "Hay Day".
Além de atuarem como companheiros virtuais de jogos, estes agentes podem até mesmo aceder à Pesquisa Google para ligá-lo ao vasto conhecimento sobre jogos na web.
Além de explorar capacidades de agentes no mundo virtual, estamos a experimentar agentes que podem ajudar no mundo físico com a aplicação de recursos de raciocínio espacial do Gemini 2.0 à robótica. Embora ainda seja cedo, estamos animados com o potencial dos agentes que podem ajudar no ambiente físico.
Pode saber mais sobre estes protótipos de pesquisa e experências em labs.google.
Construir de forma responsável na era dos agentes
O Gemini 2.0 Flash e nossos protótipos de investigação permitem- nos testar e interagir com novos recursos na vanguarda da pesquisa de IA que eventualmente tornarão os produtos da Google mais úteis.
À medida que desenvolvemos estas novas tecnologias, reconhecemos a responsabilidade que elas acarretam e as muitas questões que os agentes de IA levantam sobre segurança e proteção. É por isso que estamos a adotar uma abordagem exploratória e gradual para o desenvolvimento, a realizar investigações em vários protótipos, com implementação repetida de treino de segurança, a trabalhar com grupos de teste de confiança e especialistas externos e a realizar avaliações de risco abrangentes, além de avaliações de segurança e garantia.
Por exemplo:
Acreditamos firmemente que a única maneira de desenvolver IA é ser responsável desde o início e continuaremos a priorizar tornar a segurança e a responsabilidade num elemento-chave do nosso processo de desenvolvimento de modelos à medida que avançamos os nossos modelos e agentes.
Gemini 2.0, agentes de IA e muito mais
Os lançamentos de hoje marcam um novo capítulo para o nosso modelo Gemini. Com o lançamento do Gemini 2.0 Flash e a série de protótipos de investigação para explorar as possibilidades de agentes, alcançámos um marco emocionante na era Gemini. E estamos ansiosos para continuar a explorar com segurança todas as novas possibilidades ao nosso alcance enquanto construímos em direção à AGI.
Publicado por Por Demis Hassabis, CEO do Google DeepMind e Koray Kavukcuoglu, CTO do Google DeepMind em nome da equipe Gemini