Google Portugal Blog: Apresentando Gemini 2.0: nosso novo modelo de IA para a era dos agentes

Portugal Blog

Notícias sobre produtos, iniciativas, lançamentos e projetos da Google Portugal

Apresentando Gemini 2.0: nosso novo modelo de IA para a era dos agentes

quarta-feira, 11 de dezembro de 2024

Uma nota do CEO da Google e da Alphabet, Sundar Pichai:A informação está no centro do progresso humano. É por isso que nos concentramos há mais de 26 anos na nossa missão de organizar as informações do mundo e torná-las acessíveis e úteis. E é por isso que continuamos a expandir as fronteiras da IA para organizar estas informações em todas as entradas e torná-las acessíveis através de qualquer saída, para que possam ser realmente úteis para si.Esta era a nossa visão quando lançámos o Gemini 1.0 no passado mês de dezembro. O primeiro modelo criado para ser nativamente multimodal, o Gemini 1.0 e 1.5, impulsionou grandes avanços com multimodalidade e contexto longo para entender informações em texto, vídeo, imagens, áudio e código, e processar muito mais delas.Agora, milhões de programadores estão a construir com Gemini. E está a ajudar-nos a reinventar todos os nossos produtos — incluindo todos os 7 com 2 mil milhões de utilizadores — e a criar novos. O NotebookLM é um ótimo exemplo do que a multimodalidade e o contexto longo podem possibilitar às pessoas, e é por isso que é adorado por tantos.No último ano, investimos no desenvolvimento de modelos mais agentivos, o que significa que eles podem entender mais sobre o mundo ao seu redor, pensar vários passos à frente e agir em seu nome, com a sua supervisão.Hoje estamos entusiasmados por lançar a nossa próxima era de modelos criados para esta nova era de agentes: apresentamos o Gemini 2.0, o nosso modelo mais capaz até agora. Com novos avanços na multimodalidade — como saída de imagem e áudio nativa – e uso de ferramentas nativas, tal irá permitir construir novos agentes de IA que nos vai aproximar da nossa visão de um assistente universal.Estamos, hoje, a colocar a versão 2.0 nas mãos de programadores e grupos de testes de confiança. E estamos a trabalhar rapidamente para incluí-lo nos nossos produtos, a começar pelo Gemini e Pesquisa. A partir de hoje, o nosso modelo experimental Gemini 2.0 Flash estará disponível a todos os utilizadores do Gemini. Também estamos a lançar um novo recurso chamado Deep Research, que usa raciocínio avançado e recursos de contexto longo para atuar como um assistente de investigação, com a exploração de tópicos complexos e a compilação de relatórios para si. Já está disponível no Gemini Advanced.Nenhum produto foi mais transformado pela IA do que a Pesquisa. As nossas vistas gerais de IA (IA Overviews) chegam agora a mil milhões de pessoas e permitem que façam tipos de perguntas totalmente novas, tornando-se rapidamente num dos nossos recursos de pesquisa mais populares de todos os tempos. Como próximo passo, estamos a trazer os recursos avançados de raciocínio do Gemini 2.0 para o AI Overviews para responder a tópicos mais complexos e a questões de várias etapas, incluindo equações matemáticas avançadas, consultas multimodais e programação. Começámos os testes limitados esta semana e iremos lançá-los de forma mais ampla no início do ano que vem. E vamos continuar a levar o AI Overview a mais países e idiomas ao longo do próximo ano.Os avanços 2.0 são sustentados por investimentos de uma década na nossa abordagem diferenciada de full-stack para inovação em IA. Ele baseia-se em hardware personalizado como o Trillium, as nossas TPUs de sexta geração. As TPUs impulsionaram 100% do treino e da inferência do Gemini 2.0, e hoje o Trillium está disponível para os clientes para que também possam desenvolver com ele.Se o Gemini 1.0 era sobre organizar e compreender informações, o Gemini 2.0 é sobre torná-las muito mais úteis. Mal posso esperar para ver o que esta próxima era nos vai trazer.-SundarApresentando Gemini 2.0: nosso novo modelo de IA para a era dos agentes
No ano passado, continuamos a fazer um progresso incrível na inteligência artificial. Hoje, estamos a disponibilizar o primeiro modelo da família de modelos Gemini 2.0: uma versão experimental do Gemini 2.0 Flash. É o nosso modelo de trabalho com baixa latência e desempenho melhorado na vanguarda da nossa tecnologia, em escala. Também estamos a partilhar as fronteiras da nossa investigação de agentes ao apresentar protótipos habilitados pelos recursos multimodais nativos do Gemini 2.0.Gemini 2.0 FlashO Gemini 2.0 Flash baseia-se no sucesso do 1.5 Flash, o nosso modelo mais popular até agora para programadores, com desempenho melhorado e tempos de resposta igualmente rápidos. Notavelmente, o 2.0 Flash supera até mesmo o 1.5 Pro em benchmarks importantes, com o dobro da velocidade. O 2.0 Flash também vem com novos recursos. Além de oferecer suporte a entradas multimodais, como imagens, vídeo e áudio, o Flash 2.0 agora oferece suporte a saídas multimodais, como imagens geradas nativamente misturadas com texto e áudio multilíngue de texto para fala (TTS) direcionável. Ele também pode chamar nativamente ferramentas como a Pesquisa Google, execução de código e funções definidas por um utilizador terceiro.
O nosso objetivo é colocar os nossos modelos nas mãos das pessoas com segurança e rapidez. No mês passado, partilhámos versões iniciais e experimentais do Gemini 2.0, e recebemos ótimos comentários dos programadores. O Gemini 2.0 Flash já está disponível como um modelo experimental para programadores através da API Gemini no Google AI Studio e Vertex AI, com entrada multimodal, saída de texto e conversão de texto em fala e geração de imagens nativas disponíveis para parceiros com acesso antecipado. A disponibilidade geral será em janeiro, juntamente com mais tamanhos do modelo.Para ajudar os programadores a criar aplicações dinâmicas e interativas, também estamos a lançar uma nova API Multimodal Live que tem entrada de áudio e streaming de vídeo em tempo real e a capacidade de usar várias ferramentas combinadas. Mais informações sobre o Flash 2.0 e a Multimodal Live API podem ser encontradas no nosso blog para programadores.Gemini 2.0 disponível na aplicação Gemini, o nosso assistente de IATambém a partir de hoje, os utilizadores do Gemini em todo o mundo podem aceder a uma versão otimizada para chat do Flash Experimental 2.0 selecionando-a no menu suspenso de modelos nas versões desktop e web mobile, e ela estará disponível em breve na aplicação móvel Gemini. Com este novo modelo, os utilizadores podem experimentar um assistente Gemini ainda mais útil. No início do ano que vem, expandiremos o Gemini 2.0 para mais produtos da Google. Desbloquear experiências de agente com Gemini 2.0 Os recursos de ação da interface de utilizador nativa do Gemini 2.0 Flash, juntamente com outras melhorias, como raciocínio multimodal, compreensão de contexto longo, acompanhamento e planeamento de instruções complexas, chamada de função composicional, uso de ferramentas nativas e latência melhorada, trabalham em conjunto para permitir uma nova classe de experiências de agente. A aplicação prática de agentes de IA é uma área de investigação cheia de possibilidades interessantes. Estamos a explorar esta nova fronteira com uma série de protótipos que podem ajudar as pessoas a realizar tarefas e fazer as coisas acontecerem. Isto inclui uma atualização do Projeto Astra, nosso protótipo de investigação que explora as capacidades futuras de um assistente de IA universal; o novo Projeto Mariner, que explora o futuro da interação entre humanos e agentes, a começar com o seu navegador de internet; e o Jules, um agente de código com tecnologia de IA que pode ajudar os programadores.Ainda estamos nos estágios iniciais de desenvolvimento, mas estamos animados para ver como grupos de testes confiáveis usarão estes novos recursos e quais lições podemos aprender para que possamos torná-los mais amplamente disponíveis em produtos no futuro.Projeto Astra: agentes a usar compreensão multimodal no mundo realDesde que apresentámos o Projeto Astra no I/O, temos aprendido com grupos de testes confiáveis que o utilizam em telefones Android. O feedback valioso deles ajudou-nos a entender melhor como um assistente de IA universal poderia funcionar na prática, incluindo implicações para segurança e ética. As melhorias na versão mais recente criada com o Gemini 2.0 incluem:

Melhor diálogo: o Projeto Astra agora tem a capacidade de conversar em vários idiomas e em idiomas mistos, com melhor compreensão de sotaques e palavras incomuns.

Novo uso da ferramenta: com o Gemini 2.0, o Projeto Astra pode usar a Pesquisa Google, o Lens e o Maps, tornando-o mais útil como um assistente na sua vida cotidiana.

Melhor memória: Melhorámos a capacidade do Projeto Astra para se lembrar das coisas enquanto o utilizador mantém o controlo. Agora, ele tem até 10 minutos de memória em sessão e pode lembrar-se de mais conversas que teve com ele no passado, por isso é mais personalizado para si.

Latência melhorada: com novos recursos de streaming e compreensão de áudio nativa, o agente pode entender a linguagem com latência próxima à de uma conversa humana.

Estamos a trabalhar para levar estes tipos de recursos aos produtos da Google, como a aplicação Gemini, o nosso assistente de IA e a outros formatos, como óculos. E estamos a começar a expandir o nosso programa de testes confiáveis a mais pessoas, incluindo um pequeno grupo que, em breve, irá começar a testar o Projeto Astra em protótipos de óculos.
Projeto Mariner: agentes que podem ajudá-lo a realizar tarefas complexas O Projeto Mariner é um protótipo de investigação inicial criado com o Gemini 2.0 que explora o futuro da interação entre humanos e agentes, a começar pelo seu navegador de internet. Como um protótipo de investigação, ele é capaz de entender e raciocinar sobre informações no ecrã do seu navegador, incluindo pixels e elementos da web, como texto, código, imagens e formulários, e que usa depois essas informações através de uma extensão experimental do Chrome para concluir tarefas para si.Quando avaliado no benchmark WebVoyager, que testa o desempenho do agente em tarefas web reais de ponta a ponta, o Projeto Mariner alcançou um resultado de última geração de 83,5% a trabalhar como uma configuração de agente único. Ainda é cedo, mas o Projeto Mariner mostra que está a tornar-se tecnicamente possível navegar num navegador, embora nem sempre seja preciso e é lento a concluir tarefas hoje em dia, isso irá melhorar rapidamente com o tempo.Para construir isto com segurança e responsabilidade, estamos a realizar investigações ativas sobre novos tipos de riscos e mitigações, ao mesmo tempo que mantemos os humanos no processo. Por exemplo, o Project Mariner só pode digitar, rolar ou clicar no separador ativo do seu navegador e pede aos utilizadores uma confirmação final antes de realizar certas ações confidenciais, como comprar algo.Grupos de teste confiáveis estão a começar, agora, a testar o Projeto Mariner com uma extensão experimental do Chrome, e estamos a iniciar, em paralelo, conversas com o ecossistema da web.Jules: agentes para programadoresDepois, estamos a explorar como os agentes de IA podem ajudar os programadores com o Jules — um agente de código experimental com tecnologia de IA que se integra diretamente num fluxo de trabalho do GitHub. Ele pode resolver um problema, desenvolver um plano e executá-lo, tudo sob a direção e supervisão de um programador. Este esforço faz parte do nosso objetivo de longo prazo de criar agentes de IA que sejam úteis em todos os domínios, incluindo programação.Mais informações sobre esta experiência em curso podem ser encontradas no nosso post publicado no blog para programadores.Agentes em jogos e outros domíniosA Google DeepMind tem um longo histórico de uso de jogos para ajudar modelos de IA a tornarem-se melhores a seguir regras, planeamento e lógica. Na semana passada, por exemplo, apresentámos o Genie 2, nosso modelo de IA que pode criar uma variedade infinita de mundos 3D jogáveis — tudo a partir de uma única imagem. Com base nesta tradição, criámos agentes através do Gemini 2.0 que podem ajudá-lo a navegar no mundo virtual dos videojogos. Ele pode raciocinar sobre o jogo com base apenas na ação no ecrã e oferecer sugestões sobre o que fazer a seguir com conversas em tempo real.Estamos a colaborar com programadores de jogos líderes, como a Supercell, para explorar como estes agentes funcionam, a testar a sua capacidade de interpretar regras e desafios numa ampla gama de jogos, desde títulos de estratégia como "Clash of Clans" até simuladores como "Hay Day".Além de atuarem como companheiros virtuais de jogos, estes agentes podem até mesmo aceder à Pesquisa Google para ligá-lo ao vasto conhecimento sobre jogos na web.Além de explorar capacidades de agentes no mundo virtual, estamos a experimentar agentes que podem ajudar no mundo físico com a aplicação de recursos de raciocínio espacial do Gemini 2.0 à robótica. Embora ainda seja cedo, estamos animados com o potencial dos agentes que podem ajudar no ambiente físico. Pode saber mais sobre estes protótipos de pesquisa e experências em labs.google.Construir de forma responsável na era dos agentesO Gemini 2.0 Flash e nossos protótipos de investigação permitem- nos testar e interagir com novos recursos na vanguarda da pesquisa de IA que eventualmente tornarão os produtos da Google mais úteis.À medida que desenvolvemos estas novas tecnologias, reconhecemos a responsabilidade que elas acarretam e as muitas questões que os agentes de IA levantam sobre segurança e proteção. É por isso que estamos a adotar uma abordagem exploratória e gradual para o desenvolvimento, a realizar investigações em vários protótipos, com implementação repetida de treino de segurança, a trabalhar com grupos de teste de confiança e especialistas externos e a realizar avaliações de risco abrangentes, além de avaliações de segurança e garantia.Por exemplo:

Como parte do nosso processo de segurança, trabalhámos com nosso Comité de Responsabilidade e Segurança (RSC), o nosso antigo grupo de revisão interna, para identificar e entender riscos potenciais.

Os recursos de raciocínio do Gemini 2.0 permitiram grandes avanços na nossa abordagem de equipa vermelha assistida por IA, incluindo a capacidade de ir além da simples detecção de riscos para agora gerar automaticamente avaliações e dados de treino para os mitigar. Isto significa que podemos otimizar o modelo de forma mais eficiente para segurança em escala.

À medida que a multimodalidade do Gemini 2.0 aumenta a complexidade dos resultados potenciais, continuaremos a avaliar e a treinar a imagem do modelo e a saída de áudio para ajudar a melhor a segurança.

Com o Projeto Astra, estamos a explorar possíveis mitigações contra a partilha não intencional de informação sensível dos utilizadores com o agente, e já criámos controlos de privacidade que facilitam a exclusão de sessões pelos utilizadores. Também continuamos a investigar maneiras de garantir que os agentes de IA atuem como fontes confiáveis de informação e não realizem ações não intencionais em seu nome.

Com o Projeto Mariner, estamos a trabalhar para garantir que o modelo aprenda a priorizar as instruções do utilizador em vez de tentativas de injeção de prompts por terceiros, para que possa identificar instruções potencialmente maliciosas de fontes externas e evitar o uso indevido. Isto evita que os utilizadores sejam expostos a fraudes e tentativas de phishing por meio de coisas, como instruções maliciosas ocultas em e-mails, documentos ou sites.

Acreditamos firmemente que a única maneira de desenvolver IA é ser responsável desde o início e continuaremos a priorizar tornar a segurança e a responsabilidade num elemento-chave do nosso processo de desenvolvimento de modelos à medida que avançamos os nossos modelos e agentes.Gemini 2.0, agentes de IA e muito maisOs lançamentos de hoje marcam um novo capítulo para o nosso modelo Gemini. Com o lançamento do Gemini 2.0 Flash e a série de protótipos de investigação para explorar as possibilidades de agentes, alcançámos um marco emocionante na era Gemini. E estamos ansiosos para continuar a explorar com segurança todas as novas possibilidades ao nosso alcance enquanto construímos em direção à AGI.Publicado por Por Demis Hassabis, CEO do Google DeepMind e Koray Kavukcuoglu, CTO do Google DeepMind em nome da equipe Gemini

Google

Etiquetas: Gemini

Feed

Etiquetas

#IamRemarkable
Ads
Ads Privacy
ads safety report
AI
Android
Android Auto
Ano em Pesquisa
App Gemini
ar
AR/VR
Assistente
Assistente Google
Atelier Digital
Bard
Cannes
centro transparencia anúncios
Chrome
Chromebook
Cibersegurança
Ciência
Comunicados
Conta Google
COVID-19
Demand Gen
desinformação
Digital News Initiative
Direitos de Autor
DNI
Ensine de Casa
factcheck
Fake news
Flood Forecasting
G Suite
G25
Gemini
GNI
Google
Google Ad Manager
Google Ads
Google Arts & Culture
Google Cloud
Google Duo
Google Earth
Google for Education
Google for Nonprofits
Google for Startups
Google I/O
Google I/O; programadores
Google Impact Challenge
Google Maps
Google Marketing Live
Google Marketing Platform
Google Meet
Google News
Google News Initiative
Google News Showcase
Google Pay
Google Play
Google Podcasts
Google Tradutor
Google Workspace
Google.org
grow with google
Immersive View
Impacto Económico
Inteligência Artificial
Jornalismo
Marketing
Misinformation
NotebookLM
Notícias
PalM2
Pequenas empresas
Pesquisa
Pixel
Pixel Buds
Pixel Watch
Podcasts
Política Pública
Pride
privacidade diferencial
privacidade e segurança
Privacy
Privacy Sandbox
Produtos - travel; Ads & Commerce
Quantum
Regulações
Safe & Security
Saúde
Shorts
Stadia
Street View
Sustentabilidade
Teach from Home
YouTube

Arquivo

2025
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.
- jan.

2024
- dez.
- nov.
- out.
- set.
- ago.
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.
- jan.

2023
- dez.
- nov.
- out.
- set.
- ago.
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.

2022
- nov.
- out.
- set.
- ago.
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.
- jan.

2021
- dez.
- nov.
- out.
- set.
- ago.
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.
- jan.

2020
- dez.
- nov.
- out.
- set.
- ago.
- jul.
- jun.
- mai.
- abr.
- mar.
- fev.
- jan.

2019
- dez.
- nov.

Google
Privacy
Terms