Em dezembro passado, lançámos o nosso primeiro modelo multimodal nativo Gemini 1.0 em três tamanhos: Ultra, Pro e Nano. Meses mais tarde, lançámos o 1.5 Pro, com desempenho melhorado e a janela de contexto longa pioneira de 1 milhão de tokens.
Programadores e clientes empresariais usaram o 1.5 Pro de formas incríveis e consideram a sua janela de contexto longa, as suas capacidades de raciocínio multimodal e o seu impressionante desempenho global incrivelmente útil.
Sabemos, com base no feedback dos utilizadores, que algumas aplicações necessitam de uma latência mais baixa e de um custo mais baixo para cumprir. Isto inspirou-nos a continuar a inovar e estamos a introduzir o Gemini 1.5 Flash, um modelo que é mais leve do que o 1.5 Pro e que foi desenhado para ser rápido e eficiente, para servir em escala.
O 1.5 Pro e o 1.5 Flash estão disponíveis em public preview com uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de contexto de 2 milhões de tokens está disponível para programadores que usem a API e Clientes Google Cloud através de lista de espera.
Estamos também a anunciar atualizações na nossa família de modelos Gemini e a anunciar a nossa nova geração de modelos abertos, Gemma 2, e a partilhar o progresso no futuro dos assistentes de IA com o Project Astra.
Notícias da família de modelos Gemini
Novo 1.5 Flash, otimizado para velocidade e eficiência
O 1.5 Flash é a mais recente adição à família de modelos Gemini e o modelo Gemini mais rápido servido na API. Está otimizado para tarefas de alto volume e alta frequência em escala, tem uma melhor relação preço/eficiência para cumprir e apresenta a nossa janela de contexto pioneira.
Apesar de ser um modelo mais leve do que o 1.5 Pro, é altamente capaz em raciocínio multimodal em vastas quantidades de informação e oferece uma qualidade impressionante para o seu tamanho.
O 1.5 Flash é excelente em resumos, aplicações de mensagens, legendas de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isto ocorre porque ele foi treinado pelo 1.5 Pro através de um processo chamado “destilação”, onde o conhecimento e competências essenciais de um modelo maior são transferidos para um modelo menor e mais eficiente.
Mais informações sobre o 1.5 Flash no nosso relatório técnico atualizado do Gemini 1.5 e na página de tecnologia do Gemini e saiba mais sobre a disponibilidade e os preços do 1.5 Flash. Vamos partilhar, em breve, mais detalhes numa atualização do relatório técnico do Gemini 1.5.
Melhoras significativas no 1.5 Pro
Nos últimos meses, melhorámos significativamente o 1.5 Pro, o nosso melhor modelo para escala numa vasta série de tarefas. Para além de alargar a sua janela de contexto para dois milhões de tokens, melhorámos a geração de código, o raciocínio lógico e o planeamento, a conversação multiturno e a compreensão de áudio e imagens. Vemos melhorias significativas no benchmarks internas e públicos em cada uma destas tarefas.
O 1.5 Pro pode seguir instruções cada vez mais complexas e diferenciadas, incluindo instruções que especificam o comportamento ao nível do produto, como função, formato e estilo. Melhorámos o controlo sobre as respostas do modelo para casos de utilização específicos, como a criação de personas e estilo de resposta de um agente de chat ou automatização de fluxos de trabalho através de múltiplas funções de chamadas. E permitimos aos utilizadores adaptar o comportamento do modelo ao definir instruções de sistema.
Também adicionámos compreensão de áudio na API Gemini e no AI Studio, e por isso, o 1.5 Pro pode agora desenvolver raciocínios entre imagem e áudio para vídeos carregados no AI Studio. E agora estamos a integrar o 1.5 Pro em produtos Google, incluindo o Gemini Advanced e aplicações Workspace.
Mais informações sobre o 1.5 Pro na Página de Tecnologia do Gemini. Mais detalhes estarão disponíveis em breve no nosso relatório técnico atualizado do Gemini 1.5.
Gemini Nano compreende entradas multimodais
O Gemini Nano está a expandir-se para além das entradas apenas de texto para incluir também imagens. A começar com o Pixel, as aplicações que usam o Gemini Nano com Multimodalidade serão capazes de compreender o mundo da mesma forma que as pessoas o fazem – não apenas através da entrada de texto, mas também através da visão, do som e do idioma falado.
Mais informações em Gemini 1.0 Nano no Android.
Nova geração de modelos abertos
Hoje estamos a partilhar uma série de atualizações ao Gemma, a nossa família de modelos abertos desenvolvidos com a mesma tecnologia e investigação usados para criar os modelos Gemini.
Estamos a apresentar Gemma 2, a nossa próxima geração de modelos abertos para inovação responsável em IA. O Gemma 2 tem uma nova arquitetura projetada para desempenho e eficiência inovadores e estará disponível em novos tamanhos.
A família Gemma também está a expandir-se com PaliGemma, o nosso primeiro modelo de linguagem de visão inspirado no PaLI-3. E atualizámos o nosso kit de ferramentas de IA generativa responsável com LLM Comparator para avaliar a qualidade das respostas do modelo.
Mais informações no blog para programadores.
Progresso no desenvolvimento de agentes de IA universais
Como parte da missão do Google DeepMind de construir IA de forma responsável para beneficiar a humanidade, sempre quisemos desenvolver agentes de IA universais que pudessem ser úteis na vida quotidiana. É por isso que hoje estamos a partilhar o nosso progresso na construção do futuro dos assistentes de IA com o Projeto Astra (agente responsivo avançado que vê e fala).
Para ser verdadeiramente útil, um agente precisa de compreender e responder ao mundo complexo e dinâmico tal como as pessoas fazem – absorver e lembrar o que vê e ouve para compreender o contexto e agir. Ele também precisa ser proactivo, ensinável e pessoal de modo que os utilizadores possam conversar com ele naturalmente e sem atrasos.
Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem compreender informações multimodais, reduzir o tempo de resposta a algo conversacional é um desafio difícil de engenharia. Nos últimos anos, temos trabalhado para melhorar a forma como os nossos modelos percebem, raciocinam e conversam para tornar o ritmo e a qualidade da interação mais naturais.
Estes agentes foram construídos a partir do modelo Gemini e de outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeo, combinando a entrada de vídeo e voz numa linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.
Ao aproveitar os nossos principais modelos de voz, também melhorámos a forma como eles soam, proporcionando aos agentes uma gama mais ampla de entonações. Estes agentes podem compreender melhor o contexto em que estão a ser usados e a responder rapidamente na conversa.
Com tecnologia como esta, é fácil antever um futuro onde as pessoas podem ter um assistente de IA especialistas ao seu lado através de telefone ou óculos. E algumas destas capacidades irão chegar aos produtos da Google, como a aplicação Gemini e experiência web, ainda este ano.
Exploração contínua
Fizemos um progresso incrível até agora com a nossa família de modelos Gemini e estamos sempre a esforçar-nos para avançar ainda mais no que há de mais moderno. Ao investir numa linha de produção incansável de inovação, somos capazes de explorar novas ideias de vanguarda, ao mesmo tempo que se abre a possibilidade de novos e interessantes casos de uso do Gemini.
Mais informações sobre Gemini e as suas capacidades.
Publicado por Demis Hassabis, CEO da Google DeepMind, em nome da equipa Gemini