Cada mudança tecnológica é uma oportunidade para promover a descoberta científica, acelerar o progresso humano e melhorar vidas. Acredito que a transição que estamos a ver agora com a IA será a mais profunda das nossas vidas, muito maior do que a mudança para dispositivos móveis ou para a web. A IA tem o potencial de criar oportunidades – desde as quotidianas até às extraordinárias – para as pessoas de todo o mundo. Irá trazer novas ondas de inovação e progresso económico e vai impulsionar o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca antes vista.
É isto que me entusiasma: a oportunidade de tornar a IA útil para todos, em qualquer lugar do mundo.
Após quase oito anos da nossa jornada como uma empresa que prioriza a IA, o ritmo do progresso está apenas a acelerar: milhões de pessoas estão agora a usar a IA generativa nos nossos produtos para fazerem coisas que não conseguiam há um ano, desde encontrar respostas às questões mais complexas, até às questões sobre o uso de novas ferramentas para colaborar e criar. Ao mesmo tempo, os programadores estão a usar os nossos modelos e infraestruturas para criar novas aplicações de IA generativa, e as startups e as empresas de todo o mundo estão a crescer com as nossas ferramentas de IA.
Este é um momento incrível e, no entanto, estamos apenas a começar a “arranhar” a superfície daquilo que é possível.
Estamos a abordar este trabalho com ousadia e responsabilidade. Isto significa sermos ambiciosos na nossa investigação e procurarmos capacidades que irão trazer enormes benefícios às pessoas e à sociedade, ao mesmo tempo que construímos salvaguardas e trabalhamos em colaboração com governos e especialistas para enfrentar os riscos à medida que a IA se torna mais capaz. E vamos continuar a investir nas melhores ferramentas, modelos fundacionais e infraestrutura e a trazê-los para os nossos produtos e para outros, guiados pelos nossos princípios de IA.
Agora, estamos a dar o próximo passo na nossa jornada com o Gemini, o nosso modelo mais capaz e geral até agora, com um desempenho de última geração em muitos benchmarks líderes. A nossa primeira versão, Gemini 1.0, é otimizada para diferentes tamanhos: Ultra, Pro e Nano. Estes são os primeiros modelos da era Gemini e a primeira concretização da visão que tínhamos quando formamos a Google DeepMind no início deste ano. Esta nova era de modelos representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa. Estou genuinamente excitado com o que está por vir e com as oportunidades que o Gemini irá proporcionar às pessoas em todos os locais.
A IA tem sido o foco do trabalho da minha vida bem como de muitos dos meus colegas de investigação. Desde que programei a IA para jogos de computador quando era adolescente, e ao longo dos meus anos como investigador de neurociências a procurar entender o funcionamento do cérebro, sempre acreditei que, se pudéssemos construir máquinas mais inteligentes, poderíamos aproveitá-las em benefício da humanidade de maneiras incríveis.
Esta promessa de um mundo capacitado, de forma responsável, pela IA continua a impulsionar o nosso trabalho na Google DeepMind. Há muito tempo que queríamos construir uma nova geração de modelos de IA, inspirados na forma como as pessoas compreendem e interagem com o mundo. A IA iria parecer menos um software inteligente e ainda mais útil e intuitiva – um colaborador ou ajudante especializado.
Gemini é o resultado dos esforços colaborativos em grande escala entre as equipas da Google, incluindo os nossos colegas do Google Research. Gemini foi construído de raiz para ser multimodal, o que significa que pode generalizar e compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código.
Gemini é também o nosso modelo mais flexível até agora — capaz de funcionar com eficiência em tudo, desde data centers até dispositivos móveis. As suas capacidades de última geração irão melhorar significativamente a forma como os programadores e clientes empresariais desenvolvem e escalam com a IA.
Otimizamos o Gemini 1.0, a nossa primeira versão do modelo, para três tamanhos diferentes:
Gemini Ultra - o nosso modelo maior e mais capaz para tarefas altamente complexas.
Gemini Pro — o nosso melhor modelo para escalar uma gama alargada de tarefas.
Gemini Nano — o nosso modelo mais eficiente para tarefas no dispositivo.
Desempenho de última geração
Testamos rigorosamente os nossos modelos Gemini e avaliamos o seu desempenho numa variedade ampla de tarefas que abrangem texto, visão, áudio, programação e muito mais.
Da compreensão natural da imagem ao raciocínio matemático e à compreensão de áudio e vídeo, o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks utilizados amplamente na investigação e no desenvolvimento no Grandes Modelos de Linguagem (LLM).
Com uma pontuação de 90,04%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa), que usa uma combinação de 57 disciplinas como a matemática, física, história, direito, medicina e ética para testar o conhecimento do mundo e a capacidade de resolução de problemas. A nossa nova abordagem de benchmark para MMLU permite que o Gemini utilize os seus recursos de raciocínio para pensar com mais cuidado antes de responder a perguntas difíceis, levando a melhorias significativas em relação ao uso apenas da sua primeira impressão.
O Gemini Ultra também atinge uma pontuação de última geração de 59,4% no novo benchmark MMMU, que consiste em tarefas multimodais abrangendo diferentes domínios que exigem um raciocínio deliberado.
Com os benchmarks de imagem que testamos, o Gemini Ultra superou os modelos anteriores de última geração sem a ajuda de sistemas de reconhecimento de caracteres de objeto (OCR), que extraem texto a partir das imagens para um posterior processamento. Estes benchmarks destacam a multimodalidade nativa do Gemini e indicam os primeiros sinais das capacidades de raciocínio mais complexas de Gemini.
Mais detalhes no nosso relatório técnico Gemini.
Gemini supera o desempenho de última geração numa série de benchmarks multimodais.
Capacidades da próxima geração
Até agora, a abordagem padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar aproximadamente algumas destas funcionalidades. Às vezes, estes modelos podem ser bons na execução de certas tarefas, como descrever imagens, mas enfrentam problemas com raciocínios mais conceituais e complexos.
Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Depois, aperfeiçoá-lo com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isto ajuda o Gemini a compreender e a raciocinar perfeitamente sobre todos os tipos de informações desde o início, muito melhor do que os modelos multimodais existentes – e as suas capacidades são de última geração em quase todos os domínios.
Raciocínio sofisticado
As capacidades de raciocínio multimodal sofisticadas do Gemini 1.0 podem ajudar a compreender informações escritas e visuais complexas. Isto torna-o excepcionalmente hábil a descobrir conhecimento que pode ser difícil de detectar no meio de grandes quantidades de dados.
A sua capacidade notável de extrair conhecimento de centenas de milhar de documentos através da leitura, filtragem e compreensão de informações irá ajudar a proporcionar novos avanços a velocidades digitais em muitos campos, da ciência às finanças.
Compreender texto, imagens, áudio e muito mais
O Gemini 1.0 foi treinado para reconhecer e compreender textos, imagens, áudio e muito mais ao mesmo tempo, para compreender melhor informações diferenciadas e poder responder a perguntas relacionadas com tópicos complicados. É especialmente bom para explicar o raciocínio em assuntos complexos, como a matemática e a física.
Programação avançada
A nossa primeira versão do Gemini pode compreender, explicar e gerar código de programação de alta qualidade nas linguagens de programação mais populares do mundo, como Python, Java, C++ e Go. A sua capacidade de trabalhar em vários idiomas e raciocinar sobre informações complexas torna-o num dos principais modelos básicos de programação no mundo.
O Gemini Ultra destaca-se em vários benchmarks de codificação, incluindo o HumanEval, um importante benchmark padrão da indústria para avaliar o desempenho em tarefas de programação, e o Natural2Code, o nosso conjunto de dados interno, que usa fontes geradas pelo autor em vez de informações baseadas na web.
O Gemini também pode ser usado como motor para sistemas de programação mais avançados. Há dois anos apresentamos o AlphaCode, o primeiro sistema de geração de código de IA a atingir um nível competitivo em termos de desempenho em competições de programação.
Usando uma versão especializada do Gemini, criamos um sistema de geração de código mais avançado, o AlphaCode 2, que se destaca na resolução de problemas de programação competitivos que vão além da programação e envolvem matemática complexa e ciência de computação teórica.
Quando avaliado na mesma plataforma do AlphaCode original, o AlphaCode 2 apresenta melhorias enormes, resolvendo quase o dobro de problemas, e estimamos que o seu desempenho seja melhor do que 85% dos participantes da competição – acima dos quase 50% do AlphaCode. Quando os programadores colaboram com o AlphaCode2 definindo certas propriedades a serem seguidas pelas amostras de código, o desempenho dele é ainda melhor.
Estamos entusiasmados com o facto dos programadores usarem cada vez mais modelos de IA, altamente capazes, como as ferramentas colaborativas que podem ajudá-los a raciocinar sobre os problemas, propor designs de código e ajudar na implementação – para que possam lançar aplicações e projetar serviços melhores e com maior rapidez.
Veja mais detalhes no nosso relatório técnico AlphaCode 2.
Mais confiável, escalável e eficiente
Treinamos o Gemini 1.0 em escala na nossa infraestrutura otimizada para IA usando unidades de processamento tensor (TPUs) v4 e v5e projetadas internamente pela Google. E projetámo-lo para ser o nosso modelo mais confiável e escalável para treino e o mais eficiente.
Nas TPUs, o Gemini funciona significativamente mais rápido do que os modelos anteriores, mais pequenos e com menor capacidade. Estes aceleradores de IA personalizados estão no centro dos produtos da Google alimentados por IA que servem milhares de milhões de utilizadores como a Pesquisa, YouTube, Gmail, Google Maps, Google Play e Android. Eles também permitiram que as empresas em todo o mundo treinassem modelos de IA de grande escala e de uma forma económica.
Hoje, também estamos a anunciar o sistema TPU mais poderoso e escalável até o momento, o Cloud TPU v5p, projetado para treinar modelos de IA de ponta. Esta TPU de próxima geração irá acelerar o desenvolvimento do Gemini e ajudar os programadores e clientes empresariais a treinar modelos de IA generativos em grande escala e com mais rapidez, permitindo que novos produtos e capacidades cheguem mais rapidamente aos clientes.
Grupo de supercomputadores aceleradores de IA Cloud TPU v5p num data center da Google.
Construído com responsabilidade e segurança
Na Google, temos o compromisso de promover uma IA ousada e responsável em tudo o que fazemos. Com base nos Princípios de IA da Google e nas políticas de segurança robustas dos nossos produtos, estamos a adicionar novas proteções para responder às capacidades multimodais do Gemini. Em cada estágio de desenvolvimento, estamos a considerar os riscos potenciais e a trabalhar para testá-los e mitigá-los.
O Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de IA da Google até o momento, inclusive quanto a enviesamentos (bias) e toxicidade. Realizamos novos estudos em áreas de risco potencial, como cibercrime, persuasão e autonomia, e aplicamos as melhores técnicas de testes adversariais (adversarial testing) da Google Research para ajudar a identificar problemas críticos de segurança antes da implementação do Gemini.
Para identificar pontos cegos na nossa abordagem de avaliação interna, também estamos a trabalhar com um grupo diversificado de especialistas e parceiros externos para testar a resistência dos nossos modelos numa série de questões.
Para diagnosticar problemas de segurança de conteúdo durante as fases de treino do Gemini e garantir que os seus resultados seguem as nossas políticas, estamos a usar benchmarks como o Real Toxicity Prompts, um conjunto de 100.000 prompts com vários graus de toxicidade extraídos da web, desenvolvidos por especialistas do Allen Institute of IA. Mais detalhes deste projecto serão anunciados em breve.
Para limitar os danos, construímos classificadores de segurança dedicados para identificar, rotular e classificar conteúdos que envolvem, por exemplo, violência ou estereótipos negativos. Combinados com filtros robustos, esta abordagem em camadas foi projetada para tornar o Gemini mais seguro e inclusivo para todos. E continuamos a responder a desafios conhecidos para modelos como factualidade, fundamentação, atribuição e corroboração.
A responsabilidade e a segurança estarão sempre no centro do desenvolvimento e implementação dos nossos modelos. Este é um compromisso de longo prazo que requer construção colaborativa e, por isso, estamos a fazer parceria com a indústria e o ecossistema mais amplo para definir padrões de referência e melhores práticas de segurança através de organizações como MLCommons, o Frontier Model Forum e o seu AI Safety Fund, e nosso Secure AI Framework (SAIF), que foi projetado para ajudar a mitigar os riscos de segurança específicos dos sistemas de IA nos setores público e privado. Iremos continuar a fazer parcerias com investigadores, governos e grupos da sociedade civil em todo o mundo à medida que desenvolvemos o Gemini.
Disponibilizar o Gemini ao mundo
O Gemini 1.0 está agora a ser disponibilizado numa série de produtos e plataformas:
Gemini Pro em produtos da Google
Estamos a trazer o Gemini a milhares de milhões de pessoas através dos produtos Google.
A partir de hoje, o Bard vai usar uma versão aprimorada do Gemini Pro para um raciocínio, planeamento, compreensão mais avançados. Esta é a maior atualização do Bard desde o seu lançamento. Estará disponível em inglês em mais de 170 países e territórios, e planeamos expandir para diferentes modalidades e oferecer suporte a novos locais e idiomas no futuro próximo.
Também estamos a trazer o Gemini para o Pixel. O Pixel 8 Pro é o primeiro smartphone projetado para executar o Gemini Nano, que está a alimentar novas funcionalidades como o Resumir na aplicação Gravador, bem como a resposta inteligente no Gboard, a começar com o WhatsApp e com mais aplicações de mensagens no próximo ano.
Já estamos a começar a experimentar o Gemini na Pesquisa que torna a Experiência de Pesquisa Generativa (SGE) mais rápida para os utilizadores, com uma redução de 40% na latência em inglês nos EUA, além de melhorias na qualidade.
Desenvolver com o Gemini
A partir de 13 de dezembro, os programadores e clientes empresariais poderão aceder ao Gemini Pro através da API Gemini no Google AI Studio ou em Google Cloud Vertex AI.
O Google AI Studio é uma ferramenta de programação gratuita baseada na Web que ajuda a criar protótipos e a lançar aplicações rapidamente com uma chave API. Quando chegar a altura de uma plataforma de IA totalmente gerida, a Vertex AI irá permitir a personalização do Gemini com controlo total de dados e beneficiar de funcionalidades adicionais da Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.
Os programadores Android poderão também desenvolver com o Gemini Nano, o nosso modelo mais eficiente para tarefas no dispositivo, via AICore, uma nova capacidade de sistema disponível no Android 14, a começar nos dispositivos Pixel 8 Pro. Inscreva-se aqui para uma early preview do AICore.
Gemini Ultra em breve
Para o Gemini Ultra, estamos atualmente a concluir extensas verificações de confiança e de segurança, incluindo equipas externas de confiança, e refinando ainda mais o modelo através de ajuste fino e aprendizagem por reforço a partir de feedback humano (RLHF) antes da sua implementação.
Como parte deste processo, iremos disponibilizar o Gemini Ultra para clientes, programadores, parceiros e especialistas de segurança e responsabilidade selecionados para uma experimentação e feedback iniciais antes de o disponibilizar amplamente para programadores e clientes empresariais no início do próximo ano.
No início do próximo ano, também iremos lançar o Bard Advanced, uma nova experiência de IA de ponta que dará acesso aos nossos melhores modelos e capacidades, a começar com o Gemini Ultra.
Era Gemini, possibilitando um futuro de inovação
Este é um marco significativo no desenvolvimento da IA e o início de uma nova era para nós na Google, à medida que continuamos a inovar rapidamente e a desenvolver de forma responsável as capacidades dos nossos modelos.
Fizemos, até agora, um progresso incrível no Gemini e estamos atualmente a treinar a nossa próxima versão do Gemini, que irá ampliar ainda mais as suas capacidades, inclusive avanços no planeamento e na memória, e aumentando a janela de contexto para processar ainda mais informação e para dar respostas melhores.
Estamos entusiasmados com as possibilidades incríveis de um mundo capacitado com a IA — um futuro de inovação que irá aumentar a criatividade, ampliar o conhecimento, avançar a ciência e transformar a forma como milhares de milhões de pessoas vivem e trabalham em todo o mundo.
Publicado por Sundar Pichai, Google and Alphabet CEO (introdução) and Demis Hassabis, DeepMind CEO (texto)