Milhares de milhões de pessoas de todo o mundo acedem ao YouTube por vários motivos. Seja para assistir a um espetáculo difícil de encontrar ou para aprender uma nova competência, o YouTube conecta os espectadores a uma variedade incrível de conteúdos e vozes. Mas nada disso seria possível sem o nosso compromisso de proteger a nossa comunidade – este princípio fundamental é a base de todos os nossos sistemas e sustenta todos os aspectos dos nossos produtos.
Algumas vezes, no decorrer do ano, irei informar sobre como estamos a enfrentar alguns dos maiores desafios com que o YouTube se depara e os prós e contras de cada ação que levamos a cabo. Nas próximas publicações, iremos falar de temas como o desenvolvimento das políticas, além de explicar melhor como lidamos com problemas complexos ou fazer um resumo das principais metas de responsabilidade. Nesta primeira edição, queria falar sobre o nosso trabalho atual para lidar com a desinformação potencialmente prejudicial no YouTube.
Nos últimos cinco anos, investimos fortemente numa estrutura que a que demos o nome de 4Rs da Responsabilidade. Utilizando uma combinação de machine learning e de pessoas, removemos rapidamente o conteúdo que viola as nossas políticas, damos voz às fontes confiáveis e reduzimos a disseminação do conteúdo problemático (expliquei pormenorizadamente o porquê aqui). Estas ferramentas, ao trabalhar em conjunto, têm sido fundamentais para manter reduzido o número de visualizações enquanto se preserva a liberdade de expressão na nossa plataforma. No entanto, à medida que as narrativas de desinformação surgem mais rapidamente e se espalham mais amplamente do que nunca, a nossa abordagem precisa evoluir para acompanhar o ritmo. Seguem-se os próximos três desafios que as nossas equipas terão que enfrentar.
Identificação de novos conteúdos de desinformação antes que se tornem virais
Ao longo de vários anos, o cenário de desinformação on-line foi dominado por algumas narrativas principais – teorias de conspiração relativas ao 11 de setembro, a chegada à Lua e até mesmo teorias da conspiração acerca da terra ser plana. Essas teorias da conspiração de longa data construíram um arquivo de conteúdo. Como resultado, conseguimos treinar os nossos sistemas de machine learning de forma a reduzir as recomendações destes vídeos e outros semelhantes com base em padrões deste tipo de conteúdo. Mas cada vez mais, uma narrativa completamente nova pode surgir rapidamente e ganhar visualizações. Ou as narrativas podem deslizar de um tópico para outro – por exemplo, algum conteúdo geral de bem-estar pode levar à hesitação sobre a vacina. Cada narrativa também pode ter uma aparência e propagar-se de maneira diferente e, às vezes, até ser hiperlocal.
Enfrentámos estes desafios no início da pandemia da COVID-19 – a teoria da conspiração de que as torres 5G causavam a disseminação do coronavírus levou pessoas a incendiar torres de redes móveis no Reino Unido. Devido ao claro risco de danos no mundo real, respondemos a estas situações, atualizando as nossas diretrizes e proibimos este tipo de conteúdo. Neste caso, poderíamos agir rapidamente porque já tínhamos políticas em vigor para a desinformação sobre a COVID-19 com base nas orientações das autoridades de saúde locais e globais.
No entanto, nem sempre poderemos contar com orientação especializada para nos informar sobre narrativas que se estão a difundir rapidamente e, assim, poder atualizar as nossas políticas. E quanto mais recente for a desinformação, menos exemplos temos para treinar os nossos sistemas. De forma a resolver esta questão, estamos continuamente a treinar o nosso sistema com novos dados. Estamos a procurar aproveitar uma combinação ainda mais direcionada de classificadores, palavras-chave em idiomas adicionais e informações de analistas regionais para identificar narrativas que o nosso classificador principal não capta. Ao longo do tempo, esta medida irá tornar-nos mais rápidos e precisos na identificação destas narrativas de desinformação viral.
Além de reduzir a disseminação de alguns conteúdos, os nossos sistemas conectam os espectadores a vídeos confiáveis nos resultados da pesquisa e nas recomendações. Mas certos tópicos carecem de um corpo de conteúdo confiável – ao que chamamos de vazios de dados. Por exemplo, considere uma notícia de última hora, como um desastre natural. Neste caso, podemos ver, quase imediatamente, conteúdo não verificado a especular sobre as causas e as vítimas. As fontes confiáveis levam tempo a criar um novo conteúdo de vídeo e, quando a desinformação se espalha rapidamente, nem sempre há conteúdo de fontes confiáveis suficientes para o qual possamos apontar a curto prazo.
Para grandes eventos noticiosos, como um desastre natural, apresentamos painéis de notícias em desenvolvimento para direcionar os espectadores a textos de artigos sobre o acontecimento. Para tópicos de nicho que os meios de comunicação podem não cobrir, fornecemos aos espectadores caixas de verificação de fatos. Mas a verificação de fatos também leva o seu tempo, e nem todos os tópicos emergentes serão abordados. Nestes casos, exploramos outros tipos de rótulos para adicionar a um vídeo ou nos resultados de pesquisa, como um aviso de isenção de responsabilidade aos espectadores de que há falta de informações de alta qualidade. Também temos que avaliar se o surgimento de um rótulo pode involuntariamente colocar em destaque um tópico que, de outra forma, não ganharia força. As nossas equipas estão a discutir ativamente estas considerações à medida que tentamos encontrar a melhor abordagem.
O problema multiplataforma - abordar as partilhas de desinformação
Outro desafio é a disseminação de vídeos com conteúdo duvidoso fora do YouTube – são vídeos que não ultrapassam os limites das nossas políticas de remoção, mas que não queremos necessariamente recomendar às pessoas. Revemos os nossos sistemas de recomendação para reduzir de maneira considerável, abaixo de 1%, o consumo de conteúdo duvidoso com origem nas nossas recomendações. Mas mesmo que não recomendemos um determinado vídeo duvidoso, este ainda pode receber visualizações vindas de outros websites que remetem ou incorporam um vídeo do YouTube.
Uma maneira possível de resolver isto é desativar o botão de partilha ou quebrar o link em vídeos que já estamos a limitar nas recomendações. O que significa que efetivamente que o utilizador não pode incorporar ou vincular um vídeo limítrofe noutro site. Contudo, acabamos por nos questionar se a prevenção de partilhas pode ir longe demais no que diz respeito à restrição da liberdade de um espectador. Os nossos sistemas reduzem o conteúdo duvidoso nas recomendações, mas a partilha de um link é uma escolha ativa que uma pessoa pode fazer, diferente de uma ação mais passiva, como assistir a um vídeo recomendado.
O contexto também é importante – vídeos duvidosos incorporados numa investigação ou reportagem podem exigir exceções ou um tratamento totalmente diferente. Precisamos de ter cuidado para equilibrar a limitação da disseminação de desinformação potencialmente prejudicial, ao mesmo tempo em que se permite um espaço para discussão e educação sobre tópicos sensíveis e controversos.
Outra abordagem poderia ser a exibição de um aviso que aparece antes que um espectador possa assistir a um vídeo incorporado ou vinculado, informando que o conteúdo pode conter informações incorretas. Os avisos são como uma lombada – a etapa extra faz com que o espectador pare antes de assistir ou partilhar conteúdo. Na verdade, já usamos avisos para conteúdo com restrição de idade e vídeos violentos ou explícitos, e consideramo-los uma ferramenta importante para dar aos espectadores uma escolha sobre o que estão prestes a assistir.
Iremos continuar a explorar cuidadosamente diferentes opções para garantir que limitamos a disseminação de desinformação prejudicial na Internet.
Aumento dos nossos esforços para combater a desinformação em todo o mundo
O nosso trabalho para conter a desinformação trouxe resultados reais, mas ainda existem complexidades enquanto nos esforçamos para levar estes processos a mais de 100 países e dezenas de idiomas em que operamos.
Cada cultura tem atitudes diferentes em relação ao que torna uma fonte confiável. Em alguns países, televisões públicas como a BBC no Reino Unido são amplamente vistas como fontes de notícias confiáveis. Enquanto isso, noutros países, as televisões públicas podem estar mais próximas da propaganda. Os países também mostram uma variedade de conteúdo no seu ecossistema de notícias e de informação, desde meios que exigem padrões rígidos de verificação de fatos até aqueles com pouca supervisão ou verificação. E ambientes políticos, contextos históricos e de notícias de última hora podem conduzir a narrativas de desinformação hiperlocais que não aparecem em nenhum outro local do mundo. Por exemplo, durante o surto de Zika no Brasil, alguns atribuíram a doença a conspirações internacionais. Ou recentemente no Japão, espalharam-se falsos rumores online de que um terramoto foi causado por intervenção humana.
Diante desta diversidade regional, as nossas equipas deparam-se com muitos dos mesmos problemas que vemos com a desinformação emergente, desde a mudança de narrativas até à falta de fontes confiáveis. Por exemplo, no início da pandemia, vimos que nem todos os países tinham as investigações mais recentes disponíveis das suas autoridades de saúde, e essas autoridades locais às vezes tinham orientações diferentes.
O que é considerado duvidoso também pode variar significativamente. Estamos sempre a levar em consideração como as diretrizes dos nossos avaliadores de conteúdo podem ser interpretadas de maneira diferente entre idiomas e culturas. Demora o seu tempo trabalhar com equipas e especialistas locais para informar o contexto cultural que afeta a classificação de um vídeo como duvidoso.
Para além de aumentarmos as nossas equipas com ainda mais pessoas que entendem as nuances regionais entrelaçadas na desinformação, estamos a explorar mais investimentos em parcerias com especialistas e organizações não governamentais de todo o mundo. Além disso, e de forma semelhante à nossa abordagem com novos tópicos virais, estamos a trabalhar em várias formas de atualizar os modelos com maior frequência para detectar desinformação hiperlocal, com capacidade de oferecer suporte a idiomas locais.
Reforço da nossa transparência
No YouTube, iremos continuar a desenvolver o nosso trabalho para reduzir a desinformação prejudicial em todos os nossos produtos e políticas, ao mesmo tempo que permitimos que diversas vozes prosperem. Reconhecemos que talvez não tenhamos todas as respostas, mas achamos importante partilhar as perguntas e os problemas sobre os quais temos vindo a pensar. Mais do que nunca é urgente ampliar os nossos esforços em relação à segurança e ao bem-estar da nossa comunidade, e espero mantê-los informados ao longo do tempo e deste caminho.
As aplicações móveis são uma parte essencial das nossas vidas quotidianas. Atualmente, mais de 90% das aplicações no Google Play são gratuitas, proporcionando acesso a conteúdos e serviços valiosos a milhares de milhões de utilizadores. A publicidade digital desempenha aqui um papel fundamental para tornar tudo isto possível. Porém, para garantir um ecossistema de aplicações saudável – beneficiando utilizadores, programadores e empresas – a indústria terá de continuar a evoluir na forma como a publicidade digital funciona de modo a melhorar a privacidade do utilizador. É por isso que, no início, desenvolvemos o ID de publicidade para proporcionar aos utilizadores maior controlo. No ano passado, introduzimos melhorias nesses controlos, mas acreditamos que é importante ir além.
Hoje, estamos a anunciar uma iniciativa plurianual para criar o Privacy Sandbox no Android com o objetivo de introduzir novas, mais privadas soluções de publicidade. Especificamente, estas soluções irão limitar a partilha de dados do utilizador com terceiros e irão funcionar sem identificadores entre aplicações, incluindo ID de publicidade. Também estamos a explorar tecnologias que reduzem o potencial de recolha encoberta de dados, incluindo formas mais seguras de integração das aplicações com SDKs de publicidade.
O Privacy Sandbox no Android é baseado nos nossos esforços em curso na web, proporcionando um caminho claro para melhorar a privacidade do utilizador sem colocar em risco o acesso aos conteúdos e serviços gratuitos.
Abordagens abruptas estão a mostrar-se ineficazes
Percebemos que outras plataformas adotaram uma abordagem diferente em relação à privacidade dos anúncios, restringindo abruptamente as tecnologias existentes usadas por programadores e anunciantes. Acreditamos que, sem primeiro oferecer um caminho alternativo que preserve a privacidade, essas abordagens podem ser ineficazes e levar a resultados piores para a privacidade do utilizador e negócio dos programadores.
O nosso objetivo com o Privacy Sandbox no Android é desenvolver soluções de publicidade eficazes e que melhorem a privacidade, onde os utilizadores sabem que as suas informações estão protegidas e os programadores e as empresas têm as ferramentas para ter sucesso no mobile. Enquanto projetamos, criamos e testamos estas novas soluções, temos em mente proporcionar suporte às funcionalidades existentes da plataforma de anúncios por pelo menos dois anos e iremos disponibilizar avisos e alertas substanciais antes de quaisquer alterações futuras.
Trabalhando com a indústria
A partir de hoje, os programadores podem analisar as nossas propostas iniciais de design e partilhar comentários no website Android developer. Estamos a planear disponibilizar previews para programadores ao longo do ano e uma versão beta até ao final do ano. Forneceremos atualizações regulares sobre designs e cronogramas e os interessados poderão subscrever-se para atualizações.
Sabemos que esta iniciativa precisa dos contributos de toda a indústria para ter sucesso. Já ouvimos muitos parceiros sobre o seu interesse em trabalhar em conjunto para melhorar a privacidade dos anúncios no Android e convidamos mais organizações a participarem.
“No Snap, fizemos da privacidade uma prioridade e colocamo-la no centro de como projetamos os nossos produtos. Estamos entusiasmados em colaborar com a Google para desenvolver novos padrões que preservam a privacidade para o Android." - Snapchat
“Apoiamos o esforço da Google para elevar os padrões de privacidade na plataforma ao mesmo tempo que tornamos mais fácil aos utilizadores compreenderem como os seus dados estão a ser usados. É ótimo eles estarem a envolver programadores no processo desde o início para garantir que temos tempo para reagir e participar numa mudança tão importante.” - Rovio
“A privacidade do utilizador é uma prioridade para a Duolingo e apreciamos o processo que o Android está a conduzir para publicar as novas propostas e solicitar comentários ao ecossistema.” - Duolingo
Também estamos comprometidos em trabalhar em estreita colaboração com os reguladores. Oferecemos compromissos públicos nos nossos esforços do Privacy Sandbox na web, incluindo a garantia de que não damos tratamento preferencial aos produtos ou websites de anúncios da Google. Iremos também aplicar estes princípios ao nosso trabalho no Android e continuar a trabalhar com a Autoridade de Concorrência e Mercados do Reino Unido e outros.
O Privacy Sandbox no Android é uma parte importante da nossa missão para elevar o nível da privacidade do utilizador, ao mesmo tempo que proporciona aos programadores e empresas as ferramentas necessárias para terem sucesso no mobile. Estamos ansiosos para trabalhar com a indústria nesta viagem.
O objetivo da Google com o Privacy Sandbox é melhorar a privacidade da web para as pessoas ao redor do mundo, ao mesmo tempo que dá aos editores de notícias, criadores e outros programadores as ferramentas de que precisam para construir um negócio próspero. Isto inclui criar novas ferramentas de anúncios, em colaboração com a indústria, para substituir os cookies de terceiros por alternativas que protegem melhor a privacidade do consumir e preserva o acesso das pessoas a um conteúdo online gratuito.
Desde o anúncio do Privacy Sandbox, que temos estamos em diálogo aberto com a indústria, organizações de defesa do consumidor e reguladores para obter reações a esta iniciativa. Ao longo do ano passado, também trabalhamos em estreita colaboração com a Autoridade da Concorrência e Mercados do Reino Unido (CMA) e o Information Commissioner's Office (ICO), incluindo um conjunto de compromissos juridicamente vinculativos para responder às preocupações do CMA sobre o Privacy Sandbox que irá enquadrar a forma como vamos projetar e implementar esta iniciativa. O objetivo, por via desta supervisão e supervisão regulatória, é reassegurar que o Privacy Sandbox irá proteger os consumidores e proporcionar suporte a uma web competitiva financiada por publicidade e que não irá favorecer a Google.
Os compromissos respondem a estas preocupações por via de três princípios fundamentais. Primeiro, as mudanças que iremos fazer no Chrome no contexto da iniciativa Privacy Sandbox serão aplicadas da mesma forma aos produtos de publicidade da Google e aos produtos de outras empresas. Em segundo lugar, iremos desenhar e implementar o Privacy Sandbox com supervisão regulatória e contribuições da CMA e do ICO. E, por fim, iremos informar a CMA com antecedência sobre a nossa intenção de remover cookies de terceiros e concordamos em aguardar os seus comentários sobre alguma eventual preocupação relacionada com a lei da concorrência.
A privacidade por design e por definição tem estado no centro do Privacy Sandbox desde o início, e também pretendemos garantir que as novas ferramentas cumprem os requisitos estabelecidos no recente parecer sobre as expectativas de privacidade e proteção de dados para as propostas de publicidade on-line. Com esse fim em mente, estamos a projetar estas novas ferramentas para evitar a monitorização entre websites, proporcionar às pessoas maior transparência e controlo e melhores resultados para as pessoas e empresas na web. Estamos ansiosos por manter este envolvimento com as autoridades de proteção de dados à medida que continuamos a interagir e a melhorar as propostas.
Estamos satisfeitos que, hoje, a CMA tenha aceitado estes compromissos, que agora entram em vigor imediatamente. Os critérios de desenvolvimento e de implementação que sustentam estes compromissos estão resumidos abaixo e podem ser encontrados na íntegra no website do CMA. Iremos aplicar os compromissos globalmente porque acreditamos que a orientação regulatória que recebemos proporciona um roteiro sobre como lidar com questões de privacidade e de concorrência neste setor, em evolução.
Respeitar a privacidade do utilizador mantendo uma web que funcione bem e financiada por publicidade
Os objetivos da Google ao desenvolver as propostas do Privacy Sandbox são tornar a web mais privada e segura para as pessoas ao mesmo tempo que:
Reconhecemos que muitos publishers e anunciantes confiam na publicidade on-line para financiar os seus websites e chegar a novos clientes. Por isso, criar ferramentas que visem melhorar a privacidade das pessoas, ao mesmo tempo que continuam a apoiar a publicidade, é fundamental para manter a web aberta e acessível a todos e permitir que empresas de todas as dimensões tenham sucesso.
Desenvolvimento do Privacy Sandbox
Para atingir os objetivos acima, a Google está comprometida a desenhar, desenvolver e a implementar as propostas do Privacy Sandbox levando em consideração critérios específicos acordados com o CMA:
Com base em meses de consultas abertas da Google — e do CMA — com a indústria em geral, a Google irá consultar, regularmente, o CMA e o ICO em relação ao design, desenvolvimento e implementação do Privacy Sandbox (incluindo testes e anúncios públicos). A Google irá também aumentar o seu envolvimento com as partes interessadas do setor (incluindo editores de notícias, anunciantes e fornecedores de tecnologia de anúncios) disponibilizando um processo de feedback sistemático para levar em consideração opiniões e sugestões razoáveis. Isto vem na senda do nosso envolvimento anterior com os membros da comunidade da web que são incentivados a participar no desenvolvimento e testes das novas tecnologias propostas através de fóruns de discussão públicos como o W3C, canais de programadores como o GitHub, grupos de indústria e os chamados origin trials. Também iremos criar até ao final de fevereiro um microsite dedicado, disponível em privacysandbox.com, explicando estes canais com mais detalhes e proporcionando um novo formulário para comentários para submeter sugestões de casos de uso e pedidos de funcionalidades para a API.
Garantir a conformidade
O Google irá trabalhar com o CMA para resolver preocupações sem atrasos e através de consultas e atualizações contínuas ao CMA e ao ICO. A Google também se comprometeu a nomear um Monitoring Trustee independente que terá o acesso e o conhecimento técnico necessários para garantir a conformidade, tendo consultado o CMA. O Monitoring Trustee irá trabalhar diretamente com o CMA e será central para garantir a conformidade com os dados e a não discriminação dos compromissos oferecidos pela Google.
Acreditamos que estes compromissos irão garantir que a concorrência continue a prosperar ao mesmo tempo que proporciona flexibilidade no design das APIs do Privacy Sandbox de uma maneira que irá melhorar a privacidade online das pessoas. Ajudar as empresas a adaptarem-se a uma web com maior privacidade, através da inovação e da colaboração, pode ajudar a criar base para o crescimento e desenvolvimento económico no longo prazo.
Este processo requer um envolvimento próximo com os reguladores de concorrência e de privacidade e novas formas de trabalhar em conjunto. Esperamos que estes compromissos possam contribuir para este novo enquadramento.
Sou, há muito, um leitor de notícias locais, começando pelo jornal da minha cidade natal, o St. Louis Post-Dispatch, no Missouri. É certo que comecei com a banda desenhada e os jogos de palavras mas logo passei a gostar de ver as notícias sobre o que estava a acontecer na minha cidade. O Post-Dispatch foi a minha ligação à cidade e aos meus vizinhos.
Com o desenvolvimento do Google News Showcase (Destaques Jornalísticos no Google), o nosso produto e programa de licenciamento para editores de notícias, queremos que as pessoas que usam os produtos de notícias da Google sintam o mesmo em relação aos seus jornais locais. O Google News Showcase (Destaques Jornalísticos no Google) oferece aos publishers locais uma forma de mostrarem a sua experiência editorial e explicarem temas importantes aos leitores. Ao fazermos isto, esperamos que os leitores possam fortalecer as ligações com as suas comunidades.
Hoje, estamos a tornar mais fácil encontrar notícias locais no Google News Showcase (Destaques Jornalísticos no Google) ao trazermos os seus painéis para a seção local do Google Notícias. Os publishers do News Showcase (Destaques Jornalísticos) escolhem o conteúdo destes painéis locais permitindo-lhes destacar as histórias mais importantes do dia na sua zona e proporcionando-lhes outra maneira poderosa de aprofundar o seu relacionamento com os leitores. Para aceder à seção Local no Google Notícias, basta clicar na seção Local do lado esquerdo no news.google.com ou navegar até a seção local no feed Para Si na aplicação Google Notícias.
Mais de 90% das publicações que fazem parte do News Showcase representam notícias locais ou da comunidade. Eles incluem o Citynews de Itália, La Capital na Argentina, o Frankfurter Rundschau da Alemanha, Jornal do Commercio do Brasil, El Colombiano na Colômbia, Guelph Mercury Tribune do Canadá, o Anandabazar Patrika da Índia, Iliffe Media do Reino Unido, e exemplos como o Jornal de Leiria ou o Mensageiro de Bragança em Portugal. Temos trabalhado em estreita colaboração com estes publishers mesmo antes do lançamento do News Showcase para garantir que o produto funciona bem para eles.
Além das notícias de hoje, estamos sempre a fazer alterações adicionais nos bastidores para ajudar os editores de notícias a melhorar suas experiências com o News Showcase (Destaques Jornalísticos). Recentemente disponibilizámos a possibilidade dos editores de notícias verem como os leitores estão a interagir com o conteúdo do News Showcase (Destaques Jornalísticos) em tempo real, para que possam compreender melhor o que as pessoas querem ler. Isto proporciona aos editores de notícias a possibilidade de responderem rapidamente às tendências, adicionarem mais contexto às suas histórias ou adicionarem painéis relacionados com as histórias que estão a ganhar força. Também introduzimos a capacidade de edição das imagens que aparecem diretamente nos painéis da nossa ferramenta de publicação, dando aos publishers do News Showcase (Destaques Jornalísticos) maior controlo e pouparem tempo.
Desde que lançamos o News Showcase (Destaques Jornalísticos) em outubro de 2020, assinamos acordos com mais de 1.200 publicações de notícias em todo o mundo, garantindo que milhões de pessoas podem encontrar, envolver-se e apoiar as organizações de notícias que cobrem temas importantes para eles. Também lançamos o programa em mais de uma dúzia de países, incluindo Portugal, Índia, Japão, Alemanha, Brasil, Áustria, Reino Unido, Austrália, República Checa, Itália, Colômbia, Argentina, Canadá e Irlanda. Hoje, estamos também a lançar o produto na Polónia.
O News Showcase (Destaques Jornalísticos) é apenas uma forma de como estamos a ajudar os leitores a encontrarem as notícias importantes para eles. Recentemente, adicionámos uma nova funcionalidade de notícias na Pesquisa Google através da qual os leitores veem um carrossel de notícias locais quando encontramos cobertura de notícias locais relacionadas com a sua pesquisa. Isto ajuda os leitores a encontrarem notícias locais importantes relacionadas com as suas pesquisas e ajuda os publishers de notícias locais a chegar a pessoas que procuram as suas notícias. Este carrossel está disponível globalmente em todos os idiomas.
Também melhoramos os nossos sistemas de ranking para que fontes de notícias locais relevantes e confiáveis apareçam com mais frequência ao lado das publicações nacionais nas nossas funcionalidades como a Principais Notícias. Isto garante que as pessoas podem encontrar cobertura de fontes de notícias locais confiáveis, ajudando-as a ver como as histórias nacionais podem impactá-las localmente.
Apoiar os publishers locais é também uma parte importante do nosso trabalho e do Google News Initiative (GNI), o nosso esforço para ajudar organizações de notícias e jornalistas a prosperarem na era digital. Por exemplo, o GNI Digital Growth Program é um programa gratuito destinado a ajudar publishers de notícias de pequena e média dimensão em todo o mundo no desenvolvimento das capacidades necessárias para acelerar o crescimento de seus negócios online. E o Google News Lab proporciona parcerias e formação em mais de 50 países. Também desenvolvemos produtos para ajudar jornalistas. Um destes exemplos é o Pinpoint, uma ferramenta que usa o melhor da nossa tecnologia de pesquisa, IA e Machine Learning para ajudar os repórteres a analisar rapidamente milhares de documentos como formulários, notas manuscritas, imagens, arquivos de e-mail, PDFs e que transcreve automaticamente arquivos de áudio.
Estamos dedicados a fazer a nossa parte para ajudar a apoiar o jornalismo local a prosperar na era digital – e ajudar os leitores a descobrirem as notícias locais e a compreenderem os problemas que os afetam.
Alguma vez se perguntou como é que a Google entende o que está a procurar? Há muita coisa envolvida na disponibilização dos resultados de pesquisa úteis, e entender o idioma é um dos requisitos mais importantes. Graças aos avanços em IA e machine learning, estamos mais próximos do que nunca de entender a linguagem humana. Achamos que seria útil partilhar um olhar aos bastidores de como isto se traduz em melhores resultados para o utilizador.
Mas primeiro, vamos voltar aos primórdios: nos primeiros dias da Pesquisa, antes de termos a IA avançada, os nossos sistemas simplesmente procuravam palavras correspondentes. Por exemplo, se o utilizador pesquisasse por “pziza” – a menos que houvesse uma página com este erro ortográfico específico, seria provável que o utilizador tivesse que refazer a pesquisa escrevendo a palavra de forma correcta para encontrar uma fatia perto de si. E, eventualmente, aprendemos a codificar algoritmos para encontrarem classes de padrões – como erros ortográficos populares ou possíveis erros de digitação de palavras semelhantes – para ajudar a fazer essa correção. Agora, através do machine learning avançado, os nossos sistemas podem reconhecer de forma mais intuitiva se uma palavra não parece estar correta e a sua possível correção.
Este tipo de desenvolvimento da IA nos nossos sistemas de Pesquisa significa que eles estão a melhorar constantemente para entender o que o utilizador está a procurar. E como as curiosidades do mundo e das pessoas estão sempre a evoluir é muito importante que a Pesquisa acompanhe a tendência. De facto, 15% das pesquisas diárias são totalmente novas. A IA desempenha um papel importante para mostrar resultados úteis, mesmo nos limites da sua imaginação.
Como os nossos sistemas funcionam em conjunto
Desenvolvemos centenas de algoritmos ao longo dos anos, como o nosso sistema de ortografia inicial, para ajudar a disponibilizar resultados de pesquisa relevantes. Quando desenvolvemos os novos sistemas de IA, os nossos algoritmos e sistemas anteriores não são simplesmente arquivados. Na verdade, a Pesquisa corre em centenas de algoritmos e modelos de machine learning, e podemos aperfeiçoá-la quando os nossos sistemas - novos e antigos - funcionam em conjunto. Cada algoritmo e modelo tem uma função específica mas eles são acionados em momentos diferentes e em combinações distintas para ajudar a disponibilizar os resultados mais úteis. E alguns dos nossos sistemas mais avançados podem desempenhar um papel mais proeminente do que outros. Vamos espreitar os principais sistemas de IA que atualmente correm na Pesquisa e o que fazem.
RankBrain — um sistema de classificação mais inteligente
Quando lançámos o RankBrain em 2015, ele foi o primeiro sistema de aprendizagem profunda implementado na Pesquisa. Na altura, foi inovador – não só porque foi o nosso primeiro sistema de IA, mas porque ajudou-nos a entender como as palavras estão relacionadas com os conceitos. Isto é algo que os humanos entendem instintivamente, mas é um desafio complexo para um computador. O RankBrain ajuda-nos a encontrar informações que não conseguiríamos anteriormente, entendendo mais amplamente como as palavras numa pesquisa se relacionam com os conceitos do mundo real. Por exemplo, se o utilizador pesquisar "qual é o nome do consumidor que está no topo da cadeia alimentar", os nossos sistemas aprendem ao ver essas palavras em várias páginas que o conceito de uma cadeia alimentar pode estar relacionado com animais, e não com consumidores humanos. Ao entender e a corresponder estas palavras com os seus conceitos relacionados, o RankBrain ajuda-nos a entender que o utilizador está a pesquisar por “Superpredador”, a expressão frequentemente utilizada.
Graças a este tipo de compreensão, o RankBrain (como o próprio nome sugere) é usado para ajudar a hierarquizar – ou a decidir a melhor ordem para – os principais resultados de pesquisa. Embora tenha sido o nosso primeiro modelo de aprendizagem profunda, o RankBrain continua a ser um dos principais sistemas de IA que alimentam, hoje, a Pesquisa.
Correspondência neural — um mecanismo de recuperação sofisticado
As redes neurais sustentam, atualmente, muitos sistemas modernos de IA. Mas foi só em 2018, quando introduzimos a correspondência neural na Pesquisa, que pudemos usá-los para nos ajudarem a entender melhor como as perguntas se relacionam com as páginas. A correspondência neural ajuda-nos a entender representações mais difusas de conceitos em perguntas e páginas e a combiná-las umas com as outras. É possível fazê-lo porque ele analisa uma pergunta ou página inteira em vez de apenas palavras-chave, desenvolvendo uma melhor compreensão dos conceitos subjacentes representados nelas. Por exemplo, na pesquisa “insights de como gerir um verde". Se um amigo lhe perguntasse isto, provavelmente o utilizador ficaria perplexo. Mas com a correspondência neural, somos capazes de entender esta pesquisa intrigante. Ao observar as representações mais amplas de conceitos na pergunta - gestão, liderança, personalidade e muito mais - a correspondência neural pode decifrar que determinada pessoa está a pesquisar por dicas de gestão com base num guia popular de personalidade através das cores.
Quando os nossos sistemas entendem os conceitos mais amplos representados numa pergunta ou página, estão em melhores condições para corresponderem um ao outro. É este nível de compreensão que nos ajuda a lançar uma ampla rede quando examinamos o nosso índice de conteúdos que possa ser relevante para a sua pesquisa. É isso que torna a correspondência neural uma parte tão crítica de como recuperamos documentos relevantes de um fluxo de informações enorme e em constante mudança.
BERT — um modelo para entender o significado e o contexto
Lançado em 2019, o BERT foi uma grande mudança na compreensão da linguagem natural, ajudando-nos a entender como as combinações de palavras expressam diferentes significados e intenções. Em vez de simplesmente procurar conteúdo que corresponda a palavras individuais, o BERT permite-nos compreender como uma combinação de palavras expressa uma ideia complexa. O BERT entende as palavras numa sequência e como se relacionam umas com as outras de modo a que excluamos palavras importantes da sua pesquisa - não importa quão pequenas elas sejam. Por exemplo, se o utilizador pesquisar "pode-se comprar medicamentos para alguém na farmácia", o BERT ajuda-nos a entender que o utilizador está a tentar descobrir se pode comprar medicamentos para outra pessoa. Antes do BERT, não dávamos o mesmo valor a esta preposição curta, principalmente ao revelar resultados sobre como preencher uma receita. Graças ao BERT, entendemos que mesmo pequenas palavras podem ter grandes significados.
Hoje, o BERT desempenha um papel crítico em quase todas as pesquisas em inglês. Isto ocorre porque os nossos sistemas BERT destacam-se em duas das tarefas mais críticas na disponibilização de resultados relevantes – classificação e recuperação. Com base na sua compreensão de linguagem complexa, o BERT é capaz de classificar documentos muito rapidamente pela respetiva relevância. Também melhoramos os sistemas anteriores com treino BERT, tornando-os mais úteis na recuperação de documentos relevantes para hierarquização. E embora o BERT desempenhe um papel importante na Pesquisa, nunca funciona sozinho — como todos os nossos sistemas, o BERT faz parte de um conjunto de sistemas que trabalham juntos para apresentar resultados de alta qualidade.
MUM — passando da linguagem para a compreensão da informação
Em maio, apresentamos o nosso mais recente marco de IA na Pesquisa – o Multitask Unified Model (MUM) Mil vezes mais poderoso que o BERT, o MUM é capaz de entender e gerar linguagem. Ele é treinado em 75 idiomas diferentes e em muitas tarefas diferentes ao mesmo tempo, permitindo que desenvolva uma compreensão mais abrangente das informações e do conhecimento do mundo. O MUM também é multimodal, o que significa que pode entender informações em vários modos, como texto, imagens e muito mais no futuro.
Embora ainda estejamos nos primeiros dias para explorar o potencial do MUM, já o usamos para melhorar as pesquisas de informações sobre a vacina COVID-19 e estamos ansiosos por oferecer maneiras mais intuitivas de pesquisar usando uma combinação de texto e imagens no Google Lens nos próximos meses. Estas são aplicações muito especializadas - e o MUM não é usado atualmente para ajudar a hierarquizar e a melhorar a qualidade dos resultados de pesquisa da mesma forma que os sistemas RankBrain, correspondência neural e BERT.
À medida que introduzirmos mais experiências com a tecnologia MUM na Pesquisa, vamos começar a mudar da compreensão avançada de linguagem para uma compreensão mais subtil das informações sobre o mundo. E como em todas as melhorias na Pesquisa, qualquer aplicação MUM passará por um rigoroso processo de avaliação, com especial especial para a aplicação responsável da IA. E quando estes novos sistemas são implementados, juntam-se aos sistemas que funcionam em grupo para tornarem a Pesquisa útil.
Quando exploramos novos lugares, as críticas no Google são um tesouro de conhecimento local que pode indicar-lhe os lugares e as empresas que poderá gostar mais – seja uma pastelaria com o melhor bolo sem glúten ou um restaurante próximo com música ao vivo.
Com milhões de críticas publicadas todos os dias de pessoas de todo o mundo, temos suporte 24 horas por dia para manter as informações no Google relevantes e precisas. Grande parte do nosso trabalho destina-se a evitar conteúdo impróprio que é feito nos bastidores. Por isso queríamos esclarecer o que acontece após um utilizador publicar uma críticas.
Como criamos e aplicamos as nossas políticas
Criamos políticas de conteúdo rígidas para garantir que as críticas são baseadas em experiências do mundo real e para manter comentários irrelevantes e ofensivos fora dos perfis de empresas no Google.
À medida que o mundo evolui, também evoluem as nossas políticas e proteções. Isto ajuda-nos a proteger lugares e empresas de conteúdos que violem políticas e fora do âmbito do tópico quando há potencial para abusos. Por exemplo, quando governos e empresas começaram a exigir certificados de vacinação contra a COVID-19 para o acesso a determinados lugares, implementamos proteções extras para remover críticas no Google que criticam uma empresa pelas suas políticas de saúde e segurança ou por exigirem o certificado.
Uma vez escrita, a política transforma-se em material de treino – tanto para os nossos operadores como para os algoritmos de machine learning – para ajudar as nossas equipas na deteção de conteúdo que viola a política e, por fim, manter as críticas do Google úteis e autênticas.
A moderação das críticas com a ajuda de machine learning
Assim que alguém publica uma crítica, ela é enviada para o nosso sistema de moderação para garantir que a crítica não viola nenhuma das nossas políticas. Poderá pensar no nosso sistema de moderação como uma espécie de segurança que impede que pessoas não autorizadas entrem num prédio - mas, em vez disso, a nossa equipa está a impedir que um mau conteúdo seja publicado no Google.
Dado o volume de críticas que recebemos regularmente, descobrimos que precisamos tanto de uma compreensão diferenciada que os humanos proporcionam como da escala oferecida pelas máquinas para nos ajudar a moderar o conteúdo recebido. Ambos têm pontos fortes diferentes e por isso continuamos a investir tremendamente em ambos.
As máquinas são a nossa primeira linha de defesa porque são boas para identificar padrões. Estes padrões ajudam, geralmente, as nossas máquinas a determinar imediatamente se o conteúdo é legítimo, e a grande maioria do conteúdo falso e fraudulento é removido antes que alguém realmente o veja.
As nossas máquinas analisam as críticas de vários ângulos, tais como:
Treinar uma máquina sobre a diferença entre conteúdo aceitável e aquele que viola as políticas é um equilíbrio delicado. Por exemplo, por vezes a palavra “gay” é usada como um termo depreciativo, e isso não é algo que toleramos nas críticas no Google. Mas se ensinarmos aos nossos modelos de machine learning que ele é usado apenas em discurso de ódio, podemos remover erradamente críticas que promovem um empresário gay ou um espaço seguro LGBTQ+. Os nossos operadores humanos executam regularmente testes de qualidade e completam treino adicional para remover o preconceito dos modelos de machine learning. Ao treinar minuciosamente os nossos modelos de todas as maneiras como certas palavras ou frases são usadas, melhoramos a nossa capacidade de detectar conteúdo que viole políticas e reduzimos a probabilidade de bloquear inadvertidamente uma publicação com críticas legítimas.
Se os nossos sistemas não detectarem violações de políticas, a crítica poderá ser publicada numa questão de segundos. Mas o nosso trabalho não termina quando a crítica é publicada. Os nossos sistemas continuam a analisar o conteúdo contribuído e a observar padrões questionáveis. Estes padrões podem ser qualquer coisa, desde um grupo de pessoas que deixam comentários no mesmo grupo de perfis de empresas até uma empresa ou local que recebe um número invulgarmente alto de críticas de 1 ou 5 estrelas num curto período de tempo.
Mantendo as críticas autênticas e confiáveis
Como qualquer outra plataforma que aceita contribuições de utilizadores, também precisamos de estar atentos aos nossos esforços para evitar que fraudes e abusos apareçam no Maps. Parte disso passa por tornar mais fácil para as pessoas que usam o Google Maps sinalizar qualquer crítica que viole as nossas políticas. Se acha que viu uma crítica que viola políticas do Google, recomendamos que a denuncie à nossa equipa. As empresas podem sinalizar aqui críticas nos seus perfis e os consumidores aqui.
A nossa equipa de operadores humanos trabalha 24 horas por dia para rever o conteúdo sinalizado. Quando encontramos comentários que violam as nossas políticas, removemo-los do Google e, em alguns casos, suspendemos a conta do utilizador e podemos até iniciar processos judiciais.
Além de analisar o conteúdo sinalizado, a nossa equipa trabalha proativamente para identificar possíveis riscos de abuso, o que reduz a probabilidade de ataques de abuso bem-sucedidos. Por exemplo, quando se aproxima um evento com um número significativo de seguidores, como uma eleição, implementamos proteções elevadas para os locais associados ao evento e outras empresas próximas que as pessoas podem procurar no Maps. Continuamos a monitorizar estes locais e empresas até que o risco de abuso diminua de modo a apoiar a nossa missão de publicar apenas críticas autênticas e confiáveis. O nosso investimento em analisar e entender como o conteúdo que recebemos pode ser alvo de abuso tem sido fundamental para nos mantermos um passo à frente dos chamados maus atores.
Com mais de mil milhões de pessoas a recorrer ao Google Maps todos os meses para navegar e explorar, queremos garantir que as informações que os utilizadores vêem, especialmente as críticas, são confiáveis para todos. O nosso trabalho nunca termina; estamos constantemente a melhorar o nosso sistema e a trabalhar arduamente para manter os abusos, incluindo críticas falsas, fora do mapa.