O PaLM 2 traz grandes atualizações para o LLM do Google, mas isso significa que agora ele pode competir de igual para igual com o GPT-4 da OpenAI?

O Google revelou a próxima geração de seu Pathways Language Model (PaLM 2) em 10 de maio de 2023, no Google I/O 2023. Seu novo modelo de linguagem grande (LLM) apresenta muitas melhorias em relação ao seu antecessor (PaLM) e pode finalmente estar pronto para enfrentar seu maior rival, o GPT-4 da OpenAI.

Mas quanta melhoria o Google fez? O PaLM 2 é o diferencial que o Google espera que seja e, mais importante, com tantos recursos semelhantes, como o PaLM 2 é diferente do GPT-4 da OpenAI?

PaLM 2 vs. GPT-4: visão geral do desempenho

O PaLM 2 está repleto de recursos novos e aprimorados sobre seu antecessor. Uma das vantagens exclusivas do PaLM 2 em relação ao GPT-4 é o fato de estar disponível em tamanhos menores específicos para determinados aplicativos que não possuem tanto poder de processamento integrado.

Todos esses tamanhos diferentes têm seus próprios modelos menores chamados Gecko, Otter, Bison e Unicorn, sendo Gecko o menor, seguido por Otter, Bison e, finalmente, Unicorn, o modelo maior.

O Google também reivindica uma melhoria nas capacidades de raciocínio sobre GPT-4 em WinoGrande e DROP, com o primeiro obtendo uma margem estreita em ARC-C. No entanto, há uma melhoria significativa em todos os aspectos quando se trata de PaLM e SOTA.

O PaLM 2 também é melhor em matemática, de acordo com a pesquisa de 91 páginas do Google. Trabalho de pesquisa PaLM 2 [PDF]. No entanto, a forma como o Google e a OpenAI estruturaram seus resultados de teste dificulta a comparação direta dos dois modelos. O Google também omitiu algumas comparações, provavelmente porque o PaLM 2 não teve um desempenho tão bom quanto o GPT-4.

Em MMLU, GPT-4 marcou 86,4, enquanto PaLM 2 marcou 81,2. O mesmo vale para HellaSwag, onde o GPT-4 marcou 95,3, mas o PaLM 2 conseguiu apenas 86,8, e o ARC-E, onde GPT-4 e PaLM 2 obtiveram 96,3 e 89,7, respectivamente.

O maior modelo da família PaLM 2 é o PaLM 2-L. Embora não saibamos seu tamanho exato, sabemos que ele é significativamente menor do que o maior modelo PaLM, mas usa mais computação de treinamento. De acordo com o Google, o PaLM tem 540 bilhões de parâmetros, então o "significativamente menor" deve colocar o PaLM 2 entre 10 e 300 bilhões de parâmetros. Lembre-se de que esses números são apenas suposições com base no que o Google disse no artigo PaLM 2.

Se esse número estiver próximo de 100 bilhões ou menos, o PaLM 2 provavelmente é menor em termos de parâmetros do que GPT-3.5. Considerando que um modelo potencialmente abaixo de 100 bilhões pode ir de igual para igual com GPT-4 e até vencê-lo em algumas tarefas é impressionante. GPT-3.5 inicialmente explodiu tudo fora da água, incluindo o PaLM, mas o PaLM 2 fez uma boa recuperação.

Diferenças nos dados de treinamento GPT-4 e PaLM 2

Embora o Google não tenha revelado o tamanho do conjunto de dados de treinamento do PaLM 2, a empresa relata em seu trabalho de pesquisa que o conjunto de dados de treinamento do novo LLM é significativamente maior. A OpenAI também adotou a mesma abordagem ao revelar o GPT-4, sem fazer reivindicações sobre o tamanho do conjunto de dados de treinamento.

No entanto, o Google queria se concentrar em uma compreensão mais profunda de matemática, lógica, raciocínio e ciência, o que significa que grande parte dos dados de treinamento do PaLM 2 é focada nos tópicos mencionados acima. O Google diz em seu artigo que o corpus de pré-treinamento do PaLM 2 é composto de várias fontes, incluindo documentos da web, livros, código, matemática e dados de conversação, proporcionando melhorias em todos os aspectos, pelo menos quando comparado a Palma.

As habilidades de conversação do PaLM 2 também devem estar em outro nível, considerando que o modelo foi treinado em mais de 100 idiomas para dar uma melhor compreensão contextual e melhor tradução capacidades.

Tanto quanto os dados de treinamento do GPT-4 são confirmados, a OpenAI nos disse que treinou o modelo usando dados disponíveis publicamente e os dados licenciados. página de pesquisa do GPT-4 afirma, "Os dados são um corpus de dados em escala da web, incluindo soluções corretas e incorretas para problemas de matemática, fracos e raciocínio forte, afirmações autocontraditórias e consistentes, e representando uma grande variedade de ideologias e Ideias."

Quando o GPT-4 recebe uma pergunta, ele pode produzir uma ampla variedade de respostas, mas nem todas podem ser relevantes para sua consulta. Para alinhá-lo com a intenção do usuário, a OpenAI ajustou o comportamento do modelo usando aprendizado por reforço com feedback humano.

Embora possamos não saber os dados de treinamento exatos em que esses modelos foram treinados, sabemos que a intenção do treinamento era muito diferente. Teremos que esperar para ver como essa diferença na intenção de treinamento diferencia os dois modelos em uma implantação no mundo real.

Chatbots e serviços PaLM 2 e GPT-4

O primeiro portal para acessar ambos os LLMs está usando seus respectivos chatbots, PaLM 2's Bard e GPT-4's ChatGPT. Dito isso, o GPT-4 está protegido por um acesso pago com o ChatGPT Plus, e os usuários gratuitos só têm acesso ao GPT-3.5. O Bard, por outro lado, é gratuito para todos e está disponível em 180 países.

Isso não quer dizer que você também não possa acessar o GPT-4 gratuitamente. O Bing AI Chat da Microsoft usa GPT-4 e é totalmente gratuito, aberto a todos e disponível ao lado do Bing Search, o maior rival do Google na área.

O Google I/O 2023 foi repleto de anúncios sobre como o PaLM 2 e a integração de IA generativa melhorarão o Google Workspace experiência com recursos de IA chegando ao Google Docs, Sheets, Slides, Gmail e praticamente todos os serviços que o gigante das buscas oferece. Além disso, o Google confirmou que o PaLM 2 já foi integrado a mais de 25 produtos do Google, incluindo Android e YouTube.

Em comparação, a Microsoft já trouxe recursos de IA para o pacote de programas do Microsoft Office e muitos de seus serviços. No momento, você pode experimentar os dois LLMs em suas próprias versões de ofertas semelhantes de duas empresas rivais que se enfrentam na batalha da IA.

No entanto, desde que o GPT-4 foi lançado mais cedo e teve o cuidado de evitar muitos dos erros que o Google cometeu com o Bard original, tem sido o LLM de fato para desenvolvedores terceirizados, startups e praticamente qualquer outra pessoa que queira incorporar um modelo de IA capaz em seus serviços. distante. Nós temos uma lista de aplicativos GPT-4 se você quiser verificá-los.

Isso não quer dizer que os desenvolvedores não mudarão ou pelo menos experimentarão o PaLM 2, mas o Google ainda precisa acompanhar o OpenAI nessa frente. E o fato de o PaLM 2 ser de código aberto, em vez de ser bloqueado por uma API paga, significa que ele tem potencial para ser mais amplamente adotado do que o GPT-4.

O PaLM 2 pode enfrentar o GPT-4?

O PaLM 2 ainda é muito novo, então a resposta se ele pode ou não aceitar o GPT-4 ainda não foi respondida. No entanto, com tudo o que o Google está prometendo e a maneira agressiva que decidiu usar para propagá-lo, parece que o PaLM 2 pode dar ao GPT-4 uma corrida pelo seu dinheiro.

No entanto, o GPT-4 ainda é um modelo bastante capaz e, como mencionado anteriormente, supera o PaLM 2 em algumas comparações. Dito isso, os vários modelos menores do PaLM 2 oferecem uma vantagem irrefutável. O próprio Gecko é tão leve que pode funcionar em dispositivos móveis, mesmo quando estiver offline. Isso significa que o PaLM 2 pode suportar uma classe totalmente diferente de produtos e dispositivos que podem ter dificuldades para usar o GPT-4.

A corrida da IA ​​está esquentando

Com o lançamento do PaLM2, a corrida pelo domínio da IA ​​esquentou, já que este pode ser apenas o primeiro oponente digno a enfrentar o GPT-4. Com um novo modelo de IA multimodal chamado "Gemini" também em treinamento, o Google não mostra sinais de desaceleração aqui.