Você provavelmente já ouviu falar do GPT da OpenAI, mas eles não são os únicos LLMs do mercado.

Principais conclusões

  • O GPT-4 da OpenAI é o modelo de linguagem grande mais avançado e amplamente utilizado, com 1,76 trilhão de parâmetros e habilidades multimodais.
  • Claude 2 da Anthropic compete com GPT-4 em tarefas de escrita criativa e se mantém apesar de ter menos recursos.
  • O PaLM 2 do Google, embora não seja um assassino do GPT-4, é um modelo de linguagem poderoso com fortes habilidades multilíngues e criativas. Falcon-180B é um modelo de código aberto que rivaliza com gigantes comerciais e pode enfrentar o GPT-3.5.

É a temporada da IA, e as empresas de tecnologia estão produzindo grandes modelos de linguagem, como o pão de uma padaria. Novos modelos são lançados rapidamente e está se tornando muito difícil acompanhar.

Mas em meio à enxurrada de novos lançamentos, apenas alguns modelos chegaram ao topo e provaram ser verdadeiros concorrentes no grande espaço de modelos de linguagem. À medida que nos aproximamos do final de 2023, reunimos os seis modelos de linguagem de grande porte mais impressionantes que você deve experimentar.

1. GPT-4 da OpenAI

GPT-4 é o modelo de linguagem grande mais avançado disponível ao público até o momento. Desenvolvido pela OpenAI e lançado em março de 2023, GPT-4 é a mais recente iteração da série Generative Pre-trained Transformer que começou em 2018. Com suas imensas capacidades, o GPT-4 se tornou um dos grandes modelos de linguagem mais utilizados e populares do mundo.

Embora não seja oficialmente confirmado, fontes estimam que o GPT-4 pode conter impressionantes 1,76 trilhões de parâmetros, cerca de dez vezes maior que seu antecessor, GPT-3.5, e cinco vezes maior que o carro-chefe do Google, PaLM 2. Essa escala massiva habilita as habilidades multimodais do GPT-4, permitindo processar texto e imagens como entrada. Como resultado, o GPT-4 pode interpretar e descrever informações visuais como diagramas e capturas de tela, além de texto. Sua natureza multimodal proporciona uma compreensão mais humana dos dados do mundo real.

Em benchmarks científicos, o GPT-4 supera significativamente outros modelos contemporâneos em vários testes. Embora os benchmarks por si só não demonstrem totalmente os pontos fortes de um modelo, os casos de uso do mundo real mostraram que o GPT-4 é excepcionalmente hábil na resolução intuitiva de problemas práticos. Atualmente, o GPT-4 é cobrado a US$ 20 por mês e acessível através do plano Plus do ChatGPT.

2. Claude 2 da Antrópico

Crédito da imagem: Antrópico

Embora não seja tão popular quanto o GPT-4, o Claude 2, desenvolvido pela Anthropic AI, pode corresponder aos benchmarks técnicos e ao desempenho do mundo real do GPT -4 em diversas áreas. Em alguns testes padronizados, incluindo exames selecionados, Claude 2 supera o GPT-4. O modelo de linguagem de IA também tem uma janela de contexto muito superior em cerca de 100.000 tokens, em comparação com os modelos de tokens de 8k e 32k do GPT -4. Embora um contexto maior nem sempre se traduza em melhor desempenho, a capacidade expandida do Claude 2 oferece vantagens claras, como digerir livros inteiros de 75.000 palavras para análise.

No desempenho geral, o GPT-4 continua superior, mas nossos testes internos mostram que Claude 2 excede em diversas tarefas de escrita criativa. Claude 2 também está atrás do GPT-4 em habilidades de programação e matemática com base em nossas avaliações, mas é excelente em fornecer respostas criativas e semelhantes às humanas. Quando solicitamos a todos os modelos desta lista que escrevessem ou reescrevessem uma peça criativa, seis em cada dez vezes, escolhemos o resultado de Claude 2 por seus resultados de sonoridade natural e humana. Atualmente, Claude 2 está disponível gratuitamente através do chatbot Claude AI. Há também um plano pago de US$ 20 para acesso a recursos extras.

Apesar de ter menos apoio financeiro do que gigantes como OpenAI e Microsoft, o modelo Claude 2 AI da Anthropic se compara aos populares modelos GPT e à série PaLM do Google. Para uma IA com menos recursos, Claude 2 é impressionantemente competitivo. Se forçado a apostar em qual modelo existente tem melhores chances de rivalizar com o GPT em um futuro próximo, Claude 2 parece a aposta mais segura. Embora desarmado em termos de financiamento, as capacidades avançadas de Claude 2 sugerem que ele pode enfrentar até mesmo gigantes bem financiados (embora valha a pena notar que o Google fez várias contribuições grandes para Antrópico). O modelo supera sua categoria de peso e se mostra promissor como um desafiante emergente.

3. GPT-3.5 da OpenAI

Crédito da imagem: Marcelo Mollaretti/Obturador

Embora ofuscado pelo lançamento do GPT-4, o GPT-3.5 e os seus 175 mil milhões de parâmetros não devem ser subestimados. Por meio de ajustes iterativos e atualizações focadas em desempenho, precisão e segurança, o GPT-3.5 percorreu um longo caminho desde o modelo GPT-3 original. Embora não possua os recursos multimodais do GPT -4 e fique para trás no comprimento do contexto e na contagem de parâmetros, O GPT-3.5 permanece altamente capaz, sendo o GPT-4 o único modelo capaz de superar seu desempenho geral decisivamente.

Apesar de ser um modelo de segundo nível na família GPT, o GPT-3.5 pode se manter e até superar os principais modelos do Google e Meta em vários benchmarks. Em testes lado a lado de habilidades matemáticas e de programação contra o PaLM 2 do Google, as diferenças não foram gritantes, com o GPT-3.5 até tendo uma ligeira vantagem em alguns casos. Tarefas mais criativas, como humor e redação narrativa, fizeram com que o GPT-3.5 avançasse decisivamente.

Assim, embora o GPT-4 represente um novo marco na IA, o GPT-3.5 continua a ser um modelo impressionantemente poderoso, capaz de competir e, por vezes, superar até mesmo as alternativas mais avançadas. O seu refinamento contínuo garante que permanece relevante mesmo ao lado de modelos mais chamativos da próxima geração.

4. PaLM 2 do Google

Crédito da imagem: Google

Ao avaliar as capacidades de um modelo de IA, a fórmula comprovada é ler o relatório técnico e verifique as pontuações de benchmark, mas pegue tudo o que você aprendeu com cautela e teste o modelo você mesmo. Por mais contraintuitivo que possa parecer, os resultados de benchmark nem sempre se alinham com o desempenho do mundo real para alguns modelos de IA. No papel, o PaLM 2 do Google deveria ser o assassino do GPT-4, com resultados de testes oficiais sugerindo que ele corresponde ao GPT-4 em alguns benchmarks. No entanto, no uso diário, surge uma imagem diferente.

Em raciocínio lógico, matemática e criatividade, o PaLM 2 fica aquém do GPT-4. Ele também fica atrás de Claude da Anthropic em uma série de tarefas de escrita criativa. No entanto, embora não consiga cumprir o seu papel de assassino do GPT-4, O PaLM 2 do Google continua sendo um modelo de linguagem poderoso por direito próprio, com imensas capacidades. Grande parte do sentimento negativo em torno dele decorre de comparações com modelos como o GPT-4, e não de um desempenho totalmente ruim.

Com 340 bilhões de parâmetros, o PaLM 2 está entre os maiores modelos do mundo. É particularmente excelente em tarefas multilíngues e possui fortes habilidades matemáticas e de programação. Embora não seja o melhor nisso, o PaLM 2 também é bastante eficiente em tarefas criativas como escrever. Assim, embora os benchmarks pintassem um quadro otimista que não se materializou totalmente, o PaLM 2 ainda demonstra habilidades impressionantes de IA, mesmo que não supere todos os concorrentes em todos os níveis.

5. Falcon-180B da TII

A menos que você esteja acompanhando o ritmo acelerado dos lançamentos de modelos de linguagem de IA, provavelmente nunca encontrou o Falcon-180B. Desenvolvido pelo Instituto de Inovação Tecnológica dos Emirados Árabes Unidos, o Falcon-180 de 180 bilhões de parâmetros é um dos mais poderosos modelos de linguagem de código aberto por aí, mesmo que não tenha o reconhecimento de nome dos modelos GPT ou o uso generalizado de Meta's Lhama 2. Mas não se engane – o Falcon-180B pode enfrentar os melhores da classe.

Os resultados do benchmark revelam que o Falcon-180B supera a maioria dos modelos de código aberto e compete com gigantes comerciais como PaLM 2 e GPT-3.5. Ao testar tarefas de matemática, codificação, raciocínio e escrita criativa, ele superou até mesmo o GPT-3.5 e o PaLM 2 em vezes. Se classificarmos GPT-4, GPT-3.5 e Falcon-180B, colocaríamos o Falcon-180B diretamente entre GPT-4 e GPT-3.5 por seus pontos fortes em vários casos de uso.

Embora não possamos dizer com segurança que é melhor que o GPT-3.5 em desempenho geral, ele se destaca. Embora obscuro, este modelo merece atenção por igualar ou exceder as capacidades de alternativas mais conhecidas. Você pode experimentar o modelo Falcon-180B em Abraçando o rosto (uma plataforma LLM de código aberto).

Llama 2, o modelo de linguagem grande de 70 bilhões de parâmetros da Meta AI, baseia-se em seu antecessor, Llama 1. Embora menor que os modelos líderes, o Llama 2 supera significativamente a maioria dos LLMs de código aberto disponíveis publicamente em benchmarks e uso no mundo real. Uma exceção seria o Falcon-180B.

Testamos o Llama 2 contra GPT-4, GPT-3.5, Claude 2 e PaLM 2 para avaliar suas capacidades. Não é novidade que o GPT-4 superou o Llama 2 em quase todos os parâmetros. No entanto, o Llama 2 resistiu ao GPT-3.5 e ao PaLM 2 em várias avaliações. Embora fosse impreciso afirmar que o Llama 2 é superior ao PaLM 2, o Llama 2 resolveu muitos problemas que confundiam o PaLM 2, incluindo tarefas de codificação. Claude 2 e GPT-3.5 superaram o Llama 2 em algumas áreas, mas foram decisivamente melhores apenas em um número limitado de tarefas.

Assim, embora não exceda as capacidades dos maiores modelos proprietários, Llama 2 de código aberto ultrapassa sua classe de peso. Para um modelo disponível abertamente, ele demonstra um desempenho impressionante, rivalizando com gigantes da IA ​​como o PaLM 2 em avaliações selecionadas. Llama 2 oferece uma visão do potencial futuro dos modelos de linguagem de código aberto.

A lacuna de desempenho entre os modelos de IA está diminuindo

Embora o cenário da IA ​​esteja evoluindo em um ritmo alucinante, o GPT-4 da OpenAI continua sendo o líder do grupo. No entanto, embora o GPT-4 permaneça incomparável em escala e desempenho, modelos como o Claude 2 mostram que, com habilidade suficiente, modelos menores podem competir em áreas selecionadas. O PaLM 2 do Google, apesar de ficar aquém de algumas expectativas elevadas, ainda apresenta capacidades profundas. E o Falcon-180B prova que as iniciativas de código aberto podem estar lado a lado com os titãs da indústria, desde que tenham recursos suficientes.