O GPT-4 está aqui e esses são os novos recursos que você deve conferir.
OpenAI finalmente lançou sua tão esperada atualização GPT, GPT-4. O Large Language Model (LLM) vem com alguns novos e poderosos recursos e capacidades que já chocaram os usuários em todo o mundo.
Além de ser significativamente melhor do que o GPT-3.5, o LLM existente que alimenta o chatbot viral ChatGPT da OpenAI, o GPT-4 pode entender entradas mais complexas, tem um limite de entrada de caracteres muito maior, possui recursos multimodais e é supostamente mais seguro para usar.
1. GPT-4 pode entender entradas mais complexas
Um dos maiores novos recursos do GPT-4 é sua capacidade de entender prompts mais complexos e diferenciados. De acordo com OpenAI, GPT-4 "exibe desempenho de nível humano em vários benchmarks profissionais e acadêmicos."
Isso foi demonstrado ao submeter o GPT-4 a vários exames de nível humano e testes padronizados, como SAT, BAR e GRE, sem nenhum treinamento específico. O GTP-4 não apenas entendeu e resolveu esses testes com uma pontuação relativamente alta em todos os aspectos, mas também superou seu predecessor, GPT-3.5, todas as vezes.
A capacidade de entender prompts de entrada com mais nuances também é auxiliada pelo fato de o GPT-4 ter um limite de palavras muito maior. O novo modelo pode lidar com prompts de entrada de até 25.000 palavras (para contexto, o GPT-3.5 foi limitado a 8.000 palavras). Isso afetará diretamente os detalhes que os usuários podem espremer em seus prompts, dando ao modelo muito mais informações para trabalhar e produzindo saídas mais longas.
O GPT-4 também oferece suporte a mais de 26 idiomas, incluindo idiomas de poucos recursos, como letão, galês e suaíli. Quando comparado com a precisão de três tiros no benchmark MMLU, o GPT-4 superou o GPT-3.5, bem como outros LLMs líderes, como PaLM e Chinchilla, em termos de desempenho no idioma inglês em 24 idiomas.
2. Capacidades Multimodais
A versão anterior do ChatGPT estava limitado a apenas prompts de texto. Em contraste, um dos recursos mais recentes do GPT-4 são seus recursos multimodais. O modelo pode aceitar prompts de texto e imagem.
Isso significa que a IA pode aceitar uma imagem como entrada, interpretá-la e entendê-la como um prompt de texto. Esse recurso abrange todos os tamanhos e tipos de imagens e texto, incluindo documentos que combinam os dois, esboços feitos à mão e até capturas de tela.
No entanto, os recursos de leitura de imagens do GPT-4 vão além de simplesmente interpretá-los. A OpenAI mostrou isso em seu fluxo de desenvolvedor (acima), onde eles forneceram ao GPT-4 uma maquete desenhada à mão de um site de piadas. O modelo foi encarregado de escrever código HTML e JavaScript para transformar a maquete em um site, substituindo as piadas por outras reais.
GPT-4 escreveu o código usando o layout especificado na maquete. Após o teste, o código produziu um site de trabalho com, como você pode imaginar, piadas reais. Quer dizer Os avanços da IA significarão o fim da programação? Não é bem assim, mas ainda é um recurso que será útil para auxiliar os programadores.
Por mais promissor que esse recurso pareça, ele ainda está em pré-visualização de pesquisa e não está disponível ao público. Além disso, o modelo leva muito tempo para processar entradas visuais, com o próprio OpenAI afirmando que pode levar trabalho e tempo para ficar mais rápido.
3. Maior dirigibilidade
A OpenAI também afirma que o GPT-4 tem um alto grau de dirigibilidade. Também tornou mais difícil para a IA quebrar o personagem, o que significa que é menos provável que falhe quando implementado em um aplicativo para interpretar um determinado personagem.
Os desenvolvedores podem prescrever o estilo e a tarefa de sua IA descrevendo a direção na mensagem do "sistema". Essas mensagens permitem que os usuários da API personalizem fortemente a experiência do usuário dentro de certos limites. Como essas mensagens também são a maneira mais fácil de "desbloquear" o modelo, eles também estão trabalhando para torná-las mais seguras. A demonstração do GPT-4 acertou em cheio neste ponto, fazendo com que um usuário tentasse impedir o GPT-4 de ser um tutor socrático e responder à sua consulta. No entanto, o modelo se recusou a quebrar o personagem.
4. Segurança
OpenAI passou seis meses fazendo GPT-4 mais seguro e alinhado. A empresa afirma que tem 82% menos probabilidade de responder a solicitações de conteúdo impróprio ou não permitido, 29% mais probabilidade de responder de acordo com as políticas da OpenAI a solicitações confidenciais e 40% mais propensos a produzir respostas factuais em comparação com GPT-3.5.
Não é perfeito, e você ainda pode esperar que ele "alucine" de vez em quando e pode estar errado em suas previsões. Claro, o GPT-4 tem melhores percepções e poder de previsão, mas você ainda não deve confiar cegamente na IA.
5. Melhorias de desempenho
Além de avaliar o desempenho do modelo em exames humanos, a OpenAI também avaliou o bot em benchmarks tradicionais projetados para modelos de aprendizado de máquina.
Ele afirma que o GPT-4 "supera consideravelmente" os LLMs existentes e "a maioria dos modelos de última geração". Esses benchmarks incluem o acima mencionados MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval e Drop, todos os quais testam capacidades individuais.
Você encontrará resultados semelhantes ao comparar o desempenho em benchmarks de visão acadêmica. Os testes executados incluem VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA e LSMDC, todos os quais são os melhores do GPT-4. No entanto, a OpenAI afirmou que os resultados do GPT-4 nesses testes “não representam totalmente a extensão de suas capacidades”, pois os pesquisadores continuam encontrando coisas novas e mais desafiadoras que o modelo pode enfrentar.
Pequeno passo para GPT-4, salto gigante para IA
Com mais precisão, segurança de uso e recursos avançados, o GPT-4 foi lançado ao público por meio do plano de assinatura mensal ChatGPT+ que custa 20 por mês. Além disso, a OpenAI fez parceria com diferentes organizações para começar a criar produtos voltados para o consumidor com GPT-4. Microsoft Bing, Duolingo, Stripe, Be My Eyes e Khan Academy, entre outros, já implementaram o GPT-4 em seus produtos.
O GPT-4 pode ser uma atualização incremental sobre o GPT-3.5, mas é uma grande vitória para a IA em geral. À medida que o modelo se torna mais acessível, tanto para o usuário médio quanto para os desenvolvedores por meio de sua API, parece que ele será um bom argumento para implementações de LLM em todos os campos.