Os usuários geralmente acessam modelos de linguagem grandes (LLMs) por meio do uso de uma interface de usuário por meio de uma API. Apesar de oferecer diversas vantagens, o uso de APIs também apresenta limitações, como a necessidade de conexão constante com a internet conexão, personalizações limitadas, possíveis problemas de segurança e empresas que limitam os recursos do modelo por meio de um paywall.

Com LLMs quantizados agora disponíveis no HuggingFace e ecossistemas de IA como H20, Text Gen e GPT4All permitindo que você carregue pesos LLM em seu computador, agora você tem uma opção para um livre, flexível e seguro IA.

Para começar, aqui estão sete dos melhores LLMs locais/offline que você pode usar agora mesmo!

1. Hermes GPTQ

Um modelo de linguagem de última geração ajustado usando um conjunto de dados de 300.000 instruções da Nous Research. O Hermes é baseado no LlaMA2 LLM da Meta e foi ajustado usando principalmente saídas GPT-4 sintéticas.

Modelo

Hermes 13b GPTQ

Tamanho do modelo

7,26 GB

Parâmetros

13 bilhões

Quantização

4 bits

Tipo

LlaMA2

Licença

GPL 3

O uso de LlaMA2 como seu modelo base permite que o Hermes dobre o tamanho do contexto ou um tamanho máximo de token de 4.096. Combinando o tamanho de contexto longo e uma arquitetura de codificador, o Hermes é conhecido por fornecer respostas longas e baixas taxas de alucinação. Isso faz da Hermes um ótimo modelo para vários processamento de linguagem natural (PLN) tarefas, como escrever código, criar conteúdo e ser um chatbot.

Existem várias quantizações e versões do novo Hermes GPTQ. Recomendamos que você experimente primeiro o modelo Hermes-Llama2 13B-GPTQ, pois é a versão mais fácil de implantar e ainda ter ótimo desempenho.

2. Falcon Instruct GPTQ

Crédito da imagem: John Schnobrich/Unsplash

Esta versão quantizada do Falcon é baseada na arquitetura somente do decodificador ajustada sobre o modelo Flacon-7b bruto da TII. O modelo básico do Falcon foi treinado usando 1,5 trilhão de tokens provenientes da Internet pública. Como um modelo somente de decodificador baseado em instrução licenciado sob o Apache 2, o Falcon Instruct é perfeito para pequenas empresas que procuram um modelo para usar na tradução de idiomas e entrada de dados.

Modelo

Falcon-7B-Instruir

Tamanho do modelo

7,58 GB

Parâmetros

7 bilhões

Quantização

4 bits

Tipo

Falcão

Licença

Apache 2.0

No entanto, esta versão do Falcon não é ideal para ajuste fino e serve apenas para inferência. Se você quiser ajustar o Falcon, terá que usar o modelo bruto, que pode exigir acesso a hardware de treinamento de nível empresarial, como NVIDIA DGX ou Aceleradores AMD Instinct AI.

3.GPT4ALL-J Groovy

Crédito da imagem: Nubelson Fernandes/Unplash

GPT4All-J Groovy é um modelo somente decodificador ajustado pela Nomic AI e licenciado sob Apache 2.0. GPT4ALL-J Groovy é baseado no modelo GPT-J original, que é conhecido por ser ótimo na geração de texto a partir de prompts. GPT4ALL -J Groovy foi ajustado como um modelo de bate-papo, o que é ótimo para aplicativos de geração de texto rápidos e criativos. Isso torna o GPT4All-J Groovy ideal para criadores de conteúdo, auxiliando-os na escrita e trabalhos criativos, seja poesia, música ou histórias.

Modelo

GPT4ALL-J Groovy

Tamanho do modelo

3,53 GB

Parâmetros

7 bilhões

Quantização

4 bits

Tipo

GPT-J

Licença

Apache 2.0

Infelizmente, o modelo GPT-J básico foi treinado em um conjunto de dados somente em inglês, o que significa que mesmo esse modelo GPT4ALL-J ajustado com precisão só pode conversar e executar aplicativos de geração de texto em inglês.

4.WizardCoder-15B-GPTQ

Crédito da imagem: James Harrison/Unsplash

Procurando um modelo especificamente ajustado para codificação? Apesar de seu tamanho substancialmente menor, o WizardCoder é conhecido por ser um dos melhores modelos de codificação, superando outros modelos, como LlaMA-65B, InstructCodeT5+ e CodeGeeX. Este modelo foi treinado usando um método Evol-Instruct específico de codificação, que edita automaticamente seus prompts para ser um prompt relacionado à codificação mais eficaz que o modelo possa entender melhor.

Modelo

WizardCoder-15B-GPTQ

Tamanho do modelo

7,58 GB

Parâmetros

15 bilhões

Quantização

4 bits

Tipo

LlaMA

Licença

bigcode-openrail-m

Sendo quantizado em um modelo de 4 bits, o WizardCoder agora pode ser usado em PCs comuns, onde os indivíduos podem usá-lo para experimentação e como um assistente de codificação para programas e scripts mais simples.

5. Wizard Vicuna Uncensored-GPTQ

Wizard-Vicuna GPTQ é uma versão quantizada do Wizard Vicuna baseada no modelo LlaMA. Ao contrário da maioria dos LLMs lançados ao público, o Wizard-Vicunha é um modelo sem censura com seu alinhamento removido. Isso significa que o modelo não possui os mesmos padrões morais e de segurança da maioria dos modelos.

Modelo

Wizard-Vicuna-30B-Uncensored-GPTQ

Tamanho do modelo

16,94 GB

Parâmetros

30 bilhões

Quantização

4 bits

Tipo

LlaMA

Licença

GPL 3

Embora possivelmente representando um Problema de controle de alinhamento AI, ter um LLM sem censura também traz o melhor do modelo ao poder responder sem quaisquer restrições. Isso também permite que os usuários adicionem seu alinhamento personalizado sobre como a IA deve agir ou responder com base em um determinado prompt.

6. Orca Mini-GPTQ

Crédito da imagem: Alex Kondratiev/Unsplash

Procurando experimentar um modelo treinado em um método de aprendizado exclusivo? Orca Mini é uma implementação de modelo não oficial dos trabalhos de pesquisa Orca da Microsoft. Foi treinado usando o método de aprendizagem professor-aluno, onde o conjunto de dados estava cheio de explicações em vez de apenas prompts e respostas. Isso, em teoria, deve resultar em um aluno mais inteligente, onde o modelo pode entender o problema, em vez de apenas procurar pares de entrada e saída, como funcionam os LLMs típicos.

Modelo

Orca Mini-GPTQ

Tamanho do modelo

8,11 GB

Parâmetros

3 bilhões

Quantização

4 bits

Tipo

LlaMA

Licença

MIT

Com apenas três bilhões de parâmetros, o Orca Mini GPTQ é fácil de executar, mesmo em sistemas menos potentes. No entanto, esse modelo não deve ser usado para nada profissional, pois gera informações falsas, respostas tendenciosas e ofensivas. Este modelo deve ser utilizado para aprender e experimentar o Orca e seus métodos.

7.LlaMA 2 Chat GPTQ

O LlaMA 2 é o sucessor do LlaMA LLM original, que gerou a maioria dos modelos nesta lista. O LlaMA 2 é uma coleção de vários LLMs, cada um treinado usando de 7 a 70 bilhões de parâmetros. No geral, o LlaMA 2 foi pré-treinado usando 2 trilhões de tokens de dados retirados de conjuntos de dados de instrução disponíveis publicamente.

Modelo

Falcon-40B-Instruct-GPTQ

Tamanho do modelo

7,26 GB

Parâmetros

3 bilhões

Quantização

4 bits

Tipo

OpenLlaMA

Licença

EULA (Metalicença)

O LlaMA 2 destina-se ao uso comercial e de pesquisa. Como tal, este modelo é melhor usado após o ajuste fino para melhor desempenho em tarefas específicas. Este modelo GPTQ de bate-papo LlaMA 2 específico foi ajustado e otimizado para diálogo em inglês, tornando-o o modelo perfeito para empresas e organizações como um chatbot com pouco ou nenhum treinamento extra obrigatório. De acordo com os termos, as empresas com menos de 700 milhões de usuários podem usar o LlaMA 2 sem pagar nenhuma taxa de licenciamento da Meta ou da Microsoft.

Experimente modelos de idiomas grandes locais hoje

Alguns dos modelos listados acima possuem várias versões em termos de parâmetros. Em geral, as versões de parâmetros mais altos produzem melhores resultados, mas requerem hardware mais poderoso, enquanto as versões de parâmetros mais baixos geram resultados de qualidade inferior, mas podem ser executados em hardware de baixo custo. Se você não tiver certeza se o seu PC pode executar o modelo, tente ir primeiro para a versão de parâmetro inferior e, em seguida, continue até sentir que a queda de desempenho não é mais aceitável.

Como os modelos quantizados nesta lista ocupam apenas alguns gigabytes de espaço e plataformas de implantação de modelos como GPT4All e Text-Generation-WebUI pode ser facilmente instalado por meio de seus instaladores de um clique, experimentar vários modelos e versões de modelo não deve demorar muito tempo e esforço.

Então, o que você está esperando? Experimente um modelo local hoje!