Os 7 melhores LLMs locais/offline que você pode experimentar agora

Os usuários geralmente acessam modelos de linguagem grandes (LLMs) por meio do uso de uma interface de usuário por meio de uma API. Apesar de oferecer diversas vantagens, o uso de APIs também apresenta limitações, como a necessidade de conexão constante com a internet conexão, personalizações limitadas, possíveis problemas de segurança e empresas que limitam os recursos do modelo por meio de um paywall.

Com LLMs quantizados agora disponíveis no HuggingFace e ecossistemas de IA como H20, Text Gen e GPT4All permitindo que você carregue pesos LLM em seu computador, agora você tem uma opção para um livre, flexível e seguro IA.

Para começar, aqui estão sete dos melhores LLMs locais/offline que você pode usar agora mesmo!

1. Hermes GPTQ

Um modelo de linguagem de última geração ajustado usando um conjunto de dados de 300.000 instruções da Nous Research. O Hermes é baseado no LlaMA2 LLM da Meta e foi ajustado usando principalmente saídas GPT-4 sintéticas.

Modelo	Hermes 13b GPTQ
Tamanho do modelo	7,26 GB
Parâmetros	13 bilhões
Quantização	4 bits
Tipo	LlaMA2
Licença	GPL 3

instagram viewer

O uso de LlaMA2 como seu modelo base permite que o Hermes dobre o tamanho do contexto ou um tamanho máximo de token de 4.096. Combinando o tamanho de contexto longo e uma arquitetura de codificador, o Hermes é conhecido por fornecer respostas longas e baixas taxas de alucinação. Isso faz da Hermes um ótimo modelo para vários processamento de linguagem natural (PLN) tarefas, como escrever código, criar conteúdo e ser um chatbot.

Existem várias quantizações e versões do novo Hermes GPTQ. Recomendamos que você experimente primeiro o modelo Hermes-Llama2 13B-GPTQ, pois é a versão mais fácil de implantar e ainda ter ótimo desempenho.

2. Falcon Instruct GPTQ

Crédito da imagem: John Schnobrich/Unsplash

Esta versão quantizada do Falcon é baseada na arquitetura somente do decodificador ajustada sobre o modelo Flacon-7b bruto da TII. O modelo básico do Falcon foi treinado usando 1,5 trilhão de tokens provenientes da Internet pública. Como um modelo somente de decodificador baseado em instrução licenciado sob o Apache 2, o Falcon Instruct é perfeito para pequenas empresas que procuram um modelo para usar na tradução de idiomas e entrada de dados.

Modelo	Falcon-7B-Instruir
Tamanho do modelo	7,58 GB
Parâmetros	7 bilhões
Quantização	4 bits
Tipo	Falcão
Licença	Apache 2.0

No entanto, esta versão do Falcon não é ideal para ajuste fino e serve apenas para inferência. Se você quiser ajustar o Falcon, terá que usar o modelo bruto, que pode exigir acesso a hardware de treinamento de nível empresarial, como NVIDIA DGX ou Aceleradores AMD Instinct AI.

3.GPT4ALL-J Groovy

Crédito da imagem: Nubelson Fernandes/Unplash

GPT4All-J Groovy é um modelo somente decodificador ajustado pela Nomic AI e licenciado sob Apache 2.0. GPT4ALL-J Groovy é baseado no modelo GPT-J original, que é conhecido por ser ótimo na geração de texto a partir de prompts. GPT4ALL -J Groovy foi ajustado como um modelo de bate-papo, o que é ótimo para aplicativos de geração de texto rápidos e criativos. Isso torna o GPT4All-J Groovy ideal para criadores de conteúdo, auxiliando-os na escrita e trabalhos criativos, seja poesia, música ou histórias.

Modelo	GPT4ALL-J Groovy
Tamanho do modelo	3,53 GB
Parâmetros	7 bilhões
Quantização	4 bits
Tipo	GPT-J
Licença	Apache 2.0

Infelizmente, o modelo GPT-J básico foi treinado em um conjunto de dados somente em inglês, o que significa que mesmo esse modelo GPT4ALL-J ajustado com precisão só pode conversar e executar aplicativos de geração de texto em inglês.

4.WizardCoder-15B-GPTQ

Crédito da imagem: James Harrison/Unsplash

Procurando um modelo especificamente ajustado para codificação? Apesar de seu tamanho substancialmente menor, o WizardCoder é conhecido por ser um dos melhores modelos de codificação, superando outros modelos, como LlaMA-65B, InstructCodeT5+ e CodeGeeX. Este modelo foi treinado usando um método Evol-Instruct específico de codificação, que edita automaticamente seus prompts para ser um prompt relacionado à codificação mais eficaz que o modelo possa entender melhor.

Modelo	WizardCoder-15B-GPTQ
Tamanho do modelo	7,58 GB
Parâmetros	15 bilhões
Quantização	4 bits
Tipo	LlaMA
Licença	bigcode-openrail-m

Sendo quantizado em um modelo de 4 bits, o WizardCoder agora pode ser usado em PCs comuns, onde os indivíduos podem usá-lo para experimentação e como um assistente de codificação para programas e scripts mais simples.

5. Wizard Vicuna Uncensored-GPTQ

Wizard-Vicuna GPTQ é uma versão quantizada do Wizard Vicuna baseada no modelo LlaMA. Ao contrário da maioria dos LLMs lançados ao público, o Wizard-Vicunha é um modelo sem censura com seu alinhamento removido. Isso significa que o modelo não possui os mesmos padrões morais e de segurança da maioria dos modelos.

Modelo	Wizard-Vicuna-30B-Uncensored-GPTQ
Tamanho do modelo	16,94 GB
Parâmetros	30 bilhões
Quantização	4 bits
Tipo	LlaMA
Licença	GPL 3

Embora possivelmente representando um Problema de controle de alinhamento AI, ter um LLM sem censura também traz o melhor do modelo ao poder responder sem quaisquer restrições. Isso também permite que os usuários adicionem seu alinhamento personalizado sobre como a IA deve agir ou responder com base em um determinado prompt.

6. Orca Mini-GPTQ

Crédito da imagem: Alex Kondratiev/Unsplash

Procurando experimentar um modelo treinado em um método de aprendizado exclusivo? Orca Mini é uma implementação de modelo não oficial dos trabalhos de pesquisa Orca da Microsoft. Foi treinado usando o método de aprendizagem professor-aluno, onde o conjunto de dados estava cheio de explicações em vez de apenas prompts e respostas. Isso, em teoria, deve resultar em um aluno mais inteligente, onde o modelo pode entender o problema, em vez de apenas procurar pares de entrada e saída, como funcionam os LLMs típicos.

Modelo	Orca Mini-GPTQ
Tamanho do modelo	8,11 GB
Parâmetros	3 bilhões
Quantização	4 bits
Tipo	LlaMA
Licença	MIT

Com apenas três bilhões de parâmetros, o Orca Mini GPTQ é fácil de executar, mesmo em sistemas menos potentes. No entanto, esse modelo não deve ser usado para nada profissional, pois gera informações falsas, respostas tendenciosas e ofensivas. Este modelo deve ser utilizado para aprender e experimentar o Orca e seus métodos.

7.LlaMA 2 Chat GPTQ

O LlaMA 2 é o sucessor do LlaMA LLM original, que gerou a maioria dos modelos nesta lista. O LlaMA 2 é uma coleção de vários LLMs, cada um treinado usando de 7 a 70 bilhões de parâmetros. No geral, o LlaMA 2 foi pré-treinado usando 2 trilhões de tokens de dados retirados de conjuntos de dados de instrução disponíveis publicamente.

Modelo	Falcon-40B-Instruct-GPTQ
Tamanho do modelo	7,26 GB
Parâmetros	3 bilhões
Quantização	4 bits
Tipo	OpenLlaMA
Licença	EULA (Metalicença)

O LlaMA 2 destina-se ao uso comercial e de pesquisa. Como tal, este modelo é melhor usado após o ajuste fino para melhor desempenho em tarefas específicas. Este modelo GPTQ de bate-papo LlaMA 2 específico foi ajustado e otimizado para diálogo em inglês, tornando-o o modelo perfeito para empresas e organizações como um chatbot com pouco ou nenhum treinamento extra obrigatório. De acordo com os termos, as empresas com menos de 700 milhões de usuários podem usar o LlaMA 2 sem pagar nenhuma taxa de licenciamento da Meta ou da Microsoft.

Experimente modelos de idiomas grandes locais hoje

Alguns dos modelos listados acima possuem várias versões em termos de parâmetros. Em geral, as versões de parâmetros mais altos produzem melhores resultados, mas requerem hardware mais poderoso, enquanto as versões de parâmetros mais baixos geram resultados de qualidade inferior, mas podem ser executados em hardware de baixo custo. Se você não tiver certeza se o seu PC pode executar o modelo, tente ir primeiro para a versão de parâmetro inferior e, em seguida, continue até sentir que a queda de desempenho não é mais aceitável.

Como os modelos quantizados nesta lista ocupam apenas alguns gigabytes de espaço e plataformas de implantação de modelos como GPT4All e Text-Generation-WebUI pode ser facilmente instalado por meio de seus instaladores de um clique, experimentar vários modelos e versões de modelo não deve demorar muito tempo e esforço.

Então, o que você está esperando? Experimente um modelo local hoje!

About Technology - denizatm.com

Os 7 melhores LLMs locais/offline que você pode experimentar agora

1. Hermes GPTQ

2. Falcon Instruct GPTQ

3.GPT4ALL-J Groovy

4.WizardCoder-15B-GPTQ

5. Wizard Vicuna Uncensored-GPTQ

6. Orca Mini-GPTQ

7.LlaMA 2 Chat GPTQ

Experimente modelos de idiomas grandes locais hoje

Categorias

Recent Post

4 razões para usar um serviço de e-mail criptografado

Como desativar o modo de alto contraste no Windows

Quão rápido pode ir uma eBike e você pode quebrar o limite de velocidade?