8 fatores-chave a serem considerados ao testar a precisão dos chatbots de IA

Você pode testar diferentes chatbots de IA para determinar qual funciona melhor. Mas como você deve fazer isso? Aqui estão alguns fatores-chave a serem considerados.

A IA percorreu um longo caminho desde produzir resultados irrelevantes e incoerentes. Os chatbots modernos usam modelos de linguagem avançados que respondem a perguntas de conhecimento geral, redigir ensaios longos e escrever códigos, entre outras tarefas complexas.

Apesar desses avanços, observe que mesmo os sistemas mais sofisticados possuem limitações. AI ainda comete erros. Para determinar quais chatbots são menos propensos a alucinações, teste sua precisão com base nesses fatores.

1. aritmética

Execute equações matemáticas por meio de chatbots. Eles testarão a capacidade da plataforma de analisar problemas de palavras, traduzir conceitos matemáticos e aplicar fórmulas corretas. Apenas alguns modelos demonstram numeracia confiável. Na verdade, um dos Os piores problemas do ChatGPT durante seus primeiros meses foi sua terrível compreensão matemática.

instagram viewer

A imagem abaixo mostra o ChatGPT falhando nas estatísticas básicas.

ChatGPT mostrou melhora após OpenAI lançou suas atualizações de maio de 2023. Mas, considerando seus conjuntos de dados limitados, você ainda terá problemas com cálculos matemáticos intermediários a avançados.

Enquanto isso, o Bing Chat e o Google Bard mostram melhor aritmética. Eles executam consultas por meio de seus respectivos mecanismos de pesquisa, permitindo que eles extraiam fórmulas e folhas de respostas.

Tente reformular seus problemas de palavras. Evite frases longas e substitua verbos fracos; caso contrário, os chatbots podem interpretar mal suas perguntas.

2. Compreensão

Os sistemas de IA modernos podem assumir várias tarefas. Os LLMs avançados permitem que eles retenham instruções anteriores e respondam às solicitações por seção, enquanto os sistemas mais antigos processam comandos singulares. Por exemplo, a Siri responde a uma pergunta por vez.

Alimente chatbots com três a cinco tarefas simultaneamente para testar o quão bem eles analisam prompts complexos. Modelos menos sofisticados não conseguem processar tanta informação. A imagem abaixo mostra o mau funcionamento do HuggingChat em um prompt de três etapas - ele para na etapa um e se desvia do tópico.

As últimas linhas de HuggingChat já são incoerentes.

O ChatGPT conclui rapidamente o mesmo prompt, gerando respostas inteligentes e sem erros a cada etapa.

O Bing Chat fornece uma resposta condensada para as três etapas. Suas restrições rígidas proíbem saídas desnecessariamente longas que desperdiçam poder de processamento.

3. pontualidade

Como o treinamento de IA custa muitos recursos, a maioria dos desenvolvedores limita os conjuntos de dados a períodos específicos. Tome o ChatGPT como exemplo. Ele tem um limite de conhecimento de setembro de 2021 - você não pode solicitar atualizações meteorológicas, notícias ou desenvolvimentos recentes. Aqui está o ChatGPT dizendo que não tem acesso a informações em tempo real.

Bard tem acesso à internet. Ele extrai dados dos SERPs do Google, para que você possa fazer uma ampla gama de perguntas, por exemplo, eventos recentes, notícias e previsões.

Da mesma forma, o Bing Chat extrai informações em tempo real de seu mecanismo de pesquisa.

O Bing Chat e o Bard fornecem informações atualizadas e oportunas, mas o último fornece respostas mais detalhadas. O Bing apenas apresenta os dados como estão. Você notará que suas saídas geralmente correspondem ao fraseado e ao tom de suas fontes vinculadas literalmente.

4. Relevância

Os chatbots devem fornecer resultados relevantes. Eles devem considerar o significado literal e contextual de seus prompts ao responder. Tome esta conversa como um exemplo. Nossa persona precisa de um novo telefone, mas tem apenas $ 1.000 - o ChatGPT não excede o orçamento.

Ao testar a relevância, tente elaborar instruções longas. Chatbots menos sofisticados tendem a sair pela tangente quando recebem instruções confusas. Por exemplo, HuggingChat pode compor histórias fictícias. Mas pode se desviar do tópico principal se você definir muitas regras e diretrizes.

5. Memória Contextual

A memória contextual ajuda a IA a produzir resultados precisos e confiáveis. Em vez de aceitar suas perguntas pelo valor de face, eles juntam os detalhes que você menciona. Tome esta conversa como um exemplo. O Bing Chat conecta duas mensagens separadas para formar uma resposta útil e concisa.

Da mesma forma, a memória contextual permite que os chatbots se lembrem das instruções. Esta imagem mostra o ChatGPT imitando a maneira como um personagem fictício fala em vários chats.

Teste você mesmo essa função referenciando consistentemente as instruções anteriores. Forneça várias informações aos chatbots e, em seguida, force-os a recuperá-las em respostas posteriores.

A memória contextual é limitada. O Bing Chat inicia novas conversas a cada 20 turnos, enquanto o ChatGPT não pode processar solicitações com mais de 3.000 tokens.

6. Restrições de segurança

A IA nem sempre funciona como pretendido. O treinamento incorreto pode causar tecnologias de aprendizado de máquina para cometer vários erros, de pequenos erros de matemática a comentários problemáticos. Pegar Microsoft Tay como um exemplo. Os usuários do Twitter exploraram seu modelo de aprendizado não supervisionado e o condicionaram a dizer calúnias raciais.

Felizmente, os líderes globais de tecnologia aprenderam com o erro da Microsoft. Embora econômico e conveniente, o aprendizado não supervisionado deixa os sistemas de IA propensos a enganos. Portanto, os desenvolvedores dependem principalmente do aprendizado supervisionado hoje em dia. Chatbots como O ChatGPT ainda aprende com as conversas, mas seus treinadores filtram as informações primeiro.

Espere diretrizes diferentes das empresas de IA. As restrições menos rígidas do ChatGPT acomodam uma gama mais ampla de tarefas, mas são fracas contra a exploração. Enquanto isso, o Bing Chat segue limites mais rígidos. Embora ajudem a combater as tentativas de exploração, também impedem a funcionalidade. O Bing encerra automaticamente conversas potencialmente prejudiciais.

7. Vieses de IA

A IA é inerentemente neutra. Sua falta de preferências e emoções o torna incapaz de formar opiniões – apenas apresenta informações que conhece. Veja como o ChatGPT responde a tópicos subjetivos.

Apesar dessa neutralidade, preconceitos de IA ainda surgem. Eles decorrem dos padrões, conjuntos de dados, algoritmos e modelos que os desenvolvedores usam. A IA pode ser imparcial, mas os humanos não.

Por exemplo, A Instituição Brookings afirma que o ChatGPT demonstra preconceitos políticos de esquerda. OpenAI nega essas alegações, é claro. Mas, para evitar problemas semelhantes com modelos mais recentes, o ChatGPT evita totalmente as saídas opinativas.

Da mesma forma, o Bing Chat evita assuntos delicados e subjetivos.

Avalie os vieses da IA fazendo perguntas abertas e baseadas em opiniões. Fale sobre tópicos sem resposta certa ou errada – chatbots menos sofisticados provavelmente exibirão preferências infundadas em relação a grupos específicos.

8. Referências

A IA raramente verifica os fatos. Ele apenas extrai informações de seus conjuntos de dados e as reformula por meio de modelos de linguagem. Infelizmente, o treinamento limitado causa alucinações de IA. Você ainda pode usar ferramentas de IA generativas para pesquisa, mas certifique-se de verificar os fatos por conta própria. Pegue a saída com um grão de sal.

O Bing Chat simplifica o processo de verificação de fatos listando suas referências após cada saída.

A Bard AI não lista suas fontes, mas gera explicações detalhadas e atualizadas executando consultas de pesquisa no Google. Você obterá os pontos principais das SERPs.

ChatGPT é propenso a imprecisões. Seu limite de conhecimento de 2021 o impede de responder a perguntas sobre eventos e incidentes recentes.

Crie novas maneiras de testar a precisão dos chatbots

A IA não é o princípio e o fim de toda a tecnologia. Embora sofisticados sistemas de IA e modelos de linguagem realizem proezas impressionantes, eles também cometem erros e inconsistências. Veja os chatbots com ceticismo. Você só pode utilizar plataformas orientadas por IA se entender suas funções e limitações.

Embora existam dezenas de chatbots em várias plataformas, sua confiabilidade e precisão podem desapontá-lo. Você simplesmente perderá tempo testando-os. Para garantir resultados de qualidade, sugerimos focar nos três modelos mais robustos do mercado: ChatGPT, Bing AI e Google Bard.

About Technology - denizatm.com

8 fatores-chave a serem considerados ao testar a precisão dos chatbots de IA

1. aritmética

2. Compreensão

3. pontualidade

4. Relevância

5. Memória Contextual

6. Restrições de segurança

7. Vieses de IA

8. Referências

Crie novas maneiras de testar a precisão dos chatbots

Categorias

Recent Post

Revisão da câmera Elephone Elecam 360

8 melhores aplicativos de terminal para produtividade aprimorada do Linux

Como exportar suas notas da Apple como arquivos PDF em qualquer dispositivo