O ChatGPT é o chatbot de IA revolucionário da OpenAI que está deixando a internet maravilhada. Contra todas as tendências tecnológicas estabelecidas, não demorou muito para que o ChatGPT encontrasse seu caminho em quase todas as áreas de nossa vida digital.
Pouquíssimas inovações tecnológicas atraíram tanto interesse quanto o ChatGPT conseguiu em tão pouco tempo. Parece que nunca faltam truques legais - todos os dias, aprendemos sobre coisas novas e empolgantes que não sabíamos que ele poderia fazer.
Mas como o ChatGPT é capaz de fazer as coisas que pode fazer? Como funciona o ChatGPT?
Como o ChatGPT foi criado?
Para entender como funciona o ChatGPT, vale a pena olhar para suas origens e o cérebro por trás do chatbot de IA de ponta.
Em primeiro lugar, por mais mágico que o ChatGPT possa parecer, ele foi construído pela genialidade dos humanos, assim como toda tecnologia de software que vale a pena por aí. A OpenAI criou a ChatGPT, a revolucionária empresa de pesquisa e desenvolvimento de IA por trás de outras poderosas ferramentas de IA como DALL-E, InstructGPT e Codex. Já respondemos anteriormente
algumas perguntas que você pode ter sobre o ChatGPT, então dê uma olhada.Embora o ChatGPT tenha se tornado viral no final de 2022, a maior parte da tecnologia subjacente que alimenta o ChatGPT existe há muito mais tempo, embora com muito menos publicidade. O modelo ChatGPT é construído sobre o GPT-3 (ou, mais especificamente, GPT-3.5). GPT significa "Transformador pré-treinado generativo 3".
GPT-3 é a terceira iteração da linha GPT de modelos AI e foi precedida por GPT-2 e GPT. As iterações anteriores dos modelos GPT são igualmente úteis, mas GPT-3 e a iteração GPT-3.5 ajustada com precisão são muito mais poderosas. A maior parte do que o ChatGPT pode fazer é devido à tecnologia subjacente GPT-3.
O que é GPT?
Portanto, estabelecemos que o ChatGPT é construído na terceira geração do modelo GPT. Mas afinal, o que é GPT?
Vamos começar descompactando os acrônimos de uma maneira fácil de digerir e não técnica.
- O "Generativo" no GPT representa sua capacidade de gerar texto em linguagem humana natural.
- O "Pré-treinado" representa o fato de que o modelo já foi treinado em algum conjunto de dados finito. Assim como você leu um livro ou talvez vários livros antes de ser solicitado a responder a perguntas sobre ele.
- O "Transformer" representa a arquitetura de aprendizado de máquina subjacente que alimenta o GPT.
Agora, juntando tudo, o Generative Pre-trained Transformer (GPT) é um modelo de linguagem que tem sido treinado usando dados da internet com o objetivo de gerar texto em linguagem humana quando apresentado a um incitar. Então, dissemos repetidamente que o GPT foi treinado, mas como foi treinado?
Como o ChatGPT foi treinado?
O próprio ChatGPT não foi treinado desde o início. Em vez disso, é uma versão ajustada do GPT-3.5, que por si só é uma versão ajustada do GPT-3. O modelo GPT-3 foi treinado com uma enorme quantidade de dados coletados da internet. Pense na Wikipédia, no Twitter e no Reddit – eram dados alimentados e texto humano extraído de todos os cantos da internet.
Se você está se perguntando como funciona o treinamento GPT, o GPT-3 foi treinado usando uma combinação de aprendizado supervisionado e aprendizado por reforço por meio de feedback humano (RLHF). O aprendizado supervisionado é o estágio em que o modelo é treinado em um grande conjunto de dados de texto extraído da Internet. O estágio de aprendizado por reforço é onde ele é treinado para produzir melhores respostas que se alinham com o que os humanos aceitariam como sendo humanos e corretos.
Treinamento com Aprendizagem Supervisionada
Para entender melhor como o aprendizado supervisionado e por reforço se aplica ao ChatGPT, imagine um cenário em que um aluno está sendo ensinado a escrever uma redação por um professor. O aprendizado supervisionado seria o equivalente ao professor dando ao aluno centenas de redações para ler. O objetivo aqui é que o aluno aprenda como uma redação deve ser escrita, acostumando-se com o tom, o vocabulário e a estrutura de centenas de redações.
No entanto, haverá coisas boas e ruins entre essas centenas de ensaios. Como o aluno foi treinado em cópias boas e ruins, às vezes, o aluno pode escrever uma redação ruim porque também recebeu redações ruins em algum momento. Isso significa que, quando solicitado a escrever uma redação, o aluno pode escrever uma cópia que não seja aceitável ou boa o suficiente para o professor. É aqui que entra o aprendizado por reforço.
Treinamento com aprendizado por reforço
Depois que o professor estabelece que o aluno entende as regras gerais da redação de redações lendo centenas de redações, o professor dá ao aluno o dever de casa de redações frequentes. Posteriormente, o professor forneceria feedback sobre a tarefa de redação, dizendo aos alunos o que eles fizeram bem e o que poderiam melhorar. O aluno usa o feedback para orientar o dever de casa de redação subsequente, ajudando o aluno a melhorar com o tempo.
Isso é semelhante ao estágio de aprendizado por reforço do treinamento do modelo GPT. Depois de receber uma enorme quantidade de texto extraído da Internet, o modelo pode responder a perguntas. No entanto, sua precisão não será boa o suficiente. Os treinadores humanos fazem uma pergunta ao modelo e fornecem feedback sobre qual resposta é mais apropriada para cada pergunta.
O modelo usa feedback para melhorar sua capacidade de responder a perguntas com mais precisão e mais como um humano responderia. É assim que o ChatGPT pode gerar respostas de som humano que são coerentes, envolventes e geralmente precisas.
Como o ChatGPT é capaz de responder a perguntas?
Então, você visita o site do ChatGPT e faz login. Você solicita ao ChatGPT: "escreva uma música de rap no estilo de Snoop Dogg." Ele responde com a letra de um rap que se parece muito com o que Snoop Dogg escreveria. Como isso é possível?
Bem, a "mágica" por trás do ChatGPT está perfeitamente ligada ao seu treinamento.
Depois de cobrir cada centímetro do seu livro de Física 101, há uma boa chance de você ser capaz de responder a qualquer pergunta que lhe seja lançada. Por que? Porque você leu e aprendeu. É a mesma coisa com o ChatGPT - ele aprende. E como a civilização humana tem mostrado, com treinamento suficiente, resolver quase qualquer problema é possível.
Embora você provavelmente possa gerenciar centenas de livros em sua vida, o ChatGPT ou GPT já consumiu uma grande parte da Internet. Isso é uma enorme riqueza de informações. Lá, em algum lugar, provavelmente estão as letras das inúmeras canções de Snoop Dogg. Então, é claro, o ChatGPT deve tê-lo consumido (lembre-se, é pré-treinado) e reconhecido padrões nas letras de Snoop Dogg. Em seguida, usaria um "conhecimento" desse padrão para "prever" a letra de uma música semelhante ao que Snoop Dogg escreveria.
A ênfase aqui está em "prever". O ChatGPT não responde a perguntas da mesma forma que os humanos. Por exemplo, diante de uma pergunta como "Qual é a capital de Portugal?" você poderia dizer Lisboa e dizê-lo como um "fato". No entanto, o ChatGPT não responde a perguntas com 100% de certeza. Em vez disso, ele tenta prever a resposta certa com base nos dados que consumiu em seu conjunto de dados de treinamento.
Abordagem do ChatGPT para responder a perguntas
Para entender melhor o conceito de prever respostas, imagine que o ChatGPT seja um detetive encarregado de solucionar um assassinato. O detetive recebe provas, mas não sabe quem cometeu o assassinato e como aconteceu. No entanto, com provas suficientes, o detetive pode "prever" com grande precisão quem é o responsável pelo assassinato e como o crime foi cometido.
Depois de consumir dados da Internet, o ChatGPT descarta os dados originais e armazena conexões neurais ou padrões que aprendeu com os dados. Essas conexões ou padrões são como evidências que o ChatGPT analisa quando tenta responder a qualquer solicitação.
Então, em teoria, o ChatGPT é como um detetive muito bom. Não sabe ao certo quais devem ser os fatos de uma resposta, mas tenta, com impressionante precisão, para prever uma sequência lógica de texto em linguagem humana que responderia de forma mais apropriada à pergunta. É assim que você obtém respostas para suas perguntas.
E é também por isso que algumas dessas respostas parecem muito convincentes, mas estão terrivelmente erradas.
ChatGPT: responde como um humano, pensa como uma máquina
Os detalhes técnicos subjacentes do ChatGPT são complexos. No entanto, de um ponto de vista rudimentar, funciona aprendendo e reproduzindo o que aprendeu quando solicitado, assim como fazemos como humanos.
À medida que o ChatGPT evolui por meio de pesquisas, a maneira como funciona pode mudar. No entanto, seus princípios fundamentais de funcionamento permanecerão os mesmos por um tempo, pelo menos até que surja uma nova tecnologia disruptiva.