Alcançar uma plataforma de AI conversacional poderosa depende de uma combinação de tecnologias avançadas e técnicas aprimoradas para fornecer aos usuários interações naturais e envolventes. Vamos dar uma olhada mais de perto em como o ChatGPT funciona e nas tecnologias que sustentam seus recursos.
Fundação em modelos GPT
ChatGPT é construído sobre GPT-3.5 e GPT-4, que fazem parte da série proprietária de modelos de transformadores pré-treinados (GPT) da OpenAI. Esses modelos são baseados na arquitetura de transformador desenvolvida originalmente pelo Google. A família de modelos GPT é famosa por sua capacidade de compreender e gerar texto semelhante ao humano com base nos dados de entrada que recebem.
Personalização para aplicativos de conversação:
Para adaptar o modelo GPT para fins conversacionais, o ChatGPT passou por um extenso processo de refinamento. Este ajuste fino é alcançado através de uma combinação de técnicas de aprendizagem supervisionada e de reforço, criando uma IA conversacional altamente especializada.
Aprendizagem supervisionada:
Na fase de aprendizagem supervisionada, os treinadores humanos desempenham um papel importante. Eles assumem funções duplas, atuando tanto como usuários quanto como assistentes de IA em conversas simuladas. Esses treinadores fornecem ao ChatGPT uma riqueza de dados de treinamento, participando de conversas e gerando feedback. Esta etapa permite que o modelo aprenda com dados de conversas gerados por humanos, tornando suas respostas mais naturais e conscientes do contexto.
Aprendizagem por reforço com feedback humano (RLHF):
A fase de aprendizagem por reforço leva o treinamento do ChatGPT para o próximo nível. O coach humano participa avaliando a qualidade do feedback gerado pelo modelo em conversas anteriores. Essas classificações servem de base para a criação de um “modelo de recompensa”. Esses modelos de recompensa orientam o processo de aprendizagem do modelo, ajudando-o a compreender quais respostas são mais desejáveis e contextuais.
Otimização de Política Proximal (PPO):
ChatGPT usa um algoritmo de aprendizado por reforço chamado Proximate Policy Optimization (PPO) para ajustar suas respostas. PPO é um processo iterativo no qual o modelo ajusta suas capacidades de conversação ajustando políticas com base em modelos de recompensa criados anteriormente. Esta abordagem iterativa permite que o ChatGPT melhore continuamente o desempenho da conversa ao longo do tempo.
Modelos Freemium e ChatGPT Plus:
Lançado inicialmente como uma prévia de pesquisa disponível gratuitamente, o ChatGPT se tornou amplamente popular. Para manter o serviço, a OpenAI agora o opera em modelo freemium. Os usuários do nível gratuito podem acessar a versão ChatGPT baseada em GPT-3.5. Em contraste, uma versão mais avançada baseada em GPT-4, juntamente com acesso prioritário a novos recursos, é oferecida aos assinantes pagos sob o nome comercial “ChatGPT Plus”.