A Arte de Sussurrar para as Máquinas e Desbloquear o Futuro da IA
Lessandra Marcelly e AVEPI TAU
19 de abril de 2025
A inteligência artificial generativa (IAG) não é mais uma promessa distante, mas sim uma força transformadora que redefine os limites da criatividade e da inovação. No coração desta revolução, reside o prompt textual que atua como um portal para o vasto potencial dos modelos de IAG. Dominar a arte de criar prompts eficazes é, portanto, a chave para desbloquear o poder de ferramentas como modelos Cloude, Gemini e ChatGPT, permitindo-lhes gerar textos que ressoam, imagens que inspiram e respostas que iluminam.
A engenharia de prompts surge, neste contexto, não apenas como uma disciplina, mas como uma necessidade. Ela representa a convergência da ciência e da arte, exigindo um profundo conhecimento das nuances dos modelos de IAG, bem como a capacidade de moldar a linguagem para alcançar resultados precisos e inovadores. A engenharia de prompts transcende a simples formulação de perguntas; ela envolve a criação de um diálogo estratégico com a máquina, guiando-a através de um labirinto de possibilidades para alcançar um objetivo específico.
Este artigo propõe-se a ser um guia abrangente e acessível para o universo da engenharia de prompts. Desvendaremos as técnicas avançadas que permitem aos modelos de IAG raciocinar como um especialista, planejar como um estrategista e interagir com o mundo como um agente inteligente. Exploraremos o poder do Chain of Thought (CoT) para desconstruir problemas complexos, a flexibilidade do Tree of Thought (ToT) para explorar múltiplas soluções, a eficiência do Reasoning without Observation (ReWOO) para tomar decisões em ambientes incertos e a colaboração do Dialog-Enabled Resolving Agents (DERA) para resolver desafios complexos através do diálogo. Além disso, investigaremos como a Retrieval-Augmented Generation (RAG) enriquece o conhecimento dos modelos de IAG.
Para desvendar o verdadeiro potencial da engenharia de prompts, devemos mergulhar nas técnicas avançadas que transcendem a mera geração de texto, permitindo que os modelos de IAG (Inteligência Artificial Generativa) executem tarefas complexas que antes eram domínio exclusivo da cognição humana.
1. Chain of Thought (CoT): Desvendando o Raciocínio Passo a Passo
A técnica Chain of Thought (CoT), ou Cadeia de Pensamento, representa um avanço significativo na engenharia de prompts, permitindo que os LLMs (Large Language Models) explicitem seu processo de raciocínio ao resolver problemas complexos. Em vez de simplesmente fornecer a resposta final, o modelo é instruído a detalhar cada etapa do seu processo de pensamento, como um especialista que explica sua linha de raciocínio para um aprendiz.
Imagine um mestre ensinando um aprendiz. Em vez de simplesmente revelar a resposta correta, o mestre guia o aprendiz através de cada etapa do processo de pensamento, desvendando a lógica por trás da solução. Essa é a essência da técnica Chain of Thought (CoT), ou Cadeia de Pensamento, que permite aos LLMs (Large Language Models) articular seu raciocínio passo a passo ao abordar problemas complexos.
No Mecanismo CoT o prompt age como um maestro, instruindo o modelo a “pensar em voz alta” ou a “explicar sua linha de raciocínio”. Essa diretiva sutil desencadeia uma cascata de pensamentos, decompondo o problema em fragmentos menores e mais gerenciáveis, revelando a intrincada teia de conexões que levam à solução.
Um Exemplo Iluminador seria considerar o desafio: “Um fazendeiro tem 12 vacas, 6 galinhas e 5 porcos. Quantos animais o fazendeiro tem no total?”. Um prompt CoT poderia ser: “O fazendeiro tem diferentes tipos de animais. Primeiro, ele tem 12 vacas. Depois, ele tem 6 galinhas. Finalmente, ele tem 5 porcos. Pense passo a passo e explique como você calcularia o número total de animais.”
Pensando nos benefícios da transparência, a técnica CoT não apenas aprimora a precisão das respostas, mas também lança luz sobre o processo de tomada de decisão do modelo. Essa transparência permite que os usuários compreendam a lógica por trás da solução, construindo confiança e permitindo a identificação de possíveis vieses ou erros.
Na aplicações em Domínios Complexos a técnica CoT brilha em cenários que exigem raciocínio complexo, como problemas de matemática, quebra-cabeças lógicos, análise de causa e efeito e planejamento estratégico.
- Como Funciona: O prompt CoT instrui o modelo a “pensar passo a passo” ou a “explicar seu raciocínio”. Isso encoraja o modelo a decompor o problema em etapas menores e mais gerenciáveis, detalhando cada passo do processo de resolução.
- Exemplo: Considere o seguinte problema: “João tem 15 bolas de gude. Ele dá 7 para Maria e 3 para Pedro. Quantas bolas de gude João tem agora?”. Um prompt CoT poderia ser: “João começou com 15 bolas de gude. Primeiro, ele deu 7 para Maria. Depois, ele deu 3 para Pedro. Pense passo a passo e explique quantas bolas de gude João tem agora.”
- Benefícios: A técnica CoT melhora a precisão das respostas, pois permite que o modelo verifique cada etapa do seu raciocínio. Além disso, ela aumenta a transparência do processo de tomada de decisão do modelo, permitindo que os usuários compreendam como ele chegou à resposta final.
- Aplicações: A técnica CoT é particularmente útil para resolver problemas de matemática, lógica, raciocínio causal e planejamento.
2. Tree of Thought (ToT): Explorando Múltiplas Linhas de Raciocínio
A técnica Tree of Thought (ToT), ou Árvore de Pensamento, expande o conceito de CoT, permitindo que os modelos de IAG explorem múltiplas linhas de raciocínio em paralelo. A Árvore de Pensamento, eleva o conceito de CoT a um novo patamar, permitindo que os modelos de IAG explorem múltiplas linhas de raciocínio simultaneamente. Em vez de trilhar um único caminho para a solução, o modelo ramifica seu processo de pensamento, como um explorador mapeando um território desconhecido, considerando diferentes possibilidades e avaliando seus méritos relativos.
Fazendo uma analogia com uma Arquitetura da Exploração, o prompt ToT age como um arquiteto, instruindo o modelo a gerar múltiplas soluções parciais para o problema, cada uma representando um ramo distinto na árvore de pensamento. Em seguida, o modelo assume o papel de um avaliador crítico, ponderando cada solução parcial e decidindo qual ramo seguir em frente, com base em critérios como plausibilidade, relevância e potencial para alcançar a solução final.
Pensando em um exemplo inspirador, imagine o desafio de escrever um conto cativante. Um prompt ToT poderia ser: “Gere três esboços diferentes para um conto sobre um detetive em uma cidade futurista. Avalie cada esboço com base em sua originalidade, coerência e potencial para envolver o leitor. Escolha o melhor esboço e desenvolva-o em um conto completo.”
É o poder da criatividade, a técnica ToT estimula a criatividade e a capacidade de resolução de problemas dos modelos de IAG, permitindo que eles considerem uma gama mais ampla de perspectivas e descubram soluções inovadoras que poderiam ter permanecido ocultas em uma abordagem linear.
Na aplicações em cenários criativos a técnica ToT floresce em tarefas que exigem pensamento criativo, como redação, design, composição musical, planejamento estratégico e resolução de problemas complexos que exigem soluções inovadoras.
- Como Funciona: O prompt ToT instrui o modelo a gerar múltiplas soluções parciais para o problema, cada uma representando um ramo diferente na árvore de pensamento. Em seguida, o modelo avalia cada solução parcial e decide qual ramo seguir em frente, com base em critérios como plausibilidade, relevância e potencial para levar à solução final.
- Exemplo: Considere o problema de escrever um resumo de um artigo científico. Um prompt ToT poderia ser: “Gere três resumos diferentes para este artigo. Avalie cada resumo com base em sua precisão, clareza e abrangência. Escolha o melhor resumo e refine-o ainda mais.”
- Benefícios: A técnica ToT aumenta a criatividade e a capacidade de resolução de problemas dos modelos de IAG, permitindo que eles considerem uma gama mais ampla de possibilidades e encontrem soluções inovadoras.
- Aplicações: A técnica ToT é particularmente útil para tarefas que exigem criatividade, como redação, design, planejamento estratégico e resolução de problemas complexos.
3. Reasoning without Observation (ReWOO): Tomada de Decisão em Ambientes Incertos
A técnica Reasoning without Observation (ReWOO), ou Raciocínio sem Observação, capacita os modelos de IAG a tomar decisões informadas mesmo quando as informações são incompletas ou desatualizadas. Em vez de depender de dados em tempo real, o modelo utiliza seu conhecimento prévio e sua capacidade de raciocínio para formular um plano de ação e adaptá-lo conforme novas informações se tornam disponíveis.
Em um mundo imperfeito, onde a informação é frequentemente incompleta ou desatualizada, a capacidade de tomar decisões informadas torna-se uma habilidade inestimável. A técnica Reasoning without Observation (ReWOO), ou Raciocínio sem Observação, capacita os modelos de IAG a navegar em ambientes incertos, formulando planos de ação sólidos com base em conhecimento prévio e adaptando-os à medida que novas informações emergem.
Numa estratégia de antecipação, o prompt ReWOO age como um estrategista, instruindo o modelo a formular um plano de ação detalhado com base em seu conhecimento prévio e em suposições razoáveis sobre o ambiente. Em seguida, o modelo assume o papel de um observador atento, monitorando o ambiente e ajustando suas ações conforme necessário, como um navegador experiente ajustando as velas de um barco em resposta às mudanças do vento.
Para exemplificar, considere o desafio de planejar uma rota de entrega para um motorista em uma cidade congestionada. Um prompt ReWOO poderia ser: “Planeje a rota de entrega mais eficiente para um motorista em [cidade]. Considere os principais pontos de entrega, as condições de tráfego esperadas e as restrições de tempo. Suponha que o tráfego seja moderado durante a maior parte do dia. Ajuste a rota conforme você recebe atualizações de tráfego em tempo real.”
Pensando na força da adaptabilidade, a técnica ReWOO aumenta a robustez e a adaptabilidade dos modelos de IAG, permitindo que eles operem de forma eficaz em ambientes dinâmicos e imprevisíveis, onde a informação é escassa ou não confiável.
Nas aplicações em ambientes dinâmicos a técnica ReWOO encontra aplicações em tarefas como planejamento de rotas, navegação autônoma, controle de robôs, gerenciamento de recursos e tomada de decisão em tempo real em ambientes complexos.
- Como Funciona: O prompt ReWOO instrui o modelo a formular um plano de ação detalhado com base em seu conhecimento prévio e em suposições razoáveis sobre o ambiente. Em seguida, o modelo executa o plano, monitorando o ambiente e ajustando suas ações conforme necessário.
- Exemplo: Considere o problema de planejar uma viagem para uma cidade desconhecida. Um prompt ReWOO poderia ser: “Planeje uma viagem de três dias para [cidade]. Considere os principais pontos turísticos, opções de transporte e restaurantes. Suponha que o clima seja ameno e que você tenha um orçamento limitado. Ajuste seu plano conforme você obtém mais informações sobre a cidade.”
- Benefícios: A técnica ReWOO aumenta a robustez e a adaptabilidade dos modelos de IAG, permitindo que eles operem de forma eficaz em ambientes dinâmicos e incertos.
- Aplicações: A técnica ReWOO é particularmente útil para tarefas como planejamento, navegação, robótica e tomada de decisão em tempo real.
4. Dialog-Enabled Resolving Agents (DERA): Resolução de Problemas Através do Diálogo Colaborativo
A técnica Dialog-Enabled Resolving Agents (DERA), ou Agentes de Resolução Habilitados por Diálogo, permite que os modelos de IAG colaborem entre si e com humanos para resolver problemas complexos através do diálogo. Em vez de trabalhar de forma isolada, os agentes DERA trocam informações, compartilham conhecimento e coordenam suas ações para alcançar um objetivo comum. Em muitos cenários complexos, a solução reside na colaboração. A técnica DERA, permite que os modelos de IAG colaborem entre si e com humanos.
Pensando na orquestração da expertise, a técnica DERA envolve a criação de múltiplos agentes, cada um com um papel e responsabilidades específicas, como um time de especialistas trabalhando em conjunto para resolver um caso complexo. Os agentes se comunicam através de uma interface de diálogo, trocando mensagens, fazendo perguntas, fornecendo feedback e construindo um entendimento compartilhado do problema.
Imagine um exemplo da vida real, considere o desafio de diagnosticar uma doença rara. Um sistema DERA poderia incluir um agente de coleta de sintomas, um agente de análise de histórico médico, um agente de pesquisa médica, um agente de análise de imagens e um agente de diagnóstico. Esses agentes colaborariam entre si e com o médico para coletar informações, analisar dados, consultar especialistas e chegar a um diagnóstico preciso.
Pensando nos benefícios da inteligência coletiva, a técnica DERA aprimora a precisão, a eficiência e a transparência do processo de resolução de problemas, permitindo que os modelos de IAG aproveitem o conhecimento e as habilidades de múltiplos especialistas, superando as limitações de um único agente.
Para as aplicações em domínios especializados, a técnica DERA é particularmente valiosa em tarefas que exigem conhecimento especializado e colaboração, como diagnóstico médico, atendimento ao cliente, consultoria financeira, pesquisa científica e resolução de problemas complexos que exigem a expertise de múltiplos especialistas.
- Como Funciona: A técnica DERA envolve a criação de múltiplos agentes, cada um com um papel e responsabilidades específicas. Os agentes se comunicam entre si através de uma interface de diálogo, trocando mensagens, fazendo perguntas e fornecendo feedback.
- Exemplo: Considere o problema de diagnosticar uma doença médica. Um sistema DERA poderia incluir um agente de coleta de sintomas, um agente de análise de histórico médico, um agente de pesquisa médica e um agente de diagnóstico. Os agentes colaborariam entre si e com o médico para coletar informações, analisar dados e chegar a um diagnóstico preciso.
- Benefícios: A técnica DERA aumenta a precisão, a eficiência e a transparência do processo de resolução de problemas, permitindo que os modelos de IAG aproveitem o conhecimento e as habilidades de múltiplos especialistas.
- Aplicações: A técnica DERA é particularmente útil para tarefas como diagnóstico médico, atendimento ao cliente, consultoria financeira e resolução de problemas complexos que exigem a colaboração de múltiplos especialistas.
5. Retrieval-Augmented Generation (RAG): Expandindo o Conhecimento Através da Busca Externa
A técnica Retrieval-Augmented Generation (RAG), ou Geração Aumentada por Recuperação, permite que os modelos de IAG acessem e incorporem informações de fontes externas, como bancos de dados, documentos técnicos e a internet. Isso supera a limitação do conhecimento pré-treinado dos modelos, permitindo que eles gerem respostas mais precisas, atualizadas e relevantes.
Os modelos de IAG são treinados em vastos conjuntos de dados, mas seu conhecimento é inerentemente limitado às informações contidas nesses dados. A técnica Retrieval-Augmented Generation (RAG), ou Geração Aumentada por Recuperação, supera essa limitação, permitindo que os modelos acessem e incorporem informações de fontes externas, como bancos de dados, documentos técnicos, artigos científicos e a vasta extensão da internet.
Para criar o processo de enriquecimento do conhecimento, o processo RAG envolve a extração da consulta principal do prompt do usuário e o uso dessa consulta para buscar informações relevantes em uma fonte de conhecimento externa. As informações recuperadas são então combinadas com o prompt original e alimentadas em um LLM, que gera uma resposta enriquecida com o conhecimento externo.
Vamos ao um exemplo concreto, se um usuário perguntar: “Quais são os últimos avanços na pesquisa sobre a doença de Alzheimer?”, o sistema RAG buscaria informações sobre os últimos avanços na pesquisa sobre a doença de Alzheimer em fontes de conhecimento externas, como artigos científicos e bancos de dados médicos. As informações recuperadas seriam então combinadas com a pergunta original e alimentadas em um LLM, que geraria uma resposta abrangente e atualizada.
A vantagem da informação atualizada, é que a técnica RAG aprimora a precisão, a relevância e a atualidade das respostas dos modelos de IAG, permitindo que eles acessem e incorporem informações de fontes externas, garantindo que suas respostas reflitam o estado atual do conhecimento.
Nas aplicações em domínios dinâmicos, a técnica RAG é particularmente útil em tarefas que exigem conhecimento atualizado e acesso a informações externas, como pesquisa científica, jornalismo investigativo, atendimento ao cliente em tempo real e educação personalizada.
- Como Funciona: O processo RAG envolve a extração da consulta principal do prompt do usuário e o uso dessa consulta para buscar informações relevantes em uma fonte de conhecimento externa. As informações recuperadas são então combinadas com o prompt original e alimentadas em um LLM, que gera uma resposta com base nas informações combinadas.
- Exemplo: Se um usuário perguntar: “Qual é a capital da França?”, o sistema RAG buscaria informações sobre a capital da França em uma fonte de conhecimento externa, como a Wikipédia. As informações recuperadas seriam então combinadas com a pergunta original e alimentadas em um LLM, que geraria a resposta: “A capital da França é Paris.”
- Benefícios: A técnica RAG aumenta a precisão, a relevância e a atualidade das respostas dos modelos de IAG, permitindo que eles acessem e incorporem informações de fontes externas.
- Aplicações: A técnica RAG é particularmente útil para tarefas que exigem conhecimento atualizado, como pesquisa, jornalismo, atendimento ao cliente e educação.
Considerações Finais
Nesta jornada através do universo da engenharia de prompts, desvendamos o poder transformador que reside na arte de moldar a linguagem para guiar a inteligência artificial generativa (IAG). Testemunhamos como técnicas avançadas, como Chain of Thought (CoT), Tree of Thought (ToT), Reasoning without Observation (ReWOO) e Dialog-Enabled Resolving Agents (DERA), capacitam os modelos de IAG a transcender a mera geração de texto, permitindo-lhes raciocinar, planejar, colaborar e resolver problemas complexos com uma precisão e criatividade surpreendentes. Exploramos como a Retrieval-Augmented Generation (RAG) enriquece o conhecimento dos modelos de IAG, permitindo-lhes acessar e incorporar informações de fontes externas, garantindo que suas respostas reflitam o estado da arte do conhecimento humano.
No entanto, é fundamental reconhecer que a engenharia de prompts não é uma ciência exata, mas sim uma arte em constante evolução. À medida que os modelos de IAG se tornam mais sofisticados, novas técnicas e ferramentas continuarão a surgir, desafiando nossas suposições e expandindo os limites do possível.
O futuro da engenharia de prompts reside na colaboração. Profissionais de tecnologia, pesquisadores, linguistas, psicólogos, filósofos e artistas devem unir forças para explorar as dimensões éticas, sociais e criativas da IAG, garantindo que essa tecnologia seja utilizada de forma responsável e benéfica para a humanidade.
Referências bibliográficas
BACHLECHNER, Andreas; HEIDL, Michael; KALLINGER, Matthias; BRANDL, Christian; SCHMID, Ulrich. A Prompt Pattern Catalog to Enhance Prompt Engineering with Large Language Models. 2023. Disponível em: arxiv.org . Acesso em: 19 abr. 2025.
OPPENLAENDER, Jonas. Prompt Engineering for Text-Based Generative Art. 2022. Disponível em: arxiv.org. Acesso em: 19 abr. 2025.
WHITE, Andrew. A Comprehensive Guide to Prompt Engineering. Versão 1.0, 2024. Disponível em: www.notion.so. Acesso em: 19 abr. 2025.
WHITE, Andrew. Prompt Engineering A Primer. 2023. Disponível em:
www.andrewjwhite.org. Acesso em: 19 abr. 2025.
YAO, Hongxu; ZHANG, Guosheng; ZHANG, Qinghua; ZHANG, Lei. A Multimodal Survey on Visual Prompt Engineering. 2024. Disponível em: arxiv.org. Acesso em: 19 abr. 2025.