💡 Antes de começar
Tenha as 3 plataformas instaladas e logadas (do lab do módulo 4.2), um caderno de notas por tarefa, e um cronômetro. A rubrica de 4 dimensões (tempo, qualidade, fricção, custo) vai ser repetida nos módulos 4.3 e 4.4 — vale a pena fazer um template de planilha.
🛠️ Lab 1: Tarefa de código
Tarefa escolhida para medir o terreno em que Claude Code e Antigravity naturalmente brilham: refatorar um módulo Python legado e abrir um PR no final. É aqui que o aluno precisa sentir a força dos IDE-agents antes de cair em cima com pretextos de research.
Setup: fork e branch
O mesmo repositório para as três plataformas
Faça fork do repo alvo (qualquer projeto Python pequeno-médio serve). Crie 3 branches independentes: lab1-claude-code, lab1-antigravity, lab1-deerflow. Cada plataforma trabalha na sua branch.
Prompt idêntico
A única variável é a plataforma
Use literalmente o mesmo prompt: "Refatore arquivo.py extraindo funções puras, adicionando type hints e um teste para cada função nova. Mantenha o comportamento externo." Evite complementar com hints no meio.
Execução cronometrada
Start do cronômetro ao enter; stop no PR aberto
Deixe a plataforma trabalhar. Anote cada vez que precisar intervir — cada re-prompt, cada correção, cada permissão. Para DeerFlow, use a skill code-documentation ou custom agent apropriado.
Entregável: PR aberto
Com descrição gerada pela plataforma
Cada branch vira um PR aberto no fork. A descrição do PR é gerada pela própria plataforma (não escreva você). Rode os testes; marque se passam ou falham.
💡 O que prestar atenção
Diff equivalente, testes passando, quantas rodadas de prompt foram necessárias, custo em tokens, e — importante — quanto a plataforma tentou fazer a mais. Às vezes o IDE-agent refatora o que você não pediu; isso é fricção positiva (ajuda) ou negativa (polui o diff) a depender do caso.
🔬 Lab 2: Tarefa de research
O contra-balanço ao lab 1: agora a tarefa é research profundo com 10 fontes citadas — o domínio em que o harness genérico mostra força sobre IDE-agents. Não é para "dar vitória" ao DeerFlow: é para expor onde cada plataforma trabalha contra a própria natureza.
Tema definido
Um assunto único para as três plataformas
Escolha um tema técnico sem ser óbvio — ex.: "estado da arte de sandbox de código para agentes LLM em 2026". Ele não pode estar trivialmente no training data; forçar busca web é parte do teste.
Prompt idêntico
Mesmo enunciado, formato fixo
"Faça um relatório de 800-1200 palavras sobre [tema], citando no mínimo 10 fontes distintas com link. Inclua seção de conclusão e marque incertezas explicitamente." Para DeerFlow, use a skill deep-research.
Verificação das fontes
Clicar em cada link — não confiar no output
Abra as 10 fontes. Marque quantas existem de verdade, quantas são relevantes, quantas são repetidas e quantas são obviamente alucinação. É o teste mais importante do lab 2 — relatório bonito com fontes falsas é pior que relatório feio com fontes boas.
Entregável: três relatórios
Com nota manual de qualidade
Salve os 3 relatórios em arquivos separados. Dê uma nota 0-10 por plataforma com base em: fontes reais, diversidade, profundidade, clareza, honestidade sobre incertezas.
📏 Como comparar com honestidade
Quatro dimensões fixas. Sem improviso. A mesma rubrica cabe em qualquer lab comparativo futuro — o valor está em sempre medir as mesmas coisas, mesmo quando elas parecem óbvias.
🎯 A rubrica de 4 dimensões
- Tempo— cronômetro do enter ao entregável. Inclui bootstrap e permissões.
- Qualidade— nota 0-10 manual baseada em critério escrito antes do teste.
- Fricção— quantas intervenções humanas, quantos re-prompts, quantos erros.
- Custo— tokens/dinheiro reais, incluindo tentativas que falharam.
📊 Dados para anotar por plataforma
- Tempo total: em minutos, do enter ao artefato final
- Número de turns: mensagens do usuário (não do assistant)
- Erros de infra: auth, rate limit, tool quebrada, timeout
- Tokens in / out: quando visível; custo em USD quando disponível
- Rework: quanto do output precisou ser corrigido manualmente
💡 Regra do critério anterior
Escreva o critério de qualidade antes de ver os outputs. Depois de ver, você vai inconscientemente ajustar a régua para o resultado que mais gostou. Critério escrito no início é defesa contra esse viés.
🧊 Interpretar resultados sem viés de novidade
Existe um fenômeno previsível em qualquer comparação de 2026: a plataforma mais recente parece a mais impressionante. Não porque é melhor — porque é nova. UX novo, animação nova, tom de voz novo. Sem descontar esse efeito, toda comparação recente elege a ferramenta recém-lançada.
⚠️ Alerta de viés
Se você saiu dos dois labs achando que Antigravity "claramente ganhou", marque isso na nota — e reteste daqui a 30 dias. Em três meses, metade do que parecia mágico vira padrão do setor. O que resta depois do reteste é capacidade real; o que some era novidade.
✓ FAZER na interpretação
- ✓Separar "UX fresco" de "capacidade extra"
- ✓Anotar o que funcionou sem precisar de prompt extra
- ✓Conversar com quem usou há mais de 3 meses
- ✓Pesar dimensões por tipo de tarefa
- ✓Aceitar empates sem desempate forçado
✗ NÃO fazer
- ✗Eleger vencedor único pelo "feeling"
- ✗Penalizar ferramenta antiga por ser familiar
- ✗Ignorar o lab 1 porque "todos foram iguais"
- ✗Concluir antes de verificar as fontes do lab 2
- ✗Transformar "forte em X" em "melhor"
📝 Resumo dos labs 1 e 2
Fechar os dois labs por escrito é o que transforma "impressão" em "conclusão". Um parágrafo por plataforma por lab, mais uma tabela com as 4 notas. Escrever obriga a tomar posição — o aluno costuma descobrir que sua opinião era diferente do que imaginava.
💡 Template de relatório
Para cada uma das 3 plataformas × 2 labs (6 blocos), escreva:
- Tempo: X min
- Nota qualidade: Y / 10 (critério: …)
- Fricção: N intervenções, principais problemas…
- Custo: tokens ou USD estimado
- O que funcionou: 1 frase
- O que atrapalhou: 1 frase
🎯 Primeira conclusão honesta
Depois de escrever os 6 blocos, responda em uma frase: "Para tarefas de código, eu usaria X porque…; para tarefas de research, eu usaria Y porque…" Note que a resposta tem duas plataformas, não uma. Essa é a forma de conclusão honesta que a Trilha 4 cobra.
Este insumo é usado diretamente no módulo 4.4 para compor a recomendação final do curso.
📝 Resumo do Módulo
Próximo Módulo:
4.4 — 🧪 Labs comparativos 3 e 4 + guia de escolha
Tarefa híbrida (CSV → PPT → Slack) e tarefa de extensibilidade (criar skill/tool nova). Fecha com o guia de escolha pessoal — entregável final do curso.