Módulo 4.3 — Labs comparativos 1 e 2 | DeerFlow 2.0

💡 Antes de começar

Tenha as 3 plataformas instaladas e logadas (do lab do módulo 4.2), um caderno de notas por tarefa, e um cronômetro. A rubrica de 4 dimensões (tempo, qualidade, fricção, custo) vai ser repetida nos módulos 4.3 e 4.4 — vale a pena fazer um template de planilha.

🛠️ Lab 1: Tarefa de código

Tarefa escolhida para medir o terreno em que Claude Code e Antigravity naturalmente brilham: refatorar um módulo Python legado e abrir um PR no final. É aqui que o aluno precisa sentir a força dos IDE-agents antes de cair em cima com pretextos de research.

Setup: fork e branch

O mesmo repositório para as três plataformas

Faça fork do repo alvo (qualquer projeto Python pequeno-médio serve). Crie 3 branches independentes: lab1-claude-code, lab1-antigravity, lab1-deerflow. Cada plataforma trabalha na sua branch.

Prompt idêntico

A única variável é a plataforma

Use literalmente o mesmo prompt: "Refatore arquivo.py extraindo funções puras, adicionando type hints e um teste para cada função nova. Mantenha o comportamento externo." Evite complementar com hints no meio.

Execução cronometrada

Start do cronômetro ao enter; stop no PR aberto

Deixe a plataforma trabalhar. Anote cada vez que precisar intervir — cada re-prompt, cada correção, cada permissão. Para DeerFlow, use a skill code-documentation ou custom agent apropriado.

Entregável: PR aberto

Com descrição gerada pela plataforma

Cada branch vira um PR aberto no fork. A descrição do PR é gerada pela própria plataforma (não escreva você). Rode os testes; marque se passam ou falham.

💡 O que prestar atenção

Diff equivalente, testes passando, quantas rodadas de prompt foram necessárias, custo em tokens, e — importante — quanto a plataforma tentou fazer a mais. Às vezes o IDE-agent refatora o que você não pediu; isso é fricção positiva (ajuda) ou negativa (polui o diff) a depender do caso.

🔬 Lab 2: Tarefa de research

O contra-balanço ao lab 1: agora a tarefa é research profundo com 10 fontes citadas — o domínio em que o harness genérico mostra força sobre IDE-agents. Não é para "dar vitória" ao DeerFlow: é para expor onde cada plataforma trabalha contra a própria natureza.

Tema definido

Um assunto único para as três plataformas

Escolha um tema técnico sem ser óbvio — ex.: "estado da arte de sandbox de código para agentes LLM em 2026". Ele não pode estar trivialmente no training data; forçar busca web é parte do teste.

Prompt idêntico

Mesmo enunciado, formato fixo

"Faça um relatório de 800-1200 palavras sobre [tema], citando no mínimo 10 fontes distintas com link. Inclua seção de conclusão e marque incertezas explicitamente." Para DeerFlow, use a skill deep-research.

Verificação das fontes

Clicar em cada link — não confiar no output

Abra as 10 fontes. Marque quantas existem de verdade, quantas são relevantes, quantas são repetidas e quantas são obviamente alucinação. É o teste mais importante do lab 2 — relatório bonito com fontes falsas é pior que relatório feio com fontes boas.

Entregável: três relatórios

Com nota manual de qualidade

Salve os 3 relatórios em arquivos separados. Dê uma nota 0-10 por plataforma com base em: fontes reais, diversidade, profundidade, clareza, honestidade sobre incertezas.

📏 Como comparar com honestidade

Quatro dimensões fixas. Sem improviso. A mesma rubrica cabe em qualquer lab comparativo futuro — o valor está em sempre medir as mesmas coisas, mesmo quando elas parecem óbvias.

🎯 A rubrica de 4 dimensões

Tempo— cronômetro do enter ao entregável. Inclui bootstrap e permissões.
Qualidade— nota 0-10 manual baseada em critério escrito antes do teste.
Fricção— quantas intervenções humanas, quantos re-prompts, quantos erros.
Custo— tokens/dinheiro reais, incluindo tentativas que falharam.

📊 Dados para anotar por plataforma

Tempo total: em minutos, do enter ao artefato final
Número de turns: mensagens do usuário (não do assistant)
Erros de infra: auth, rate limit, tool quebrada, timeout
Tokens in / out: quando visível; custo em USD quando disponível
Rework: quanto do output precisou ser corrigido manualmente

💡 Regra do critério anterior

Escreva o critério de qualidade antes de ver os outputs. Depois de ver, você vai inconscientemente ajustar a régua para o resultado que mais gostou. Critério escrito no início é defesa contra esse viés.

🧊 Interpretar resultados sem viés de novidade

Existe um fenômeno previsível em qualquer comparação de 2026: a plataforma mais recente parece a mais impressionante. Não porque é melhor — porque é nova. UX novo, animação nova, tom de voz novo. Sem descontar esse efeito, toda comparação recente elege a ferramenta recém-lançada.

⚠️ Alerta de viés

Se você saiu dos dois labs achando que Antigravity "claramente ganhou", marque isso na nota — e reteste daqui a 30 dias. Em três meses, metade do que parecia mágico vira padrão do setor. O que resta depois do reteste é capacidade real; o que some era novidade.

✓ FAZER na interpretação

✓Separar "UX fresco" de "capacidade extra"
✓Anotar o que funcionou sem precisar de prompt extra
✓Conversar com quem usou há mais de 3 meses
✓Pesar dimensões por tipo de tarefa
✓Aceitar empates sem desempate forçado

✗ NÃO fazer

✗Eleger vencedor único pelo "feeling"
✗Penalizar ferramenta antiga por ser familiar
✗Ignorar o lab 1 porque "todos foram iguais"
✗Concluir antes de verificar as fontes do lab 2
✗Transformar "forte em X" em "melhor"

📝 Resumo dos labs 1 e 2

Fechar os dois labs por escrito é o que transforma "impressão" em "conclusão". Um parágrafo por plataforma por lab, mais uma tabela com as 4 notas. Escrever obriga a tomar posição — o aluno costuma descobrir que sua opinião era diferente do que imaginava.

💡 Template de relatório

Para cada uma das 3 plataformas × 2 labs (6 blocos), escreva:

Tempo: X min
Nota qualidade: Y / 10 (critério: …)
Fricção: N intervenções, principais problemas…
Custo: tokens ou USD estimado
O que funcionou: 1 frase
O que atrapalhou: 1 frase

🎯 Primeira conclusão honesta

Depois de escrever os 6 blocos, responda em uma frase: "Para tarefas de código, eu usaria X porque…; para tarefas de research, eu usaria Y porque…" Note que a resposta tem duas plataformas, não uma. Essa é a forma de conclusão honesta que a Trilha 4 cobra.

Este insumo é usado diretamente no módulo 4.4 para compor a recomendação final do curso.

📝 Resumo do Módulo

✓

Lab 1: código até PR — refatoração em Python nas 3 plataformas, cada uma na sua branch, PR descrito pela própria ferramenta.

✓

Lab 2: research com fontes — relatório de 800-1200 palavras, 10 fontes distintas, verificação manual de cada link.

✓

Rubrica de 4 dimensões — tempo, qualidade, fricção, custo. Sempre as mesmas, em todo lab comparativo.

✓

Critério antes, não depois — escreva o que é "bom" antes de ver os outputs. Defesa contra ajuste inconsciente da régua.

✓

Descontar novidade — plataforma mais nova engana em comparações recentes; reteste daqui a 30 dias.

✓

Conclusão por tipo de tarefa — nunca "plataforma melhor", sempre "forte em X / fraca em Y".

Próximo Módulo:

4.4 — 🧪 Labs comparativos 3 e 4 + guia de escolha

Tarefa híbrida (CSV → PPT → Slack) e tarefa de extensibilidade (criar skill/tool nova). Fecha com o guia de escolha pessoal — entregável final do curso.

← Módulo 4.2 Índice da Trilha Próximo Módulo →