Agentes de IA no seu sprint: como copilots estão mudando o significado de story point

Dupla de desenvolvedores trabalhando com um assistente de codificação IA, uma tela mostrando código sendo gerado enquanto a outra mostra um quadro de sprint com estimativas em story points, transmitindo a tensão entre velocidade da IA e estimativas tradicionaisDupla de desenvolvedores trabalhando com um assistente de codificação IA, uma tela mostrando código sendo gerado enquanto a outra mostra um quadro de sprint com estimativas em story points, transmitindo a tensão entre velocidade da IA e estimativas tradicionais Um engenheiro de backend da sua equipe pega uma história de 5 pontos. Historicamente, isso representa um dia e meio de trabalho. Com Cursor e Claude, ele entrega em uma hora. No próximo sprint, a equipe olha para um ticket similar e alguém pergunta: "Isso ainda é um 5?" Ninguém tem uma boa resposta. Isso está acontecendo em equipes em todo lugar agora, e a maioria do conteúdo sobre agile não acompanhou.

O problema não é inflação de velocidade

A reação óbvia é "ótimo, estamos mais rápidos agora". Mas a questão é mais profunda do que números de velocidade maiores. Story points devem medir complexidade relativa. Um 5 deve representar aproximadamente a mesma quantidade de esforço independentemente de quem o pega. IA quebra essa suposição de duas maneiras: A aceleração é desigual. Um desenvolvedor júnior usando Copilot pode ver um aumento de velocidade de 3x em um endpoint CRUD de rotina. Um desenvolvedor sênior trabalhando em uma integração complexa com APIs desconhecidas pode não ver nenhuma melhoria, ou na verdade ficar mais lento. O estudo METR de meados de 2025 descobriu que desenvolvedores experientes de código aberto eram 19% mais lentos com assistência de IA em tarefas do mundo real, enquanto acreditavam estar 20% mais rápidos. A mesma pessoa é mais rápida em algumas tarefas, mas não em outras. Agentes de IA lidam bem com boilerplate e padrões bem documentados. Eles têm dificuldade com decisões arquiteturais e qualquer coisa que exija contexto profundo sobre sua base de código específica. Um desenvolvedor pode passar por três histórias de 3 pontos em uma manhã, depois gastar dois dias em uma única história de 5 pontos onde a IA continuou gerando soluções plausíveis, mas erradas. Isso torna a estimativa extremamente inconsistente. Seu gráfico de velocidade começa a parecer um sismógrafo.

O que as equipes estão realmente experimentando

Converse com gerentes de engenharia executando sprints com equipes aumentadas por IA e você ouve os mesmos padrões: Números de velocidade que não significam nada. Uma equipe relatou passar de 45-60 pontos consistentes por sprint para 55-65, mas o trabalho sendo feito não parecia proporcionalmente diferente. Codificação mais rápida não estava se traduzindo em entrega mais rápida porque revisão de código, QA e cronogramas de implantação permaneceram os mesmos. O gargalo de revisão. Dados do GitHub mostram que pushes mensais de código ultrapassaram 82 milhões no final de 2025, com 41% do novo código assistido por IA. Pull requests estão se acumulando. Equipes relatam esperar mais de 4 dias por revisões. O desenvolvedor escreveu o código em uma hora, então ele fica na fila de revisão por uma semana. Débito técnico que se acumula de forma diferente. Código gerado por IA tende a funcionar, mas carece de consciência arquitetural. Estudos mostram 4x mais duplicação de código e 60% menos refatoração em bases de código assistidas por IA. A história de 3 pontos é entregue rapidamente. Seis meses depois você está pagando por isso em manutenção. Quadro de sprint mostrando uma mistura de tickets concluídos e travados, com alguns marcados como concluídos muito rapidamente e outros bloqueados em revisão de código, ilustrando o fluxo desigual do desenvolvimento assistido por IAQuadro de sprint mostrando uma mistura de tickets concluídos e travados, com alguns marcados como concluídos muito rapidamente e outros bloqueados em revisão de código, ilustrando o fluxo desigual do desenvolvimento assistido por IA Desenvolvedores juniores que parecem seniores no papel. Um desenvolvedor com dois anos de experiência agora pode gerar a mesma produção de alguém com dez. Mas eles gastam 1,2 minutos revisando cada sugestão de IA em comparação com 4,3 minutos de um sênior. Essa diferença de qualidade não aparecerá até a produção.

Story points não estão quebrados, mas precisam de recalibração

O instinto de descartar story points inteiramente é prematuro. Pontos ainda funcionam para alinhamento de equipe e conversas de planejamento de sprint. O que precisa mudar é como as equipes os calibram.

Separe "esforço de codificação" de "esforço de entrega"

A parte que a IA acelera (escrever código) é apenas uma peça do ciclo de vida de uma história. Uma divisão mais honesta:
FaseImpacto da IA
Entender requisitosMínimo
Escrever códigoAlto (2-10x mais rápido em trabalho de rotina)
Revisão de códigoNegativo (mais código para revisar, frequentemente com qualidade inferior)
TestesModerado (IA pode gerar testes, mas alguém tem que verificá-los)
Integração e implantaçãoMínimo
Se sua equipe estimou histórias principalmente com base no tempo de codificação, seus pontos agora estão descalibrados. Se você estimou com base no esforço total de entrega, eles provavelmente estão mais próximos de precisos.

Recalibre suas histórias de referência

Toda equipe tem histórias âncora: "Lembra daquela integração de pagamento? Aquilo foi um 8." Essas âncoras foram definidas antes da IA. Atualize-as. Execute uma sessão de recalibração onde você re-estima 5-10 histórias concluídas dos últimos dois sprints. Use sua ferramenta de planning poker e pergunte: "Sabendo o que sabemos agora sobre como a IA afeta esse tipo de trabalho, o que estimaríamos isso?" As diferenças entre estimativas antigas e novas dirão exatamente onde sua calibração está errada.

Outras formas de medir

Algumas equipes estão se afastando completamente dos story points, e a adoção de IA está acelerando essa mudança. Cycle time mede quanto tempo um ticket leva do início ao fim. Inclui o gargalo de revisão e o pipeline de implantação, não apenas quão rápido alguém escreveu o código. Equipes acompanhando cycle time estão descobrindo que a IA mal move a agulha na velocidade geral de entrega, mesmo quando a velocidade de codificação dobra. Throughput conta quantos itens a equipe completa por sprint, independentemente do tamanho. Se sua equipe entregou 12 histórias no último sprint e 14 neste sprint, essa é uma informação útil sem debater o que um "ponto" significa. DORA metrics (frequência de implantação, lead time, taxa de falha de mudança, tempo para restaurar) focam em resultados em vez de produção. Quando a IA torna a codificação mais rápida, mas as taxas de falha de mudança aumentam devido a revisões menos cuidadosas, DORA mostra a compensação que os números de velocidade escondem. Dashboard mostrando diferentes métricas lado a lado, com gráfico de velocidade tradicional comparado a gráficos de cycle time e throughput, revelando padrões diferentes sobre desempenho da equipeDashboard mostrando diferentes métricas lado a lado, com gráfico de velocidade tradicional comparado a gráficos de cycle time e throughput, revelando padrões diferentes sobre desempenho da equipe Ron Jeffries, que é frequentemente creditado com a invenção dos story points, disse: "Eu posso ter inventado story points, e se eu fiz, sinto muito agora." Sua preocupação era que os pontos fossem mal utilizados como uma medida de produtividade em vez de uma ferramenta de planejamento. IA torna esse uso indevido pior.

O que realmente funciona agora

Com base no que as equipes estão relatando no início de 2026: Mantenha o planning poker, mas mude a conversa. A reunião de estimativa ainda é valiosa. A discussão sobre o que está envolvido em uma história é mais importante do que o número que você atribui. Mas atualize as perguntas: "A IA ajudará com isso?" deve fazer parte da conversa. Se uma história é principalmente boilerplate, diga isso. Se é uma integração complexa onde a IA gerará soluções enganosas, sinalize isso também. Trate código gerado por IA como um primeiro rascunho, não trabalho finalizado. Construa tempo de revisão em suas estimativas. Uma história onde a IA escreveu 80% do código pode precisar de mais tempo de revisão do que uma onde um desenvolvedor escreveu cada linha, porque o revisor tem que verificar intenção em vez de apenas qualidade. Fique atento à lacuna de percepção. Lembre-se daquela descoberta METR: desenvolvedores acreditavam estar 20% mais rápidos enquanto na verdade estavam 19% mais lentos. Usar IA parece mais produtivo porque gerar código é cognitivamente mais leve do que escrever do zero. Esse sentimento nem sempre corresponde ao relógio. Não deixe que isso infle seus compromissos de sprint. Meça o que você entrega, não o que você codifica. Se o cycle time da sua equipe não melhorou apesar da codificação mais rápida, o gargalo está em outro lugar. Corrija isso antes de se preocupar com story points. Para equipes que desejam experimentar diferentes escalas de estimativa enquanto recalibram, Kollabe suporta Fibonacci, tamanhos de camiseta e escalas personalizadas que você pode adaptar à medida que sua equipe descobre o que funciona em um fluxo de trabalho assistido por IA.

Este é um problema de processo

As equipes que estão lidando bem com isso não compraram uma ferramenta de estimativa de IA. Elas reconheceram que a IA mudou como seu trabalho é feito e ajustaram seu processo. Isso começa com conversas honestas sobre onde a IA ajuda e onde não ajuda. Sua velocidade de seis meses atrás não é mais uma linha de base útil. E a lacuna entre produção de codificação e entrega real nunca foi tão ampla, então foque no lado da entrega.

Não necessariamente. Story points ainda funcionam como uma ferramenta de dimensionamento relativo para discussão em equipe e planejamento de sprint. O que você deve fazer é recalibrar suas histórias de referência e garantir que sua equipe leve em conta o impacto desigual da IA ao estimar.

Estime esforço total de entrega, não apenas tempo de codificação. Uma história que leva 10 minutos para codificar, mas 2 horas para revisar e testar ainda é um pedaço significativo de trabalho. Divida seu pensamento entre implementação e verificação.

Em tarefas de rotina e bem definidas, a diferença diminui significativamente. Em trabalhos complexos que exigem julgamento arquitetural, seniores ainda superam porque sabem quando as sugestões da IA estão erradas. O risco real é juniores entregando código gerado por IA sem a experiência para detectar problemas sutis.

Cycle time e throughput fornecem uma imagem mais clara do desempenho de entrega sem as dores de cabeça de calibração. DORA metrics (frequência de implantação, lead time, taxa de falha de mudança) capturam qualidade junto com velocidade. A maioria das equipes se beneficia de acompanhar todos os três junto com a velocidade em vez de substituí-la completamente.
Última atualização em 10/02/2026