É difícil comparar os métodos de desenvolvimento dessa maneira. Você pode ter duas equipes, cada uma usando um método diferente, ambas desenvolvendo o mesmo software e medindo o tempo total (com defeitos comprovados) do início ao fim. Então você tem que explicar o fato de que a maior quantidade de software produzido é um resultado pior.
Mas você nunca pode fazer um teste assim mesmo. Existem muitas variáveis não controladas. Você não tem o mesmo time, você não faz isso ao mesmo tempo, talvez não os mesmos usuários finais que estão presentes para discutir o design, etc.