Cartas para Jakob #1 – Como assim cinco usuários?

No dia 19 de março de 2000, Jakob Nielsen publicou em sua coluna Alertbox um texto intitulado “Why You Only Need to Test with 5 Users”. Esse texto, na minha visão, estabeleceu um paradigma para os designers interessados em realizar inspeções de usabilidade. Embora seja curto e sucinto, a recomendação era poderosa (e econômica):

1. Primeiramente, Nielsen defende que os testes de usabilidade não estariam restritos aos projetos de grandes orçamentos e longos prazos de desenvolvimento. Testes de usabilidade muito elaborados seriam desperdício de recursos;
2. Excelentes resultados poderiam ser obtidos com não mais do que cinco usuários observados no maior número de pequenos testes possível, conforme o orçamento do projeto.

Depois dos argumentos fortes, um bom gráfico completa a idéia de forma brilhante, ajudando gestores e tomadores de decisão a comprarem de vez a ideia. Quem realmente assina a linha pontilhada que autoriza a condução dos testes não poderia ficar mais convencido:

A base do gráfico é a fórmula N(1-(1-L)^n), onde N seria o total de problemas de usabilidade do design e L seria a proporção de problemas de usabilidade descobertos quando testamos com apenas um usuário. Nielsen e seu colega na publicação, Dr. Tom Landauer, sugeriram que a média de L seria .31 e o gráfico acima resultou da plotagem dos dados com essa proporção.

A interpretação do gráfico é ainda mais instigante: zero usuários, zero respostas. O primeiro usuário ajudaria a detectar cerca de 1/3 dos problemas. O segundo apontaria boa parte das mesmas questões detectadas com o primeiro usuário, além de pequenas novidades. Essa tendência se repetiria com descobertas cada vez menores, sustentando a idéia de que por volta do sexto usuário, a curva entraria numa tendência de estabilização na detecção de problemas de usabilidade (CGF: the curve of dimishing returns).

As you add more and more users, you learn less and less because you will keep seeing the same things again and again. There is no real need to keep observing the same thing multiple times, and you will be very motivated to go back to the drawing board and redesign the site to eliminate the usability problems […] After the fifth user, you are wasting your time by observing the same findings repeatedly but not learning much new.

A segunda parte da argumentação defende um processo iterativo: design > teste > design > teste… Os primeiros 85% dos problemas seriam detectados na primeira iteração e deveriam ser corrigidos no segundo ciclo de design. O segundo teste daria conta de boa parte (85%?) dos 15% de problemas restantes do primeiro teste, e um novo redesign apresentaria mais correções. O processo sugere que, ao invés de testar o projeto uma única vez com 15 usuários, a melhor alternativa seria realizar três testes com cinco usuários realizando correções entre cada iteração.

E por que não realizar 15 testes com um único usuário, já que a primeira inspeção detectaria cerca de 30% dos problemas? Nielsen é cuidadoso o bastante para apresentar as limitações do teste com apenas um usuário: a primeira diria respeito aos outliers, pessoas com comportamento acima (ou abaixo) da média que poderiam adicionar ruído aos dados; a segunda é de ordem econômica, e fundamenta-se na percepção de que a relação custo x benefício de condução do testes seria ideal por volta de três usuários analisados.

Por fim, o autor encerra (sabiamente) o artigo explicando que o modelo apresentado só seria eficaz nas situações onde os usuários utilizam o site de forma similar, ou em grupos de comportamento semelhante. Mesmo entre grupos distintos, segundo Nielsen, haveria grande similaridade nas respostas. “São todos humanos, afinal”, completa. E mesmo com vários grupos de interesse, a lógica dos cinco usuários (três ou quatro para dois grupos; três para mais de dois grupos) poderia ser aplicada e os resultados seriam igualmente positivos.

Críticas

Alguns trabalhos interessantes questionam a recomendação do Nielsen. O primeiro é um estudo de autoria de Spool & Schroeder (2001) [1], que discute tanto a fundamentação de L (a proporção de problemas encontrados no teste do primeiro usuário) quanto o número de testes necessários para que restem os tais 15% de problemas para a iteração design > teste seguinte. Os autores realizaram testes com 49 usuários em três sites de comércio eletrônico de CDs, DVDs e um site de eletrônicos.

Os resultados põem à prova diretamente o tamanho da amostra necessária para se atingir os 85 a 90% de problemas de usabilidade detectados (23 a 30 usuários, contra os seis do Nielsen), além de apontarem uma limitação que não estava corretamente descrita no Alertbox original: os testes realizados por Nielsen para definir a média de L foram realizados em sistemas de caixa postal por telefone (L = .34), duas aplicações em mainframes (L = .31), uma em videotex (L = .51) e cinco aplicações para PC (L = .28). A menor média de L ficou em .16, obtida em testes com pacote Office em uso por volta de 1992.

Na prática, Spool & Schroeder validam a fórmula de Nielsen e Landauer. O problema, segundo os autores, é que a definição de L seria crucial para estimar corretamente a amostra. Além disso, seria um equívoco óbvio transpor uma média de um sistema de mensagens de voz ou do Office para a avaliação de um site de vendas, por exemplo. A pesquisa de Spool & Schroeder também apontou limitações no trabalho de Virzi (1992) [2].

Caulton (2001) [3] apresenta argumentos interessantes para a crítica dos cinco usuários, descrevendo que a base do modelo de Nielsen e Virzi estaria na suposição de homogeneidade da amostra, ou seja, na idéia de que todos os tipos de usuário teriam a mesma probabilidade de encontrar os problemas de usabilidade. O pensamento de Caulton ataca o modelo dos cinco usuários seguindo o mesmo raciocínio de Spool & Schroeder: a crítica do método. Antes de abordar diretamente o segundo estudo, farei um breve panorama sobre pesquisas experimentais.

A seleção das amostras para experimentos de natureza científica é crucial para definir, principalmente, as limitações do estudo. Se por um lado a suposição de homogeneidade se propõe a isolar um determinado comportamento dos participantes do estudo, por outro a representatividade da amostra fica diretamente comprometida. Há várias técnicas de amostragem justamente para permitir inferências mais confiáveis sobre o fenômeno observado.

Em primeiro lugar, uma amostra aleatória seria heterogênea por natureza, mesmo numa população específica. Por exemplo, usuários do Gmail escolhidos aleatoriamente para participar de uma pesquisa: teríamos de estudantes pré-adolescentes a aposentados; usuários avançados e iniciantes; todos com a mesma chance de serem convocados. Parece pouco razoável sugerir que de cinco para 35 participantes não haja ganhos na observação. Por outro lado existiria pouca diferença de 35 para 36 entrevistados: um outlier não teria força o bastante para modificar os resultados na direção oposta; e mais um usuário dentro do padrão proporcionaria interpretações já conhecidas. De uma forma ou de outra, a representatividade obtida por meio da seleção aleatória joga por terra qualquer probabilidade dos participantes encontrarem os mesmos problemas de usabilidade pela simples ação do acaso.

Um segundo ponto importante diz respeito à dimensão qualitativa do estudo, quando nos debruçamos sobre o perfil do usuário para situar e compreender seu comportamento. Há mais do que estudante pré-adolescente como delimitador de um comportamento. Esse indivíduo fica um número X de horas conectado, possui computadores há Y anos, manda Z e-mails por dia, já teve outros W serviços de e-mail antes do Gmail além de ter outras questões particulares relevantes: se os pais ou irmãos ou outras pessoas de influência dominam o serviço e forneceram treinamento; se ele usa outros serviços online que puderam dar suporte cognitivo ao uso inicial do Gmail e assim por diante.

Voltando ao estudo de Caulton, pode-se observar duas questões centrais delimitadas pelo autor sobre o trabalho de Virzi (e Nielsen e Laudauer por tabela): 1) o pesquisador de usabilidade que aplicaria o modelo dos cinco usuários estaria investigando uma base de participantes homogênea em relação aos fatores que afetariam a usabilidade de um recurso específico do sistema; 2) o pesquisador não teria muitas questões sobre a amostra em si.

Caulton então recupera algumas conclusões do próprio Virzi e de Lewis (1994) [4], apontando que diferentes problemas de usabilidade não teriam as mesmas chances de serem encontrados, e que um teste com cinco usuários poderia não detectar os problemas mais severos. Esses últimos, conforme a sugestão de Nielsen e o estudo de Virzi, seriam eliminados na primeira leva dos 80%.

O estudo de Caulton ainda faz outra comparação, tomando como referência problemas comuns (probabilidade de .65), raros (probabilidade de .20) e medianos (média dos dois) de serem encontrados: seriam necessários dois usuários para encontrar 80% dos problemas mais comuns, seis para encontrar 80% de todos os problemas e oito para encontrar 80% dos problemas mais sérios. A curva média realmente sugere o desenho de Nielsen, mas Caulton enfatiza a necessidade de se contemplar a heterogeneidade dos participantes nos testes para compreender o que os dados estariam indicando.

Pode-se entender que a grande questão para se definir o número de usuários estaria, portanto, na existência ou não da correlação entre a gravidade do problema de usabilidade e a chance de encontrá-lo nos testes com poucos participantes. Virzi correlaciona gravidade e probabilidade de detecção, apontando para amostras pequenas como estratégia. Caulton, caminha em outra direção, defendendo que:

1. A existência de subgrupos heterogêneos na amostra diminuiria a chance de se encontrar problemas;
2. Quanto mais distintos forem os subgrupos em relação ao uso e compreensão do projeto em testes, a proporção de problemas a serem esperados em um teste diminuiriam;
3. O potencial de detecção do problema diminuiria independentemente da sua gravidade, mesmo dentro de um subgrupo, à medida que subgrupos distintos forem adicionados à amostra.

Partindo das questões descritas, pode-se supor que projetos de audiências heterogêneas necessitariam de uma base maior de participantes nos testes para que os problemas de usabilidade sejam encontrados. No mundo real, e provavelmente fora do escopo do artigo original do Nielsen, a audiência de um site é indiscutivelmente heterogênea. Não estou me referindo à audiência definida pelo conteúdo, mas pelo uso do site. Certamente um blog sobre música atrai interessados em música e um aplicativo de homebanking atrai clientes de um banco, mas esse recorte de público não dá conta dos usos que cada subgrupo desses grupos maiores fazem do site.

Colocando de outra forma, não seria apropriado supor que o interesse por música e frequência de acesso a sites de música garantiriam o domínio da linguagem, metáforas e demais convenções que poderiam ser utilizadas na interface de um novo projeto nessa temática. Cada usuário desenvolve seu próprio modelo conceitual a partir de uma experiência de vida que transborda os hábitos dele na Web. De certo sobre o comportamento do usuário há apenas as expectativas do designer.

A usabilidade, nas palavras do próprio Nielsen, seria um atributo de qualidade que verificaria o quão fácil uma interface seria de usar: facilidade de aprender (a usar), eficiência (no uso), facilidade de lembrar (como fazer as coisas), tratamento de erros (baixa quantidade, recuperação de uma ocorrência) e satisfação (decorrente do uso). A probabilidade de um determinado problema de usabilidade ser detectado (o L da fórmula), seja ele relativo à aprendizagem, memorabilidade, eficiência, tratamento de erros ou satisfação, não pode ser calculada a partir de uma média construída com base em outra amostra testada em outro projeto ou sistema. Subgrupos de usuários apresentam questões distintas sobre as dimensões de usabilidade citadas que precisam ser consideradas na definição da probabilidade de se encontrar erros no design.

Pesquisando grupos heterogêneos na prática

Faulkner (2003) [5] realizou uma pesquisa para verificar como o aumento no número de participantes em subgrupos distintos influenciaria na detecção de problemas de usabilidade. Três grupos de usuários, num total de 60 participantes, foram analisados durante a realização da tarefa em um sistema. O primeiro grupo foi composto por usuários iniciantes em computadores que nunca usaram o sistema; o segundo grupo por usuários experientes em computadores, mas que nunca usaram o sistema; e o terceiro por usuários experientes que já conheciam o sistema.

Os gráficos que apresentam os resultados do teste mostram blocos equivalentes a cinco, dez, 15 e 20 usuários respectivamente. A linha horizontal marca a média, confirmando, pelo menos no primeiro grupo, a taxa de problemas identificados por Nielsen e Virzi (85%). No entanto, nesse mesmo grupo, o limite inferior do número de problemas detectados é muito mais baixo (55%) que nos demais quadros, onde o aumento no número de participantes impulsiona drasticamente a quantidade de erros encontrados nos testes. Em nenhum grupo com menos de 20 participantes a quantidade de problemas encontrados foi inferior a 95%.

Em relação às diferenças entre os subgrupos, comportamentos esperados puderam ser verificados: usuários experientes cumpriram a tarefa em menor tempo, com menor variação entre os participantes desse grupo. Nos grupos com usuários de menor experiência, a variação de tempo e as diferenças no percurso para completar as tarefas foram maiores, como também era esperado. Uma terceira leitura importante dos resultados emerge a partir do cruzamento do perfil do usuário x problemas detectados, uma vez que a natureza do erro encontrado (de aprendizagem, de lembrança etc), o contexto onde foi percebido (o que estava sendo feito, como e quando) e sua correlação com as características do participante (experiência prévia, conhecimentos etc) oferecem uma série de possibilidades de ajustes e melhorias no projeto.

Faulkner conclui o estudo propondo que sejam realizados o maior número de testes, com o maior número de participantes que o orçamento permitir, exatamente numa posição inversa à de Nielsen no artigo de 2000.

Por fim Turner, Lewis & Nielsen (2006) [6] descrevem equações simples para verificar se o tamanho da amostra é condizente com a proporção de problemas que se deseja encontrar, partindo dos dados coletados pelo próprio estudo. A ideia é definir L a partir da situação de projeto atual e não de estudos e contextos anteriores. Os autores sugerem uma correção no valor de L (no estudo, definido como p) a partir da média entre o ajuste de Good-Turing e da normalização sobre o valor da probabilidade.

A avaliação segue a montagem de uma matriz onde o valor um (1) indica que o problema foi detectado e zero (0) que não foi. A probabilidade por participante é calculada (coluna p) e a partir dela é calculada a probabilidade geral até o momento:

A fórmulas foram aplicadas para se chegar aos valores de L (p) ajustados, onde:

pEst: probabilidade estimada a partir dos dados (0.500);
E(N1): número de problemas de usabilidade detectados por apenas um usuário (no caso, problema 4);
N: número total de problemas encontrados (3);
n: número de participantes do estudo até o momento (4);
pGT-adj: probabilidade ajustada via Good-Turing (0.375);
pNorm-adj: proabilidade normalizada (0.188);
padj: probabilidade final, ajustada.

Utilizando a equação sugerida por Virzi (1992) para estimar a proporção de problemas encontrados:

1 – (1 – p)^n)) = 1 – (1 – 0.28)^4) = 0.73

Se a proporção de problemas encontrados desejada era de .90, faltariam participantes para o estudo. Com sete participantes, a proporção atingiria o valor desejado. A intenção dessa proposta é permitir um ajuste no tamanho da amostra enquanto o teste é realizado. Se os problemas forem detectados antes do esperado, o teste pode ser encerrado; se for o número inicial de participantes já tiver sido atingido e ainda há questões a serem investigadas, o cálculo pode sugerir quantos testes extras serão necessários.

Recuperando o questionamento de Caulton sobre os subgrupos, o cálculo da probabilidade ajustada deveria ser feita com os dados de cada grupo em separado, evitando leituras homogeneizadas dos dados. Cada conjunto de participantes teria sua própria dinâmica de identificação de problemas de usabilidade (e respectivo índice L).

Discussão

Nessa primeira revisão de um dos principais textos de Jakob Nielsen e alguns dos seus críticos, pode-se perceber a influência das pesquisas desse importante autor para a área da usabilidade. Também parece claro que, embora Nielsen ainda mantenha suas convicções sobre a validade dos testes qualitativos com cinco usuários dez anos após a publicação do artigo original, alguns progressos metodológicos foram feitos visando aumentar a confiabilidade da amostra.

As contribuições dos demais autores citados neste artigo antes de mais nada ampliam o alcance das publicações de Nielsen & Landauer e Virzi, principalmente quanto ao problema da suposição da homogeneidade da amostra.

Certamente não foi o objetivo deste artigo esgotar o assunto, mas as questões cruciais envolvendo a escolha no tamanho da amostra foram abordadas:

É possível realizar o teste com cinco usuários, reconhecendo as limitações de detecção dos problemas;
Sites de aplicativos com audiência mais diversa tendem a apresentar resultados melhores nos testes com mais usuários;
Quanto maior a amostra, mais difícil encontrar problemas graves ou sutis, mesmo entre os grupos diretamente afetados pelos erros decorrentes;
A proporção de problemas esperados no teste pode (e deve) ser calculada a partir da realidade do próprio experimento.

Embora nenhum dos trabalhos citados aborde especificamente questões metodológicas de coleta de dados, a discussão é rica em oportunidades para o uso de estratégias como o A/B Testing, onde grupos de usuários distintos selecionados por Behavioral Targeting poderiam experimentar diferentes versões de uma mesma interface na realização de uma tarefa específica. Uma sistematização dinâmica da seleção de participantes ocorreria na medida em que o teste fosse conduzido, com seu encerramento calculado a partir do esgotamento da identificação dos problemas de usabilidade em cada grupo.

Esse será o tema do segundo texto de Cartas para Jakob: implementando um teste de usabilidade com A/B Testing.

Referências

[1] Spool, J. & Schroeder, W. (2001). Testing web sites: five users is nowhere near enough. CHI ’01 Extended Abstracts, p. 285-286. New York: ACM.

[2] Virzi, R. A. (1992). Refining the test phase of usability evaluation: How many subjects is enough? Human Factors, 34, 4, 457-468.

[3] Caulton, D. (2001). Relaxing the homogeneity assumption in usability testing. Behaviour & Information Technology 20, 1, p.1-7.

[4] Lewis, J. R. (1994). Sample sizes for usability studies: Additional considerations. Human Factors, 36, 368-378.

[5] Faulkner, L. (2003). Beyond the five-user assumption: Benefits of increased sample sizes in usability testing. Behavior Research Methods, Instruments, & Computers, 35 (3), 379-383

[6] Turner, C.W., Lewis, J.R., & Nielsen, J. (2006). Determining Usability Test Sample Size. International Encyclopedia of Ergonomics and Human Factors, 2nd Ed (3). Boca Raton, FL: CRC Press

De 0 a 10, o quanto você recomendaria este artigo para um amigo?

Powered by: