No primeiro artigo, discutimos alguns fatores relativos à definição do tamanho da amostra para a realização de testes de usabilidade. Infelizmente, (ou felizmente), definir a quantidade de usuários para o teste é apenas parte do problema, pelo menos numa abordagem mais humanística e contemporânea para a engenharia de usabilidade. O perfil do usuário, seus comportamentos conhecidos, preferências e atitudes em relação ao sistema investigado precisam fazer parte da agenda dos designers.
Este segundo texto se propõe a abordar a questão dos testes de usabilidade numa perspectiva ligeiramente diferente, com mais ênfase no uso da inteligência de dados e de procedimentos estatísticos para a tomada de decisão, e menos ênfase na implementação do código necessário para os testes. Apresentarei esquemas para as questões técnicas mais pertinentes. Vamos em frente.
Considerando sistemas não computacionais, as possibilidades de coletar dados sobre os usuários são limitadas, caras ou difíceis de implementar: etnografias, entrevistas em profundidade, análise microgenética etc. Por outro lado, os artefatos interativos dotados da capacidade de armazenar dados tanto sobre o histórico das ações do usuário quanto sobre status do sistema antes e depois de cada uma daquelas ações praticamente todos os computadores, celulares, games e PDAs disponíveis no mercado abriram um novo leque de possibilidades para a pesquisa em usabilidade. Vale ressaltar a estratégia citada não é exclusiva da área dedicada ao estudo das interações humano-computador.
A pesquisa nas ciências sociais aplicadas, ciências humanas e mesmo na área de marketing estão interessadas, há bastante tempo, na segmentação por comportamento. Na Internet essa estratégia ganhou notoriedade com a emergência das especialidades de SEO, sendo referida como Behavioral Targeting vulgo “BT” o braço direito (e às vezes esquerdo) da maioria dos media planners dos grandes portais.
Na prática, a segmentação por comportamento nas mídias interativas amplificou uma prática comum a qualquer pequeno comerciante que conduz de maneira pessoal o atendimento dos clientes no seu negócio: aprender o comportamento das pessoas e decidir, com base na interpretação dessas informações quando, como e o que oferecer, caso a caso. O atendimento efetivamente personalizado sugere, pelo menos em tese, que o cliente não precisará lembrar suas preferências e interesses o tempo todo ao prestador do serviço, vendedor ou mediador do processo.
Apesar dos argumentos apresentados até aqui desenharem um diálogo interessante e promissor entre as áreas, a articulação entre testes de usabilidade, A/B Testing e segmentação por comportamento não é regra na indústria. Os procedimentos mais populares para A/B Testing descrevem experimentos onde designs alternativos são apresentados ao usuário com diferentes soluções para elementos ou interações da interface.
As diferenças entre essas soluções são a variável independente do teste (por exemplo, a posição, escala ou aparência dos elementos, tipos de interação permitidos etc), e o experimentador estrutura a avaliação de usabilidade visando observar como o usuário realiza uma mesma tarefa frente às diferentes soluções de projeto.
Diferenças no tempo gasto pelo usuário para completar a tarefa, no número de cliques ou as variações no percurso são entendidos como as variáveis dependentes, uma vez que estariam subordinadas às propriedades de cada variável independente apresentada ao participante do teste. A biblioteca em javascript escrita por Mat Hampson para o site da BBC é um exemplo simples e eficiente da implementação de uma A/B Testing básico.
O grande potencial do A/B Testing é a possibilidade de realizá-lo com toda a população de usuários em tempo real. À medida que o serviço é acessado, o procedimento de seleção dos participantes e de exibição das interfaces alternativas é conduzido, conforme descrito na Figura 01:
Fig. 01: A/B Testing básico: usuários são selecionados e, por sorteio, experimentam diferentes designs da mesma interface durante a avaliação.
As contribuições da segmentação por comportamento para o esquema da Fig. 01 atuam diretamente sobre os procedimentos de sorteio das interfaces. A seleção das propriedades da variável independente do experimento resulta da análise do comportamento prévio do usuário e não de um gerador de números aleatórios. Na prática, isso significa que podemos gerar projetos alternativos para a interface considerando os diferentes perfis de usuários e poderemos comparar os dados coletados por meio das variáveis dependentes com um pouco mais de direcionamento.
É importante ressaltar que a classificação em perfis precisa utilizar alguma estratégia de reconhecimento do usuário de retorno: autenticação, cookies ou mesmo o page tagging empregado nas ferramentas de web analytics. Mesmo assim podemos enfrentar situações onde mais de uma pessoa utiliza o mesmo computador e correremos o risco de exibir uma alternativa de interface inadequada para o usuário em questão. No entanto, quanto maior o número de usuários avaliados, menor a chance dos perfis equivocados influenciarem no comportamento geral da amostra e maior a possibilidade de identificarmos outliers.
Fig. 02: Alteração do A/B Testing para incorporar a segmentação por comportamento.
Do ponto de vista estatístico, a segmentação permitirá que os resultados dos testes sejam interpretados com o auxílio de agrupamentos de usuários de comportamento semelhante, pelo menos até o momento do teste. Na situação descrita pela Fig. 01, toda a população dos usuários será comparada e as interpretações sobre os dados coletados em cada interação serão generalizadas sem considerar os diferentes perfis que utilizam o serviço. Na situação da Fig. 03, as análises são feitas considerando um segmento específico dos usuários e suas diferentes especificidades.
Fig. 03: Clusters (agrupamentos) por comportamento e por desempenho no teste.
A última etapa dessa estratégia consiste na realização de modificações nas interfaces visando melhorar o desempenho dos usuários em relação às métricas observadas nos testes. Nessa nova iteração, o comportamento conhecido do usuário está mais qualificado do que na anterior, contribuindo para testes ainda mais direcionados. Por exemplo, poderemos investigar se os usuários 1, 6 e 3 do agrupamento Tempo X conseguiram realizar a mesma tarefa em menor tempo na nova versão da interface; ou ainda se os usuários 5, 2 e 1 do agrupamento Cliques Z + Percurso A reduziram o número de cliques e seguiram percursos mais curtos a partir das modificações propostas.
No próximo artigo, discutiremos estratégias de interpretação dos dados coletados em experimentos que combinam A/B Testing e segmentação por comportamento em uma situação prática: webapps para celular.