Desenvolvimento

4 dez, 2018

Analisando os resultados experimentais: além dos efeitos médios do tratamento

Publicidade

Na Uber, testamos a maioria dos novos recursos e produtos com a ajuda de experimentos para entender e quantificar seu impacto em nosso mercado. A análise de resultados experimentais tradicionalmente se concentra no cálculo dos efeitos médios do tratamento (ATEs).

Como as médias reduzem uma distribuição inteira a um único número, no entanto, qualquer heterogeneidade nos efeitos do tratamento passará despercebida.

Em vez disso, descobrimos que o cálculo dos efeitos do tratamento de quantil (QTEs) nos permite caracterizar eficaz e eficientemente a distribuição completa dos efeitos do tratamento e assim capturar a heterogeneidade inerente aos efeitos do tratamento quando milhares de passageiros e motoristas interagem no mercado da Uber.

Além de fornecer uma imagem mais sutil do efeito de um novo algoritmo, essa análise é relevante para o nosso negócio porque as pessoas se lembram de experiências negativas mais fortemente do que das positivas (ver Baumeister et al. (2001)).

Neste artigo, descrevemos o que são QTEs, como eles fornecem informações adicionais além dos ATEs, por que são relevantes para uma empresa como a Uber e como os calculamos.

Diferenciando entre QTEs e ATEs

Para entender melhor como os QTEs diferem dos ATEs, vamos nos concentrar em um exemplo específico. Suponha que queremos analisar o impacto de um algoritmo aprimorado para combinar um passageiro com o motorista mais apropriado, dado um destino específico.

Para este exemplo hipotético, assuma que a métrica de interesse de resultado é o tempo que o motorista leva para pegar o passageiro, também chamado de tempo estimado de chegada (ETA).

Utilizando o framework de resultados potenciais desenvolvido pelo Professor Donald B. Rubin (ver Imbens e Rubin (2015)), denotamos a atribuição do passageiro ao algoritmo de tratamento com e caso contrário. Denotamos o resultado potencial para cada indivíduo como.

Ou seja, é o ETA para o passageiro sob o algoritmo encarregado ou de controle, e é o ETA sob o algoritmo novo ou de tratamento.

É claro que só observamos um resultado para o passageiro porque não podemos atribuí-lo ao novo e ao antigo algoritmo. Nós denotamos o resultado observado como:

Além disso, defina a função:

Com ω ∈ {0,1}. Em outras palavras, F1 (x) é a função de distribuição cumulativa (CDF) de ETAs sob o novo algoritmo, e F0 (x) é a CDF de ETAs sob o algoritmo incumbente.

De longe, a maneira mais amplamente usada de caracterizar a diferença nos resultados é focalizando a (população) ATE, ou seja, E[Yi(1) – Yi(0)].

Mesmo que não observemos o mesmo passageiro em ambos os algoritmos, supondo que o desenho do experimento satisfaça um conjunto de hipóteses de regularidade, podemos estimar o ATE comparando a média de ETA daqueles expostos ao novo algoritmo com a média de ETA daqueles expostos ao algoritmo incumbente.

As médias são eficazes para resumir muitas informações em um único número. Podemos aprender, por exemplo, que o ETA médio do novo algoritmo não é diferente do ETA médio do algoritmo antigo (um ATE de zero). Mas isso realmente significa que não há diferença significativa entre os dois algoritmos?

Dada a grande quantidade de dados agregados e anônimos aproveitados pelas equipes da Uber, podemos fazer melhor do que apenas analisar o ATE?

Os ATEs não nos permitem entender a heterogeneidade nos efeitos do tratamento

Precisamente porque as médias reduzem todas as informações em um único número, elas podem mascarar algumas das sutilezas das distribuições subjacentes.

Por exemplo, imagine que a Figura 1, abaixo, mostre os ETAs dos passageiros para o grupo de tratamento (linha sólida azul) e o grupo de controle (linha tracejada vermelha).

Ambas as distribuições têm a mesma média e, assim, o ATE seria zero. No entanto, a figura também revela que o lado direito dos ETAs sob o novo algoritmo é muito mais gordo do que sob o antigo algoritmo. Ou seja, há vários passageiros que experimentam ETAs muito mais longos que os ETAs mais longos do antigo algoritmo.

Essas experiências de ETAs mais longos sob o novo algoritmo são equilibradas por muitas experiências de ETAs mais baixos, como visto pelo aumento da massa em direção ao lado esquerdo da distribuição do tratamento.

Figura 1: O resultado de um experimento hipotético mostra que a distribuição dos ETAs geradas pelo novo algoritmo é mais ampla do que a gerada pelo antigo algoritmo. Ambos os ETAs curtos e longos são mais comuns sob o novo algoritmo.

Observe que essa heterogeneidade nos efeitos de tratamento entre os passageiros não precisa ser necessariamente devida a componentes observáveis, como localização da solicitação, hora do dia ou clima.

Se esse fosse o caso, poderíamos imaginar uma análise de experimento um pouco mais complexa que tentaria controlar esses fatores e poderia levar a ATEs suficientemente informativos condicionais a esses fatores observáveis.

Mas, na verdade, o grande número de motoristas e passageiros que interagem entre si no mercado da Uber sugere que haverá heterogeneidade nos efeitos do tratamento que é inexplicável por quaisquer fatores observáveis.

É nesse cenário que os QTEs realmente fornecem informações adicionais não encontradas simplesmente observando o ATE, mesmo depois de condicionar qualquer fator observável imaginável.

Ignore essa heterogeneidade por sua própria conta e risco

Mas mesmo que haja diferenças nos efeitos do tratamento entre os passageiros, elas são importantes para o negócio? É relevante para o negócio que alguns passageiros experimentem ETAs mais longos sob o novo algoritmo, ou tudo o que importa é que os passageiros não experimentem nenhuma diferença nos ETAs em média?

Como a maioria dos passageiros interage com a plataforma Uber em várias ocasiões, eles experimentam ETAs diferentes ao longo do tempo. A pesquisa sugere que as experiências negativas são mais importantes nas memórias das pessoas do que nas experiências positivas.

Ou seja, mesmo que um determinado passageiro experimente, em média, os mesmos ETAs gerados pelo novo algoritmo, o fato de haver um número de ETAs maior do que sob o algoritmo incumbente pode levar aquele passageiro a pensar que os ETAs pioraram.

Isso implica que a contabilização da diferença nas distribuições de resultados além da comparação das médias dos ETAs é importante para o negócio, que é onde os QTEs entram em cena.

Os efeitos do tratamento com quantil nos permitem capturar essa heterogeneidade

A fim de capturar a ideia de que os ETAs longos se tornaram mais longos, definimos a QTE como a diferença em um quantil específico da distribuição de resultados sob tratamento e o mesmo quantil da distribuição de resultados sob controle. Isso é:

Utilizando as mesmas distribuições para ETAs como na Figura 1, a Figura 2, abaixo, representa graficamente o QTE para o 95º percentil, isto é, q(0.95). Note que o QTE definido desta maneira não pode nos dizer qual é a diferença no ETA para um passageiro específico.

Em outras palavras, o QTE como definido aqui não nos permite aprender quão longo o ETA gerado pelo novo algoritmo é para um passageiro específico cujo ETA estava no 95º percentil sob o algoritmo incumbente.

Isso só nos permite comparar o 95º percentil dos ETAs na distribuição em todos os passageiros para o grupo de tratamento com o 95º percentil na distribuição em todos os passageiros do grupo de controle.

Mas como não observamos o mesmo passageiro em ambos os algoritmos, não podemos dizer nada sobre a correlação entre Yi(1) e Yi(0) para um determinado passageiro i (sem fazer outras suposições). Assim, tudo o que podemos esperar aprender de um experimento é a informação sobre as distribuições marginais dos resultados de interesse.

Figura 2: O 95º percentil ETA sob o novo algoritmo é maior que o 95º percentil ETA sob o algoritmo incumbente, levando a um QTE positivo.

Dadas as grandes quantidades de dados que podemos analisar após um experimento, é claro que podemos calcular o QTE para muitos quantis diferentes, por exemplo, do 1º até o 99º. Se plotamos todos eles em uma única figura, a figura resultante pode parecer com a Figura 3, abaixo:

Figura 3: Plotando os QTEs no eixo vertical contra os quantis mostra que eles são negativos até o 60º percentil e positivos acima do 60º percentil. Essa é outra maneira de ver que os ETAs curtos e longos são mais frequentes sob o novo algoritmo, em comparação com o incumbente.

A figura mostra que, como visto a partir da inspeção das duas distribuições de resultados diferentes na Figura 1, o QTE foi negativo para quantis baixos e positivo para quantis altos. Em outras palavras, os ETAs curtos e longos são ambos mais frequentes no novo algoritmo.

Figuras como essa nos permitiram obter insights muito mais sutis sobre os impactos de nossos experimentos na Uber. Por exemplo, análises de QTEs nos permitiram detectar deteriorações em nosso mercado a partir de algoritmos específicos.

Essas deteriorações ocorreram em resultados extremos para uma métrica e foram facilmente detectadas no QTE no 95º percentil. Ao mesmo tempo, o ATE era pequeno o suficiente para não levantar preocupações.

Calculando QTEs através de regressão quantílica

Semelhante ao uso de regressão linear para calcular ATEs, podemos usar a regressão quantílica para calcular os QTEs (ver Koenker (2005)). Uma vantagem de fazer isso é a capacidade de confiar na literatura existente, citada abaixo, que desenvolve métodos robustos de inferência para as estimativas, comparável à inferência robusta para a regressão linear.

Enquanto a regressão linear modela a função média condicional do resultado de interesse, a regressão quantílica modela a função quantil condicional. Para estimar o QTE, especificamos a função quantil condicional.

Então α (τ) = F0-¹(τ) e β(τ) = F1-¹ (τ) – F0-¹ (τ) (veja Koenker (2005)). Assim, uma regressão quantílica do resultado de interesse em uma constante e um indicador de tratamento nos permite estimar o QTE no τ -th quantil, assim como uma regressão linear do mesmo tipo estima o ATE.

Semelhante aos coeficientes de regressão linear, os coeficientes de regressão quantílica podem ser determinados como a solução para um problema específico de otimização. Para um dado quantil τ os coeficientes α (τ) e β(τ) são a solução para:

Onde:

E L (•) é a função indicadora (ver Koenker (2005)). Em contraste com o caso da regressão linear, a função objetiva para a regressão quantílica não é diferenciável, e existem várias maneiras diferentes de calcular o mínimo.

Uma possibilidade é escrever o problema de minimização como um programa linear e usar um solucionador apropriado.

Na Uber, no entanto, resolvemos a otimização através de um algoritmo sugerido por David R. Hunter e Kenneth Lange em um artigo para o Journal of Computational and Graphical Statistics.

Ao desenvolver uma implementação eficiente desse algoritmo usando rotinas de álgebra linear otimizada, descobrimos que esse algoritmo escala bem às muitas vezes milhões de observações que precisamos analisar para um único experimento.

Ao caracterizar os coeficientes de regressão quantílica como a solução para um problema de minimização, podemos derivar suas distribuições limitantes usando a teoria para estimadores-M (não diferenciáveis).

Com a distribuição limitante, podemos derivar intervalos de confiança para os QTEs. Semelhante ao caso da regressão linear, vários resultados de inferência robustos estão disponíveis na literatura.

Assim, por exemplo, há resultados para inferência robusta à heteroscedasticidade (Kim e White (2003)), autocorrelação (Gregory et al. (2018)) e erros padrão robustos de cluster (Parente e Santos Silva (2015)).

Avançando

Os efeitos do tratamento quantil (QTEs) permitem que os cientistas de dados da Uber identifiquem melhor quando as degradações em nossos algoritmos levam, por exemplo, a tempos de busca/embarque mais longos, oferecendo uma alternativa mais precisa aos efeitos médios do tratamento (ATEs).

Essa precisão aumentada na análise dos efeitos dos experimentos nos permite refinar a mecânica por trás dos tempos estimados de chegada (ETAs) e outras métricas de uma maneira mais direcionada, levando a uma melhor experiência do passageiro em nossa plataforma.

Se enfrentar alguns dos maiores desafios da ciência de dados da indústria lhe interessa, considere se candidatar a um cargo em nossa equipe!

***

Este artigo é do Uber Engineering. Ele foi escrito por Matthias Lux. A tradução foi feita pela Redação iMasters com autorização. Você pode conferir o original com as referências em: https://eng.uber.com/analyzing-experiment-outcomes/