Na Hekima, os desenvolvedores fazem de tempos em tempos apresentações sobre algoritmos, artigos científicos, técnicas de programação e outras coisas. A minha apresentação foi sobre uma técnica estatística chamada análise de sobrevivência (survival analysis). Decidi aproveitar a oportunidade e transformar a apresentação em um artigo.
Hoje vou passar pelas definições necessárias para entender o que é essa técnica e quando utilizá-la.
O que é?
Survival analysis ou análise de sobrevivência é geralmente definido como um método de analisar dados em que a saída é definida pelo tempo até a ocorrência de um evento. O evento pode ser a morte de um indivíduo, a ocorrência de uma doença, casamento, divórcio, o churn de um usuário, a duração de uma greve, entre outros.
Normalmente essa análise é feita acompanhando os “subjects” durante um período de tempo, focando na ocorrência do evento de interesse.
Tipicamente, os dados observados não são ”completos”, são censurados.
Definições dentro de Survival Analysis
Censored Data
Uma observação é chamada de dado censurado quando a informação sobre seu tempo de sobrevivência está incompleta. Por exemplo: se o caso estudado é de churn, se um cliente não sair do serviço durante o estudo, então ele é considerado censored (censurado). Outra forma de uma observação ser “censored” é se o usuário observado sair do estudo antes que aconteça o evento esperado.
Survival Function
A distribuição de tempos de sobrevivência pode ser caracterizada por uma função de sobrevivência representada por S(t). Para um dado t, S(t) especifica a proporção de indivíduos que ainda não sofreram a ocorrência do evento observado.
Hazard Function
A Hazard Function tem um significado quase contrário ao da Survival Function. Ela mostra no tempo qual o potencial do evento ocorrer dado que o indivíduo sobreviveu até aquele momento.
A Hazard Function h(x) é a razão da função densidade de probabilidade P(t) pela função de sobrevivência S(t), dada pela fórmula:
h(x) = (P(x))/(S(x)) = (P(x))/(1-D(x))
Sendo D(x) a função de distribuição.
Kaplan-Meier Curve
A Kaplan-Meier Curve é utilizada para visualizar os dados de um estudo de análise de sobrevivência. A tabela acima mostra um estudo feito e o gráfico foi produzido com os valores do estimador de Kaplan-Meier.
Na tabela criada, a primeira coluna é o tempo, a segunda coluna é preenchida com o número de “subjects” naquele momento, e a terceira coluna contém o número de eventos ocorridos entre a última observação e essa. A última coluna possui o valor do estimador de Kaplan-Meier.
No geral a análise de Kaplan-Meier é utilizada com objetivo de estimar a curva de sobrevivência de uma população baseada em uma amostra, ela permite a estimativa no tempo mesmo possuindo casos censurados.
Para saber mais visite: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3059453/
Modelo de Cox
O modelo de Cox é caracterizado pelos coeficientes Β que medem os efeitos das covariáveis sobre a função de risco (hazard function).
Muitas vezes o interesse não é estimar os parâmetros desse tempo e sim o efeito dessas covariáveis
A fórmula do modelo de riscos proporcionais, o modelo de Cox é:
Sendo h(t) a função de risco, h0(t) o risco basal, x o vetor de covariáveis e Β o vetor de parâmetros das covariáveis. Note que as covariáveis tem um efeito multiplicativo no modelo.
O modelo de Cox é bem utilizado para fazer experimentos e análises com as covariáveis. Por exemplo, é possível verificar o que acontece com a chance de um usuário realizar o churning se ele mudar de plano (sendo o plano uma covariável do modelo).
Pra que serve
A análise de sobrevivência é um conceito antigo mas muito útil. É bastante utilizada em estudos de medicina e de marketing. Um dos principais objetivos dessa análise é entender melhor sobre o “evento” estudado, principalmente como ele se relaciona com diversas variáveis. Uma maneira de realizar isso é desenhando as funções de Survival e Hazard para essas diferentes variáveis. Por exemplo, traçando os gráficos de sobrevivência de grupos de idades, gêneros e raças distintas pode-se entender como uma doença afeta pessoas diferentes. No caso de churning, esse estudo pode esclarecer quais os usuários mais propícios a saírem ou em qual momento esses usuários tendem a sair.
Churning Analysis VS Survival Analysis
Para finalizar gostaria de fazer uma pequena comparação dos estudos de churning normalmente feitos com a análise de sobrevivência.
Conclusão
Survival analysis não foi desenvolvido para prever eventos. Seu uso principal é estimar a curva de sobrevivência que mede a probabilidade de um evento não ocorrer no tempo, levando em conta todos os eventos prévios e as observações censuradas.
A análise de sobrevivência é uma ferramenta muito importante para analisar eventos, dando insights sobre retenção de clientes e quais são os fatores que levam a esse evento.
***
Artigo publicado originalmente em: http://developers.hekima.com/statiscs/studies/2016/05/09/survival-analysis/