Modelagem preditiva e produtos relacionados aos dados

Celso Poderoso

é coordenador dos cursos de MBA da FIAP (Arquitetura de Redes e Cloud Computing, Big Data - Data Science -, Business Intelligence) e professor dos cursos de pós- graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy. Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g, todos editados pela Novatec Editora. http://www.fiap.com.br

Modelagem preditiva e produtos relacionados aos dados

3 dez, 2009

Por que sobram vagas e faltam candidatos qualificados em TI?

16 out, 2009

Colaboração via internet – saiba por que o total é sempre maior que a soma das partes

O big data trouxe uma nova era para a computação: a exploração dos dados para melhorar o processo de tomada de decisão nas organizações. Isso está longe de ser uma novidade, mas a computação evoluiu a ponto de fazer com que diversas tecnologias se relacionassem para permitir o acesso e uso dos dados em um volume, uma variedade e com a velocidade cada vez maior.

A análise preditiva é uma técnica estatística para modelar e encontrar padrões, que utiliza dados históricos para realizar previsões de tendências, padrões de comportamento ou eventos futuros. Desde o final século XIX, utiliza-se este tipo de técnica para apoiar o processo de gestão de negócios.

No final da década de 1960, houve uma maior atenção a este tema devido ao surgimento dos primeiros sistemas de suporte à decisão, e depois com os sistemas ERP (enterprise resource planning) e DW (data warehouses). Desde então, diversos produtos relacionados à gestão dos dados, especialmente aqueles voltados para modelagem preditiva, têm surgido.

A modelagem preditiva utiliza de estatísticas e modelos matemáticos para prever resultados futuros. Basicamente, escolhe-se o melhor modelo fundamentado na probabilidade de um resultado ocorrer conforme um conjunto de dados de entrada. Esses modelos utilizam um ou mais classificadores que avaliam a probabilidade de um conjunto de dados pertencerem a outro conjunto.

Estas técnicas de previsão são muito úteis e, infelizmente, pouco utilizadas no Brasil. Algumas possíveis aplicações para estas previsões estão nas seguintes áreas:

CRM (Customer Relationship Management): prever o cancelamento de uma assinatura, por exemplo.
Seguros: medir riscos de incidentes baseado no perfil do segurado.
Saúde: medir o risco de pacientes terem recaídas no tratamento.
Varejo: identificar a relação entre produtos adquiridos.
Finanças: identificar fraudes, por exemplo, em cartões de crédito.

Contudo, situações como estas se limitam a realizar previsões que podem ajudar a tomar decisões, evitar situações indesejáveis, ou até mesmo diminuir o risco de operações das organizações.

Há espaço para um passo além quando se imagina um processo de tomada de decisão orientada para a prescrição de ações. A ideia central por trás disto é que haja sistemas que além de gerar mais dados (na forma de previsões), sejam capazes de produzir orientações para se atingir resultados.

Uma das técnicas utilizadas para esta finalidade é a abordagem Drivetrain, que ficou amplamente difundida com o gigante e sua máquina de buscas conhecido como Google. Os quatro passos para a adoção desta abordagem são:

Qual o resultado que se quer alcançar: definir o objetivo sem se importar com as restrições ou qualquer limitação existente. É uma questão de negócio que precisa estar alinhada com uma necessidade real da organização.
Quais são os elementos que podem alavancar o processo (alavancadores): identificar quais as variáveis de entrada que se tem controle e, portanto, importantes utilizar para atingir o objetivo. É fundamental listar todas as que tenham qualquer nível de influência no resultado esperado. É possível que em algumas destas variáveis não se tenha o controle completo.
Quais são os dados necessários: localizar os dados que podem ser coletados e utilizados no modelo ou os dados que ainda não existam, mas que sejam necessários. Em um primeiro momento, é possível que nem todos os dados estejam disponíveis ou que seja necessário um esforço muito grande para consegui-los. Este é o passo no qual se vincula o que se deseja com o que é possível em termos de dados, e ter uma visão do que será necessário produzir para alcançar o objetivo.
Criar os modelos: vincular os alavancadores do processo com os dados disponíveis para criar os modelos adequados para atingir o objetivo.

Os modelos gerados serão formados por si mesmos e também pelas variáveis de entrada (alavancadores). Normalmente será gerado mais de um modelo para acomodar as variáveis de entrada. Os resultados destes modelos devem ser combinados para prever e indicar a prescrição da ação esperada (objetivo). A prescrição será o resultado das iterações realizadas através de cada um dos modelos utilizados até se atingir o objetivo final.

De 0 a 10, o quanto você recomendaria este artigo para um amigo?