DevSecOps

8 mar, 2010

BI Open Source – Conhecendo o Pentaho

Publicidade

No
universo de Business Intelligence, temos várias ferramentas Open
Source disponíveis no mercado e, a cada ano, surgem novas soluções. Vamos,  neste artigo, destacar uma delas que me chamou a atenção
por sua interatividade e adaptabilidade às plataformas existentes.

Trata-se
da solução Pentaho, uma ferramenta extremamente poderosa de
Business Intelligence com a qual estou tendo a oportunidade de
trabalhar e tem mostrado ser uma ferramenta robusta e representa uma
forte aposta da comunidade open-source voltada a ferramentas de
apoio à tomada de decisão.

Pentaho

A tecnologia Pentaho foi
desenhada do zero como uma plataforma de BI moderna e totalmente
integrada, baseada em standards abertos. Isto significa que pode ser
integrada facilmente com qualquer infraestrutura de TI de origem, ou
embebida numa aplicação desenvolvida à medida. Para utilizadores
empresariais, o acesso a toda a informação de BI e a possibilidade
de criar novos relatórios, vistas de análise e dashboards
encontra-se numa interface web racionalizada, e estão ao alcance de
dois cliques.

Ela
fornece
suporte técnico compreensivo, manutenção de software,
funcionalidades melhoradas e mais, através de uma subscrição
anual.

Possui várias suites
que formam uma plataforma completa de BI, que foi desenvolvida,
distribuída e implantada como Open Source apresenta grande
flexibilidade e independência entre as diversas plataformas, possui
alta confiabilidade e segurança a um custo mínimo de implantação
e manutenção.

Possui
ferramentas de ETL como o Kettle, análises OLAP como o Mondrian ou
de Data Mining como o Weka, e são reunidos num único produto que
permite soluções que acompanham todo o ciclo de implementação de
um SAD, (Sistema de Apoio à Decisão) e que a tornam uma das
soluções Open-Source mais populares do mundo.

A
solução Pentaho define-se a si mesma como uma plataforma de BI
orientada para a solução e centrada em processos. Ou seja, não só
apresenta os resultados de uma forma única e dando uma visão geral
do estado da empresa, como implementa os próprios processos
(workflow) para a resolução de problemas detectados e apresentados.

Pentaho Open BI Suite

A
Pentaho Inc. integrou e promoveu o desenvolvimento de ferramentas
open source que fornecem os recursos para criação de Soluções de
BI. O conjunto é conhecido por Pentaho Open BI Suite (ou Suite
Pentaho), incluem as suites Reporting, Anaysis, Data Integration,
Dashboards e Data Mining.

Devido à
sua estrutura em componentes, a Suite pode ser utilizada para atender
demandas que vão além do escopo das Soluções de BI mais
tradicionais. Estão disponíveis componentes para a implementação
de processos comandados por workflow automatizado, portais web
customizáveis com suporte à portlets e single sign-on, entre
outros. A plataforma executa todas as suas Soluções de BI, como
serviços, e por isso é possível até mesmo prover acesso a esses
recursos para sistemas externos, via web services, por meio de um
mecanismo baseado em SOAP/WSDL/UDDI incluso.

                                                                     

As
suites são responsáveis pela execução da Solução de BI,
provendo controle de processos, visualização, segurança e
auditoria. Têm
a função de controlar o repositório e a execução de soluções,
os acessos a banco de dados, agendamentos, permissões, serviços de
e-mail e mais algumas atividades fundamentais de background, grande
parte da sua funcionalidade pode ser configurada através do PAC
(Pentaho
Administration Console ).

Funcionalidades
Pentaho

Uma
das grandes dificuldades para alguém que começa a trabalhar com o
Pentaho é entender o relacionamento entre os diversos aplicativos
das suites. Neste artigo descrevo brevemente esses aplicativos e a
função que exercem no ciclo de vida de um BI. Todos os softwares da
Suite Pentaho são programas Java e rodam em qualquer plataforma que
tenha uma JVM padrão, e estas ferramentas dão produtividade na
criação da solução e das estruturas usadas pela plataforma.

Mondrian

É
responsável pelo servidor OLAP (Online Analytic Processing) onde
podemos construir os cubos que permitiram segmentar a informação
por eixos de análise, permitindo a análise da informação com base
em várias perspectivas. Assim será possível a compreensão dessa
informação de uma forma intuitiva, uma vez que a solução permite
decompor os valores nas diferentes perspectivas de análise.

Desta
forma pode-se cruzar a informação com várias dimensões de um modo
muito simples, utilizando drag-and-drop, drilling into, drilling
across, encadeamento de dimensões, entre outros, bem como encontrar
a causa de um problema que lhe sobressaiu num simples relatório.

É
escrita em linguagem Java, e implementa a linguagem MDX, XML for
Analysys e especificações JOLAP, e lê a partir de instruções SQL
e outras fontes de dados, agregando os dados em uma memória cache.

                 

Kettle

Faz
parte da suite do Data Integration, e utiliza as técnicas de ETL
(Extract-Transform-Load), para a obtenção dos dados que virão das
várias fontes de dados, e que obrigatoriamente teremos de cruzá-las
em algum momento dentro do ciclo de ETL.

O
Kettle é capaz de ler e escrever em vários formatos de SGBD, como
Oracle, PostgreSQL, SQLServer, MySql, entre outros, e importar
arquivos texto (csv ou fixo), planilhas Excel e bases de dados ODBC
(apenas em Windows). Ele é um ambiente gráfico no qual conexões
com fontes de dados são estabelecidas e seqüências de passos
executam a extração de dados, sua modificação e a carga desses em
um destino. O Kettle pode integrar dados entre empresas e sistemas,
substituindo a criação de camadas de programas para integração
por operações visuais.

                                                                                                                       

Jpivot

Jpivot
é uma biblioteca customizada JSP que desenha uma tabela e um gráfico
OLAP. Os usuários podem executar navegações típicas OLAP como
drill down e slice-and-dice. Utiliza o Mondrian e XMLA como engines
OLAP.

Schema
Workbench

O
Schema Workbench cria os cubos no format XML que serão processados e
exibidos pelo Portal. Ele tem uma interface visual para navegar entre
as definições do cubo, permitindo criar, além de métricas,
dimensões e hierarquias, muitas das estruturas que agregam valor na
exploração de um cubo OLAP, como métricas derivadas, cubos
virtuais (combinações de tabelas fato) e atributos de dimensões.                                                        

Weka

O
Weka é um ambiente gráfico para Data Mining. Permite ao usuário
criar e testar hipóteses contra as bases de dados. Existem grandes
potencialidades na utilização de Data Mining para apoiar o processo
de tomada de decisão.

                                                            

Pentaho
User Console (PUC)

Interface
para o usuário final, é a partir do PUC que os usuários terão
acesso às análises e relatórios criados, poderão ainda – de
acordo com as permissões definidas – criar relatórios Ad-Hoc
utilizando o WAQR, criar novas visões analíticas utilizando o
JPivot, executar relatórios criados previamente com o PRD (ou outro
gerador de relatórios suportado), visualizar dashboards, agendar a
execução de relatórios e compartilhar qualquer um desses artefatos
com outros usuários.

Pentaho
Report Designer (PRD)

Gerador
de relatórios “pixel perfect” da suite, facilita a criação
de relatórios “ricos” com uma aparência mais profissional
e personalizada, adicionalmente permite a publicação desses
relatórios no PUC, permite inclusive que filtros simples sejam
publicados diretamente sem a criação de xactions no PDS.

Pentaho
Design Studio (PDS)

Plugin
para a plataforma eclipse que funciona como uma interface gráfica
para a criação de xactions que são arquivos xml interpretados pelo
BI Server, são como instruções “passo-a-passo” que
dirigem a execução das atividades pelo BI Sever, permitem, por
exemplo, a definição de filtros avançados para relatórios e o
envio de e-mails com os relatórios executados.

Vantagens
na utilização Open Source

A
maior vantagem das ferramentas open source é o baixo custo: não há
gasto com licenças (que varia de centenas a milhares de dólares em
ferramentas proprietárias). Ela reduz drasticamente o cost
of ownership

para uma plataforma de business intelligence de nível empresarial,
comparado com os tradicionais e proprietários sistemas de BI.

Entretanto, tal como
acontece com ferramentas proprietárias, ainda são necessários
investimentos em implantação, treinamento e suporte para o máximo
aproveitamento.

Além do menor custo, as
ferramentas open source apresentam outras qualidades importantes,
tais como qualidade, segurança, independência de fornecedor,
possibilidade de adequação a necessidades específicas,
estabilidade e suporte técnico.

Bom, pessoal, na minha
opinião vejo as soluções Open Souce para BI como uma tendência
para este ano de 2010 e para os próximos. Não vejo por que gastar
milhares de dólares em ferramentas proprietárias, sendo que estas
soluções não deixam nada a desejar, são muito atrativas e o melhor: têm custo zero!

Para quem estiver
interessado em conhecer um pouco mais sobre o Pentaho, sugiro dar uma
olhada no site www.pentaho.com.

Abraços e até a
próxima.