BI = Big Data?

Não. Não é, embora possa ser dito que o objetivo de ambos os “conceitos” seja criar conhecimento a partir de massivas quantidades de dados.

Mas na minha opinião, a similaridade diminui daí pra frente.

BI, ou Business Intelligence, se refere ao uso de tecnologia para armazenar, reorganizar, processar dados transacionais e gerar conhecimento – na forma de gráficos, dahsboards, relatórios etc… – a partir de dados transacionais oriundos de bancos de dados. Portanto, a origem do conhecimento são dados estruturados – normalmente dados transacionais de ERP´s e outros sistemas de gestão ou de vendas, CRM, etc.

Big Data é um termo que designa um conjunto de ferramentas e técnicas para fazer mais ou menos a mesma coisa, com uma importante diferença: os dados que são insumo para os processos de Big Data são dados não-estruturados ou semi-estruturados, como logs de sistemas operacionais, de acesso a sites, etc.

Os dados não estão armazenados em bancos de dados, mas são arquivos textos, streamings etc.

Uma das características principais é que, normalmente, esses dados não possuem índices como que existem em bancos de dados.

Por exemplo, a ferramenta Hadoop, talvez a mais conhecida nesse contexto, é essencialmente uma composição de um sistema de arquivo “unix-like” com um motor de processamento distribuído.

O sistema de arquivo tem, inclusive, comandos muitos similares aos dos shell Unix/Linux. A diferença é que a toda a infraestrutura Hadoop funciona de modo distribuído, e um modelo de arquivo (exemplo, um log de acesso a um site) pode ter pedaços dele em vários servidores, que o Hadoop o considera “logicamente” como uma coisa só.

Já o seu motor de processamento tem como característica principal levar o processamento para o servidor (ou nó) em que aquele dado será processado, tornando-o extremamente escalável e eficiente.

Assim, o processamento de arquivos tipo texto, enormes, correlacionados e distribuídos em diversos servidores ocorre de maneira eficiente, sendo que o Hadoop se encarrega de manter a rastreabilidade de onde está cada parte do dado e do processamento.

A lógica de processamento deve ser escrita em Python, Shell Script, Java, C,  R ou outra linguagem, mas há alguns “add-ons” ao ambiente original do Hadoop que permitem processar os dados nos arquivos textos de maneira semelhante a comandos SQL.

Como sempre acontece quando algo novo aparece e começa a ganhar momentum, outro dia ouvi uma pessoa falando que eles precisavam iniciar um projeto de Big Data.

Após um bate-papo, a pessoa percebeu que não era bem assim. O que ela precisava era, talvez, um projeto de Business Intelligence.

Mas o que ela precisava mesmo, antes de tudo, é saber que perguntas a sua empresa precisava responder.

 

 

Deixe um comentário