O conceito de Data Warehouse já esta difundido e vem sendo utilizado há mais de duas décadas por pequenas e grandes empresas ao redor do mundo, em termos simples, um Data Warehouse (DW), ou em português, Armazém de Dados, tem como função tornar as informações corporativas acessíveis para o seu entendimento, gerenciamento e uso.
Já nos últimos anos surgiu o conceito de Data Lake, e vem crescendo exponencialmente a quantidade de empresas que visam desenvolver Lakes tanto para substituir quanto para incorporar aos seus Data Warehouses.
O universo dos dados
Todos já ouviram, pelo menos uma vez, que estamos vivendo na era dos dados, todas as áreas da vida se relacionam com dados. Os dados valem muito e poder se antecipar as ações das pessoas e usar esse conhecimento a favor das campanhas nas empresas pode gerar muito lucro.
Porém, quando falamos de dados falamos de volume de informações, e veja bem, neste caso ainda nem estamos citando a questão da transformação dos dados brutos em informações prontas para uso. Estamos apenas falando sobre armazenamento.
Em um passado não tão distante tínhamos como certo que com um Data Warehouse (DW) bem construído e baseado em dados estruturados, conseguiríamos através das ferramentas e conceitos de Business Intellingence (BI) extrair todas as informações necessárias para gerar valor de negócio.
Mas quando falamos de Data Warehouse, estamos falando em dados históricos, dados esses que são armazenados para que mais tarde sejam usados como auxílio na tomada de decisões estratégicas com base nos fatos apresentados.
Foi então no decorrer da última década, principalmente, que se descobriu que nem só de história se vive, criou-se a necessidade por análises preditivas e à frente dos acontecimentos.
Por que devemos esperar certo fato acontecer, armazenar seus dados para então aplicar análises em cima desse contexto, e então nortear as tomadas de decisões? Quando na verdade podemos coletar dados de diferentes fontes e tentar traçar os passos, a rota de determinado acontecimento, nos ajudando na tomada de decisões estratégicas.
É aí que entra o Big data, que nada mais é que o processo de coletar, organizar e transformar dados estruturados, semiestruturados e desestruturados em informações úteis, inteligíveis e relevantes para a tomada de decisão das mais diversas fontes: vídeos, textos, redes sociais, sistemas de informação, sensores, atuadores, RFID, objetivos inteligentes, entre outros.
O armazenamento dessas informações é feito no Data Lake, que segue o contexto de armazém de dados.
Dados versus Informação
O dado não possui significado relevante e não conduz a nenhuma compreensão representa algo que não tem sentido a princípio. Portanto, não tem valor algum para embasar conclusões, muito menos respaldar decisões.
A informação é a ordenação e organização dos dados de forma a transmitir significado e compreensão dentro de um determinado contexto. Seria o conjunto ou consolidação dos dados de forma a fundamentar o conhecimento.
As empresas, hoje em dia, têm exatamente essa preocupação com a informação. Onde antigamente necessitavam de dados, hoje a inquietação é pela transformação da grande quantidade de dados existentes em informação decisiva. Elas serão o grande subsídio dos gestores, que obtêm o conhecimento através da noção sobre as informação, possibilitando assim a tomada de decisão de forma mais pautada.
Data Warehouse versus Data Lake
Coletar, organizar, interpretar, criar insights para auxiliar na tomada de decisões, ou seja, transformar dados em informações, é o que buscam as empresas atualmente, elas querem estar a frente do seu tempo com relação ao trabalho com dados. Mas, como extrair dos dados as informações corretas para gerar os melhores insights? Tudo começa com o armazenamento das informações e há duas formas mais difundidas para se fazer isso: Data Lake ou Data Warehouse. As empresas, geralmente, usam Data Lakes ou Data Warehouses para gerar benefícios de negócios a partir dos dados. No entanto, eles fazem isso por motivos diferentes. Data lakes são melhores quando uma empresa não especifica o que exatamente deseja analisar.
Da mesma forma, os data warehouses são mais adequados quando uma empresa definiu explicitamente a lógica de negócios, ou seja, sabe exatamente o que deseja, e é difícil alterar a lógica após a criação do esquema. No entanto, Data Lakes e Data Warehouses não são mutuamentes exclusivos. Uma empresa também pode usá-los juntos para alavancar seus benefícios individuais.
A principal diferença entre Data Lake e Data Warehouse está na estrutura variável de dados: brutos ou processados. O Data Lake armazena uma grande quantidade de dados diferentes, não filtrados, para serem utizados posteriormente para uma finalidade específica, já o Data Warehouse tem dados estruturados para finalidades preexistentes.
Por sua vez, o Data Warehouse abriga apenas dados processados, higienizados e verificados.
Assim, as informações empresariais mais importantes integram essa base.
Os Data Lakes facilitam o armazenamento de todos os tipos de dados, o que é útil para cargas de trabalho inesperadas.
Os Data Warehouses facilitam o gerenciamento de dados estruturados para análises existentes ou casos de uso comuns.
Mas, embora os Data Warehouses sejam excelentes para dados estruturados, atualmente é cada vez mais necessário lidar com dados não estruturados, dados semiestruturados e dados com alta variedade, velocidade e volume. Os data warehouses não são adequados para muitos desses casos de uso e nem são as soluções mais econômicas.
O Data Warehouse é um excelente recurso para solucionar problemas e encontrar alternativas no momento de decisão.
Data Lakes são mais flexíveis do que os Data Warehouses. Um dos maiores problemas que um Data Warehouse apresenta é no momento em que uma grande mudança precisa ser feita.
Qualquer mudança torna-se uma tarefa realmente difícil, pois adaptar um Data Warehouse envolve investir muito tempo no desenvolvimento da estrutura do warehouse.
As organizações hoje exigem respostas rápidas para suas perguntas de negócios e, em muitos casos, não podem esperar que o data warehouse se adapte.
Por outro lado, o Data Lake, ao armazenar todos os dados brutos, permite o acesso de qualquer usuário para explorá-los e analisá-los de acordo com suas necessidades, encontrando uma forma de responder às suas dúvidas no seu próprio ritmo.
O Data Warehouse oferece resultados mais limpos, estruturados e confiáveis. Porém, no Data Lake, por ter dados brutos e não estruturados, ao fazer consultas, os usuários não muito qualificados receberão as informações rapidamente, mas não totalmente precisas, da mesma forma que as fariam em um Data Warehouse.
Veja abaixo um comparativo das principais características entre Data Lake e Data Warehouse:
Data Lake e Data Warehouses são duas estratégias diferentes para armazenar Big Data. A distinção mais importante entre eles é que, em um data warehouse, o esquema para os dados é predefinido, isto é, existe um plano para os dados após sua entrada no banco de dados. Já um data lake pode abrigar dados estruturados e não estruturados e não possui um esquema predeterminado. Um data warehouse lida principalmente com dados estruturados e possui um esquema predeterminado para os dados que hospeda.
No Data Lake, a ideia do repositório é manter informações dos mais diferentes tipos que, no futuro, serão úteis para captar ideias necessárias na empresa, buscando por padrões repetidos de consumo ou comportamentos dos clientes. Existe flexibilidade na edição de dados do Data Lake, mesmo com mais desorganização estrutural.
Em contrapartida, Data Warehouse possui um desenho que favorece as tomadas de decisões, com cruzamentos automatizados de análises e relatórios avançados para otimizar acertadamente.
Conclusões
Neste mundo cada dia mais conectado e rodeado de dados, dos mais diversos tipos e formatos, cresce a necessidade de centralizarmos estas informações para que possamos chegar a análises, resultados e descobertas (insights) confiáveis e de qualidade.
Tanto Data Warehouses quanto Data Lakes devem coexistir com empresas que desejam basear suas decisões em dados.
Como se pode perceber, ambos são complementares, não substitutos, podendo ajudar qualquer empresa a compreender melhor o mercado e o consumidor, de forma a poderem realizar estratégias a partir dos seus conhecimentos, com comunicações cada vez mais personalizadas, ou seja, para seja mais centrado no cliente.
Gostou das dicas? Siga acompanhando mais dicas sobre Big Data em nosso blog!