Tecnologia que interessa: Business Intelligence

Mostrando postagens com marcador Business Intelligence. Mostrar todas as postagens

terça-feira, 17 de dezembro de 2013

O futuro dos bancos de dados, por Michael Stonebraker

O Gigaom traz um artigo interessantíssimo sobre o futuro dos bancos de dados. O especialista Michael Stonebraker, um dos pioneiros em bancos de dados relacionais, e que atualmente aposta em soluções alternativas, ajudou a criar bancos de dados como Ingres (avô do SQL Server) e Postgres (Post Ingres). Acho que o rapaz sabe o que fala, né ? Ele foi um dos primeiros a indicar que uma solução baseada apenas em MySQL não seria capaz de atender às demandas do Facebook.

Bom, vamos ao que interessa, ou seja, o que ele prevê (ou vê) para o mercado de banco de dados ?

"Em qualquer mercado que possa pensar, há um caminho melhor para resolver um problema que usar bancos de dados relacionais legados". Esta é uma afirmação forte, que deixa claro o quanto é importante olhar atentamente além do mundo tradicional dos bancos de dados. Portanto, se você não sabe o que é NoSQL, NewSQL e afins, é hora de correr, pois deste conhecimento depende a qualidade das soluções que as empresas vão adotar para armazenamento de dados no "futuro presente", diria eu, sejam dados estruturados ou não.

O próprio Michael está envolvido num projeto denominado VoltDB, que ele aponta como duas ordens de magnitude mais rápido que os bancos de dados convencionais. Não é à toa que a Microsoft está correndo para implementar recursos presentes em outras soluções, como armazenamento em colunas (2012) e utilização de tabelas em memória (2014). Me arrisco a dizer que os bancos de dados relacionais que conhecemos (MySQL, SQL Server, Postgres e outros) estão migrando para uma arquitetura híbrida que comporte a utilização de recursos típicos de bancos de dados NoSQL.

Outro ponto destacado no artigo é que cada necessidade demanda um tipo de solução, e a idéia de que uma única solução de banco de dados vai atender a todas as necessidades da organização pode não funcionar de agora em diante. Michael cita como exemplo o Obamacare, que adotou uma solução NoSQL. Isto só reforça minha impressão de que as soluções que quiserem se manter relevantes no mercado deverão adotar uma abordagem híbrida, ou focar num mercado cuja demanda seja muito alta, como redes sociais, onde bases de dados baseadas em grafos têm espaço garantido.

Michael acredita que entre três e cinco tipos de bancos de dados da "geração NoSQL" vão vingar (colunas, grafos, chave/valor, etc), e que em cada tipo haverá espaço para dois ou três "vencedores". Ele também acha que durante a próxima década o mercado de bancos de dados relacionais vai reduzir.

Ele aponta também para uma tendência no sentido de ajustar o mundo NoSQL ao mundo SQL, com iniciativas visando propor o SQL dos bancos não relacionais, e adoção do ACID. Acrescento que o MongoDB, por exemplo, está investindo bastante nessa linha e se tornando uma alternativa recomendada para quem quer começar no mundo NoSQL com o mínimo de esforço.

O especialista vê no futuro próximo um duelo SAP x Oracle, indicando que os clientes SAP são os maiores clientes da Oracle, e que a chegada do HANA pode levar a SAP a tentar convencer seus clientes a migrar.

Por fim, Michael relata que os esforços do Facebook com o MySQL, embora louváveis, não endossam o banco de dados como a melhor solução, mas apenas indica que atualmente não há solução para os desafios da rede social.

E conclui indicando que é hora de aposentar a tecnologia relacional, pois lá se vão mais de 25 anos.

Me vejo cada vez mais interessado pelo tema banco de dados (Big Data, NoSQL e afins). É fascinante ver as possibilidades de armazenamento, organização, busca, otimização e análises de dados que as novas tecnologias permitem.

E vocês ? Concordam com o Michael ? Compartilhem aqui suas opiniões! Vamos discutir mais sobre este tema tão interessante!

quarta-feira, 4 de setembro de 2013

Big Data em 10 frases

Big Data: water wordscape (crédito: Marius B)

Big Data é o assunto do momento, e já falamos sobre isso aqui algumas vezes. Quanto mais estudo o assunto, mais me vejo interessado em aprender mais e mais! É um tema fascinante, as possibilidades são ilimitadas!

Meu objetivo hoje é compartilhar com vocês um pouco do que tenho visto, lido e ouvido sobre o assunto. Achei que trazer frases que ilustram o conceito e as possibilidades do Big Data seria uma maneira interessante de fazer isso. Vamos lá.

Big Data é sobre volume, velocidade e variedade

Garantir a capacidade de lidar de forma eficiente com grandes volumes de dados.

Big Data não é apenas sobre informação não estruturada

Os dados estruturados podem ser inclusive tratados em conjunto com os não estruturados.

Tecnologias de Big Data não requerem, necessariamente, dados "big" (petabytes, etc)

A tecnologia usada para Big Data pode auxiliar no melhor tratamento do "small data" também.

Big Data não é (apenas) sobre Apache Hadoop

Embora o Hadoop seja provavelmente a maior estrela do time, são necessários muitos jogadores para que a tecnologia alcance os resultados pretendidos.

Big Data não torna seus bancos de dados tradicionais obsoletos

Os SGBDs atualmente em uso podem (e devem) ser aproveitados dentro da arquitetura de Big Data.

Big Data requer novas habilidades

O cientista de dados precisa ter sólida base matemática, de TI e disposição para entender o negócio, ajudando a analisar os dados da empresa.

Big Data requer atenção especial à segurança

Com muitos dados vêm muitas preocupações, e a segurança certamente é uma das maiores, especialmente por envolver dados não estruturados, mais sujeitos a problemas de integridade, por exemplo.

Big Data é adequado para as abordagens ágeis de desenvolvimento

Para garantir o V da velocidade no item 1 pode ser necessário ajustar procedimentos e abordagens no desenvolvimento e implantação de ferramentas para análise de dados em tempo real, garantindo agilidade para atender novas demandas com eficiência.

Projetos de Big Data exigem reflexão cuidadosa quanto à qualidade da informação e governança

As fontes de informação podem gerar novos dados muito rapidamente, como no caso de analisadores de log, um case comum de Big Data. Por isso, garantir que a velocidade não comprometa a qualidade é um desafio.

Big Data é apenas mais uma buzzword

Essa é uma meia verdade, na medida em que as empresas estão (obviamente) capitalizando o tema e até certo ponto confundindo um pouco as coisas, mas há elementos novos que justificam sim a adoção de uma terminologia própria.

E então ? O que acharam das frases ? Sua opinião é muito importante pra nós :)

Quer aprofundar no assunto ?
A apresentação abaixo é um bom começo, mas o melhor mesmo é clicar aqui :)

Big Data from NGDATA

quarta-feira, 3 de abril de 2013

Big Data: quanto é Big ?

Estou ficando fã da Debra Shinder, do Windows Networking. Este é o segundo artigo dela que me vejo "obrigado" a traduzir, dada a qualidade e relevância do texto.

Big, Bad Data

Meu pai era fã do cantor country Jimmy Dean muito antes de o homem parar de fazer música e começar a fazer salsicha. Minhas memórias de infância incluem as palavras, embutidas para sempre em meu cérebro, da sua canção maior, "Big Bad John". Ela conta a história de um gigante gentil que assustou a todos ao seu redor, mas que acabou salvando o dia ao sacrificar a sua própria vida.

Big Data lembra-me um pouco desse mineiro de carvão de grandes dimensões. Para aqueles que não entendem o conceito, que é um pouco assustador. O que é o "big data" de qualquer maneira - além de ainda chavão outro projetado para vender "soluções" ? Não há um número restrito de terabytes, petabytes, exabytes, etc, que constitui uma linha que, quando ultrapassada, coloca você no território de big data. Mas o termo evoluiu para se referir a conjuntos de dados que contêm tantas informações que nossas ferramentas de banco de dados tradicionais têm dificuldade de processá-las.

Tudo é relativo, portanto, e uma quantidade de dados que qualificam como "grande" em uma organização pode não ser considerado grande o suficiente em outra. Depende das ferramentas que você usa para processar dados e se elas são capazes de lidar com uma quantidade específica. Um levantamento de CIOs indicou que 36% - mais de um terço deles - consideram 1-9 TB de dados "big data".

Estamos vivendo em um mundo onde a coleta de dados tornou-se onipresente. Houve um tempo em que, para obter informações em um banco de dados, um ser humano devia sentar e introduzir os dados à mão. Hoje, os fluxos de dados em bancos de dados ocorrem automaticamente, através da Internet, em todo o mundo. Dados são coletados a partir de computadores, dispositivos móveis, câmeras, microfones, leitores de código de barras, scanners RFID, e todos os tipos de sensores. Os dados vem em muitas formas: mensagens de e-mail, informações de redes sociais, entrada de formulário web, arquivos de log, documentos, arquivos de texto, PDFs, fotografias, desenhos, vídeos, arquivos de áudio e muito mais. Empresas coletam informações sobre clientes, empregados, fornecedores, indústria, questões jurídicas, contábeis e muito mais.

Estamos nos afogando em dados - mas de que servem os dados, se não temos uma maneira de tomar ciência de tudo isso ? O valor em ter uma grande quantidade de informações é a capacidade de usá-las para detectar tendências, padrões, anomalias e, finalmente, ser capaz de usá-las como base para decisões de negócios. E isso nos leva à necessidade de um software de gestão da informação ou serviços que possam organizar, classificar e filtrar os dados e também realizar análises sobre eles.

Dados não estruturados, em particular, são um desafio para as ferramentas de banco de dados tradicionais, pois não se encaixam bem em tabelas de dados relacionais. Isso inclui documentos de texto, áudio, vídeo, e-mails, páginas web, e muito mais. O problema é que uma grande porcentagem dos dados que as empresas recolhem não é estruturado. A percentagem estimada varia, mas mesmo nas estimativas mais conservadoras, compreende uma parte muito significativa de todos os dados.

A Gestão da informação caminha lado a lado com a ideia de Business Intelligence. Há um número de diferentes tipos de tecnologias que podem ser usadas para processar big data e encontrar o caminho certo pode ser um desafio, uma vez que o que é certo para os seus fins depende do objetivo final de sua análise, bem como suas expectativas em relação ao desempenho e confiabilidade da análise preditiva. A pesquisa CIO mencionada acima mostrou que 81% dos CIOs precisam os resultados de consultas analíticas que devem ser retornados em menos de um minuto.

Grandes soluções de processamento de dados pode ser locais ou baseadas em nuvem. Há soluções projetadas para rodar em qualquer servidor de sistemas operacionais que você possa ter no local, a partir de frameworks open source, como o Apache Hadoop até as caras soluções comerciais. Administradores do Windows provavelmente ficarão felizes em saber que a Microsoft está no jogo do big data (aprender a usar novas tecnologias é difícil o suficiente sem ter que aprender a usá-las em uma nova plataforma). Sua Data Explorer para o Excel 2013 é uma ferramenta recém-lançada e projetada para tornar mais fácil de descobrir, combinar e refinar os dados de fontes diferentes para análise no Excel. A fundação do esforço da Microsoft em big data, porém, é o HDInsight, que curiosamente é uma distribuição Hadoop que pode ser executada em Windows Server ou como um serviço do Windows Azure. A Microsoft também anunciou uma solução de processamento paralelo em banco de dados, o SQL Server 2012 PDW , que integra com Hadoop e muitas soluções de BI populares. Ela oferece uma capacidade de multi-petabytes.

Nem todas as empresas precisam de uma solução de big data, mas se a quantidade de informação que você precisa para processar está excedendo as capacidades dos sistemas que você usa, você pode precisar começar a pensar sobre big data.

Até a próxima, Deb

Por Debra Littlejohn Shinder, MVP

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

Quadrante mágico do Gartner em BI revela cenário de soluções maduras

No mês passado, o Gartner divulgou o seu quadrante mágico para DW e BI, e destaco aqui os principais fabricantes apontados, para que fiquemos de olho nas soluções que oferecem e na evolução da tecnologia, que é a base para o desenvolvimento do Big Data, o sucessor natural do BI.

Microsoft, IBM, SAP e Oracle fornecem as soluções mais completas, sendo consideradas as líderes. Importante notar a chegada da Microsoft "com força", graças ao SQL Server 2012 e seus agregados;
Teradata, SAS e MicroStrategy são fornecedores de alguma maneira especializados, mas que são também muito relevantes;
Tableau, QlikTech QlikView e Tibco Spotfire fornecem soluções bem interessantes para visualização e exploração de dados;
Pentaho, Jaspersoft e Actuate são as soluções de código aberto que se destacam. Senti falta do SpagoBI e BIRT, e me surpreendi com o posicionamento da Jaspersoft;
E quando se trata de Big Data propriamente dito, o Apache Hadoop domina. Não vejo a hora de colocar as mãos neste bichinho pra testar;
Observou-se também um começo de padronização sobre a linguagem de programação R para estatísticas e análise preditiva.

Fico muito feliz em observar que o Big Data, assim como a nuvem, é dominado por soluções livres e abertas, o que revela uma clara tendência de conversão do modelo baseado em licenciamento de software para um modelo baseado em serviços, onde o software é o meio e não o fim.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

segunda-feira, 27 de agosto de 2012

4 soluções desenvolvidas com #Pentaho #BI que vale a pena conhecer

Hoje fui brindado com uma mensagem muito interessante sobre o Pentaho, solução de Business Intelligence de código aberto sobre a qual ando pesquisando recentemente. Uma das soluções mais conhecidas do mercado, o Pentaho foi adotado pela Lufthansa, e os exemplos descritos a seguir mostram porque a solução merece ser considerada como alternativa às caríssimas soluções proprietárias, mesmo considerando que há versões comerciais (bem caras, também) do Pentaho. Mas dá pra fazer tudo que se queira em termos de BI com a versão livre. Além do fato de que o Pentaho conta com uma série de ferramentas que foram incorporadas à suite ao longo do tempo, e que garantem mais opções e mais robustez ao produto.

Obras do PAC

Desenvolvido pela IT4Biz, este portal traz o mapa das obras, com valores e outras informações bastante úteis.

Análise dos aeroportos

Este outro exemplo traz informações sobre aeroportos, incluindo dados de aeronaves e passageiros, com base nos dados disponibilizados pela Infraero.

Estatísticas do Brasileirão

Este portal traz várias estatísticas interessantes do campeonato brasileiro, por time, jogador, temporada, com dados de 2010, 2011 e 2012.

Estatísticas da Champions League

Este site traz estatísticas do torneio de clubes mais importante da Europa.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

terça-feira, 31 de julho de 2012

#FISL 13: #BI simplificado com #Pentaho

O André Luís Coelho da Silva (@andrewise), da Caixa, fez uma palestra bem interessante, mostrando a experiência dele na Caixa com soluções de BI. Vamos às observações.

Grandes iniciativas falharam - BI, DW, DM, Business Objects, Hyperion não deram o resultado esperado;
Faltou estratégia - gestores de produto/negócio não sabem o que querem!
É difícil encarar o chefe do chefe do chefe e dizer: você está viajando!
O problema não estava na TI, nem na ferramenta;
O que está errado ?
- Não sabemos (TI) perguntar!
- Temos dados demais;
- Gestores não gostam das respostas;
Soluções de BI obrigam gestores a agir, ao revelar os fatos! Alguns gestores não querem isso;
Dicas
- Começar pequeno;
- Atenção a dados dormentes - "dormem" no banco de dados, ninguém usa, e podem chegar a 80%;
- Equipe técnica qualificada;
- Suporte (no caso da CAIXA, fornecido pela 4Linux);
Pentaho
- Uma ferramenta, vários usos: ETL, Estatística, Redes Neurais, Big Data;
- O usuário não quer um sistema, quer informação para tomada de decisão;
- Case:
  - Programação em COBOL para extrair dados do mainframe;
  - Dados distribuídos para gestores (Pentaho + PostgreSQL);
  - Há relatórios pré-formatados, mas não são o foco principal;
  - Gestores usam diretamente a ferramenta, pois ELES entendem do negócio, e querem construir suas próprias visões e análises dos dados;
  - Usam ferramenta proprietária de ETL por conta do volume de dados (petabytes!), mas estão testando o Pentaho;
  - Aproveitaram conhecimento dos "micreiros" da CAIXA que estavam na área fim;
  - 3 áreas com cerca de 500 profissionais desenvolvendo software, mais 9 contratos de fábrica de SW;
  - BI descentralizado (nichos) usando Pentaho;
  - BI centralizado ainda usa Business Objects e Hyperion, mas também Pentaho;
  - BI personalizado usando Pentaho e outros;
Resumo
- Dividir necessidades de informação em conjuntos menores, verticalizando, buscando minimizar erros;
- Pentaho oferece versatilidade;
- Simplificar para facilitar as perguntas e respostas dos gestores;
- Suporte da Pentaho para projetos maiores.

O recado foi claro: o Pentaho é versátil, e pode substituir soluções comerciais reconhecidas no mercado e facilitar o uso do BI pelos gestores.

Siga-nos no Twitter!

Curta nossa página no facebook!

Receba os textos via e-mail ou RSS!

Confira outros textos sobre o tema!

segunda-feira, 30 de julho de 2012

#FISL 13: Iguana, BI for Open Source and Commercial Systems

O Márcio e a Rafaela, da Ambiente Livre, fizeram uma apresentação sobre o IGUANA, um projeto que pretende integrar soluções desenvolvidas pela empresa e pela comunidade utilizando Pentaho, WEKA e outras ferramentas. Vamos aos detalhes:

Eles utilizam uma série de ferramentas na área de Business Intelligence
- Pentaho para relatórios, cruzamentos de informações, etc;
- Hadoop para armazenamento de dados distribuídos;
- Saiku para OLAP;
- C*tools para criação de dashboards;
- Open Intelligence para dashboards, OLAP, ETL, etc;
- WEKA para mineração de dados;
- HyperSQL para bancos de dados embarcados;

A proposta do IGUANA é ser um conjunto de soluções de BI "plug and play", pré-modeladas para áreas de negócio específicas. Como exemplo, eles demonstraram uma modelagem construída para facilitar a análise das estatísticas de portais que utilizam Joomla, e há várias iniciativas em andamento, com o foco em dotProject, SugarCRM, LimeSurvey, Google Analytics e outros. A idéia é que a comunidade desenvolva mais soluções, e a Ambiente Livre está negociando com seus clientes para que eles permitam que as customizações sejam disponibilizadas como software livre.

Achei a proposta muito interessante, é esperar que dê certo!

Siga-nos no Twitter!

Curta nossa página no facebook!

Receba os textos via e-mail ou RSS!

Confira outros textos sobre o tema!

#FISL 13: Mineração livre de dados

O Mauríco e o Adewale são baianos, estudam na UFBA, e apresentaram o software WEKA - Waikato Environment for Knowledge Analysis, uma ferramenta muito interessante para mineração de dados. Vamos às observações sobre a palestra.

Os palestrantes apresentaram a OxenTI, a empresa deles, que fornece serviços em mineração de dados e áreas correlatas;
A "Lei de Moore" diz que o processamento dobra a cada 18 meses, mas a capacidade de armazenamento dobra a cada 10 meses, o que gera um descompasso entre a capacidade de produzir e tratar os dados;
Knowledge Data Discovery (KDD) é o processo de extração de informação de bases de dados e criação de relações de interesse não percebidas "a olho nú";
Tarefas envolvidas no processo de KDD
- Associação de dados - ex:clientes que compram pão também compram leite;
- Padrões sequenciais - ex: alguém compra um carro, e 6 meses depois compra pneus;
- Classificação e predição;
- Análise de clusters - agrupar informações com base em comportamentos;
- Análise de outliers - identificar informações fora do padrão.
Técnicas utilizadas
- Árvore de decisão - árvore que estabelece um processo evolutivo que leva a uma decisão com base na relação entre as informações;
- Redes neurais;
O WEKA
- Desenvolvido em Java, pela Universidade Waikato, na Nova Zelândia;
- É também conhecido como Pentaho Data Mining;
- Oferece recursos de data mining e machine learning, permitindo realizar análises de dados de forma simples;
- Possui diversos módulos, e uma interface intuitiva de fácil utilização (abaixo uma tela de exemplo);
- Há extensa documentação da ferramenta e uma lista de distribuição.

Fiquei bem impressionado com o software, especialmente pela facilidade para importar dados a partir de arquivos CSV ou ARFF, bem como para realizar as análises, bastando selecionar os atributos de interesse e, claro, conhecer os algoritmos (são muitos!) que se aplicam ao conjunto de dados em questão. Pretendo aprofundar os estudos na ferramenta o quanto antes.

Siga-nos no Twitter!

Curta nossa página no facebook!

Receba os textos via e-mail ou RSS!

Confira outros textos sobre o tema!