Tecnologia que interessa: Big Data

Mostrando postagens com marcador Big Data. Mostrar todas as postagens

segunda-feira, 2 de fevereiro de 2015

[Infográfico] Big Data em Números - O que você precisa saber!

Big Data é o hype do momento, acho que isso todo mundo já sabe.

Ocorre que, mais que um simples modismo, é uma oportunidade.

E que oportunidade!

Oportunidade pras empresas, que tendo acesso a um volume maior de dados, podem fazer análises mais completas e confiáveis.

Oportunidade pra profissionais qualificados, que podem aproveitar a demanda que surge com a novidade (mesmo que não seja tão novidade assim :).

E é pra dar uma idéia mais clara dessa oportunidade que resolvi trazer pra você o primeiro infográfico do Tecnologia que Interessa!, que, baseado nas previsões do Gartner, apresenta números impressionantes, que deixam claro o quanto a tecnologia associada ao fenômeno Big Data está mudando a realidade das empresas.

Confira!

Quero destacar o fato de que, ainda que lentamente, as empresas começam a investir em Big Data aqui no Brasil, e estima-se que este mercado chegue a R$ 1 bilhão até 2018 (este ano R$ 680 milhões).

Nada mal, hein ?

Outra coisa que merece atenção é o fato de que a tecnologia se aplica a qualquer segmento, seja indústria, serviços financeiros, comunicação e mídia ou governo. Observe como o investimento aumenta em ritmo acelerado a cada ano.

Note ainda que os resultados são bem claros: 2x mais chance de aumentar o desempenho financeiro, 5x mais chance de ser mais rápida que a concorrência, 3x mais chance de melhorar o planejamento.

Definitivamente, não dá pra ignorar uma tecnologia que proporciona benefícios como estes, não acha?

Conclusão

Não canso de dizer que Big Data é uma oportunidade pra você, profissional de TI, que quer (precisa?) dar um salto na carreira, saindo na frente, sendo pioneiro e abraçando com todas as forças a inovação.

E eu estou aqui pra ajudar no que puder, basta entrar em contato.

Aproveito pra divulgar a lista Big Data Brasil, que criei há alguns meses pra trocar idéias sobre o tema, e convido você a participar. Já rolaram várias discussões legais por lá!

E então, o que achou do infográfico ? Se curtiu, compartilha aí!

sexta-feira, 21 de novembro de 2014

8 fortes tendências para Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.

Analiso a seguir as 8 tendências apontadas pelo CIO.

1 - Big Data Analytics na nuvem

Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).

Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais "agressivos" de análise de dados.

Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 - Hadoop, o sistema operacional corporativo para dados

O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados "de fato", o que deve se refletir numa adoção mais acelerada de agora em diante.

Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 - Big Data Lakes

Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como "repositório gigante de dados", ou seja, as empresas podem simplesmente "despejar" seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.

Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 - Mais Análises Preditivas

Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 - SQL integrado ao Hadoop

As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.

Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.

Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 - Mais e melhores opções NoSQL

NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.

Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.

7 - Deep Learning

A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.

Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.

Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado "por conta própria" de que Califórnia e Texas são estados dos EUA.

8 - Analytics em memória

O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).

Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.

O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão

Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.

A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.

Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.

Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.

quarta-feira, 23 de julho de 2014

Salvando vidas e economizando com Big Data

Em mais um exemplo claro do "poder" do Big Data, neste caso com uma ênfase muito importante para o aspecto da "Ciência de Dados" (Data Science para os gringos), um projeto desenvolvido pelo Centro de Ciência de Dados da Universidade de Washington está sendo usado num hospital com muito sucesso!

O projeto, chamado Risk-O-Matic, utiliza técnicas de aprendizado de máquina para prever, através de um indicador de risco, se um paciente que acabou de passar por um tratamento vai retornar ao hospital em pouco tempo (menos de 30 dias, por exemplo) por conta do mesmo problema, dentre outras possibilidades.

Para isso são usados muitos dados sobre o histórico médico e perfil do paciente compostos por mais de 100 atributos, que são analisados através de aplicações web e móveis.

Este tipo de projeto é de especial interesse do governo dos EUA e dos hospitais de lá por conta do famoso Obamacare, o programa de saúde que remunera hospitais com base na melhora dos indicadores de saúde, cujos custos chegam a 15 bilhões/ano apenas por conta do retorno aos hospitais, em menos de 30 dias, de 25% dos pacientes que acabaram de passar por tratamentos cardíacos. A idéia do governo é remunerar melhor hospitais que ajudarem a melhorar estes indicadores.

O projeto é ainda mais promissor por se tratar de iniciativa genérica, que pode ser aproveitada por qualquer governo, hospital, etc, de forma que os pesquisadores estão estudando montar uma empresa pra comercializar a solução, que também pode ser integrada a outras soluções médicas do mercado.

Fico cada vez mais fascinado por este novo mundo de possibilidades que se apresenta a partir das tecnologias de Big Data.

Quer conversar mais a respeito deste fascinante tema ? Deixe seu comentário aqui!

Via GigaOM.

sábado, 10 de maio de 2014

16 soluções para Big Data Analytics

Que Big Data é a buzzword do momento todos já sabem. O tratamento de grandes volumes de dados através da técnica de processamento paralelo Map/Reduce já influencia nosso dia a dia, e as grandes empresas já descobriram a importância de investir nesta tecnologia.

Por isso fiz uma pesquisa e encontrei 16 soluções para Big Data Analytics, que se refere à integração das ferramentas de Big Data com as ferramentas de software tradicionais presentes em praticamente qualquer organização, como bancos de dados relacionais, ferramentas de Business Intelligence e outras.

Distribuições Hadoop

Quando se trata de Big Data, o Hadoop é "a ferramenta", pois é o software central que permite a execução de operações de forma paralela aplicando a técnica criada pela Google denominada Map/Reduce, além de lidar com as questões de armazenamento e replicação de dados envolvendo componentes como HDFS e outros.

Por conta da importância deste software mantido pela Apache, surgiu o termo Distribuição Hadoop, que indica um conjunto de ferramentas que interagem de alguma forma com o Hadoop para fornecer alguma funcionalidade importante, seja a análise de logs em tempo real ou a coleta de dados a partir de redes sociais.

Uma das principais distribuições do mercado é a Hortonworks, que é 100% software livre e na qual se baseiam muitas outras, incluindo-se aí a distribuição da Cloudera e da Microsoft, dentre outras. Cada fornecedor tenta encontrar uma maneira de se diferenciar através das funcionalidades que oferecem além daquelas que já estão disponíveis na distribuição Hortonworks.

O ebook 16 soluções para Big Data Analytics

Neste ebook você vai encontrar as principais características de 16 soluções que incluem distribuições Hadoop, software especializado em bancos de dados NoSQL e soluções que englobam, além das ferramentas de Big Data, ferramentas tradicionais como bancos de dados relacionais e Business Intelligence.

Confira o ebook aqui.

quarta-feira, 2 de abril de 2014

9 soluções de armazenamento baseadas em Software Livre

O mercado de armazenamento de dados está sofrendo mais uma reviravolta, como acontece volta e meia com qualquer área do mercado de tecnologia. A idéia de redes de armazenamento baseadas em componentes de hardware redundantes e num dispositivo central, o famoso "storage", tem sido questionada diante de alternativas diversas que surgem a cada dia.

VMware VSAN, Nutanix e Nimble Storage são alguns exemplos de soluções que apostam numa "nova" arquitetura.

Diante deste cenário, listamos a seguir soluções baseadas em software livre que vale a pena conhecer, até porque é bem possível que no futuro próximo sua empresa venha a adquirir uma solução baseada num destes softwares.

As soluções aliam economia, desempenho e escalabilidade, características fundamentais em tempos de computação em nuvem e Big Data. Vamos à lista.

1. Ceph

Parece que a idéia de armazenamento distribuído de objetos é o conceito básico das soluções de armazenamento modernas. É assim com o CEPH, que alega prover excelente performance, confiabilidade e escalabilidade.

2. Gluster

A solução da Red Hat é um sistema de arquivos distribuído capaz de lidar com volumes de dados da ordem de brontobytes. Sim, Brontobytes (1k Yottabytes, ou 1m Zettabytes, ou 1b Exabytes, ou 1 trilhão de Terabytes - e chega, né?). O Gluster provê ainda alta disponibilidade, desempenho e algoritmos hash para controle do armazenamento de dados que são importantes em cenários distribuídos como os encontrados nas aplicações para Big Data.

3. FreeNAS

O FreeNAS é velho conhecido de muitos profissionais de TI, é uma solução madura e se denomina "a mais potente e sólida solução NAS em software livre", o que deve ser verdade, considerando seus usuários: Disney, Nações Unidas, Universidades da Flórida, Michigan, dentre outros. Possui opções gratuitas e appliances comercializados com suporte agregado.

4. Lustre

Uma das soluções que não conhecia, o Lustre é um sistema de arquivos escalável com foco em alto desempenho. Pode lidar com dezenas de milhares de nós e petabytes de dados.

5. NAS4Free

Semelhante ao FreeNAS, torna fácil criar uma solução de armazenamento baseada em BSD utilizando hardware comum. Promete uma solução NAS de baixo custo, poderosa e customizável.

6. Openfiler

Mais uma solução conhecida de longa data, o Openfiler oferece recursos de NAS (através de NFS, CIFS e HTTP) e também de SAN (iSCSI e FC) através de um assistente fácil de usar. Com mais de um milhão de downloads, é usado pela Motorola, Polícia de Londres, dentre outros clientes. Opção de contratação de serviços de suporte disponível.

7. OpenSMT

Mais um da lista de novidades (pra mim), oferece recursos semelhantes aos do Openfiler, sendo baseado no sistema OpenSolaris.

8. Open Media Vault

Solução NAS fácil de gerenciar, de instalação rápida e com suporte a relatórios estatísticos. Baseada em Debian, o que pra mim é uma vantagem, já que deve ser compatível com Ubuntu :) Também oferece plugins para ampliar suas funcionalidades.

9. Turnkey Linux

Costumo utilizar servidores baseados no Turnkey Linux para simular soluções de armazenamento em meus treinamentos em virtualização com VMware. São mais de 100 opções de software pré-configurado num sistema Linux. Uma das opções é um servidor de arquivos com funcionalidade NAS. Costumo utilizar o iscsitarget, uma solução muito simples de instalar e configurar, além de NFS.

Via Infostor.

quarta-feira, 19 de março de 2014

5 provas de que o Big Data já afeta seu dia a dia

O Big Data já se tornou parte do dia a dia de muitos de nós, mesmo sem que percebamos. Empresas de todos os segmentos em todo o mundo têm iniciativas relacionadas à análise de grandes volumes de dados visando otimizar a oferta de seus serviços, o que está fazendo com que tenhamos uma experiência cada vez mais personalizada com as empresas das quais adquirimos serviços.

A seguir relaciono alguns exemplos dessa nova realidade.

1 - Melhorar a segurança na web

As tecnologias relacionadas ao Big Data já estão transformando a indústria de segurança e permitindo, combinada com a tecnologia de computação em nuvem, oferecer melhores soluções para detecção de intrusão, análise de logs e combate a ameaças de maneira geral.

2 - Melhorar as indicações de filmes

A Netflix é um case constantemente citado de uso do Big Data para análise de dados em tempo real com o objetivo de fornecer melhores recomendações de filmes aos seus assinantes. Eles estão constantemente testando seus algoritmos de análise de dados a partir da utilização do serviço de streaming pelos assinantes.

3 - Otimizar as recomendações de produtos

A Amazon é outro caso clássico de utilização da tecnologia de Big Data para otimizar as recomendações de produtos a seus clientes. Eles estão constantemente analisando os cliques e histórico de compras de seus mais de 150 milhões de clientes.

4 - Personalizar a educação

Como já falamos aqui, a combinação de Big Data com o poder do Data Mining já permite a análise de informações históricas e em tempo real (durante a aula) sobre comportamento de alunos, realização de atividades e desempenho, tornando possível adaptar os métodos de ensino para melhorar o aproveitamento dos alunos.

5 - Evoluir a experiência dos gamers

Um dos cases que conheci recentemente e mais me chamou a atenção no uso da tecnologia de Big Data foi o da Microsoft, que analisa dados em tempo real para melhorar a experiência dos usuários no jogo Halo. Outro exemplo vem da Zynga, a empresa que fatura zilhões com jogos no facebook, e que lida com um volume de aproximadamente 10 TB por dia.

Os casos de uso do Big Data são inúmeros, em todos os segmentos, o que deixa cada vez mais claro que a utilização desta tecnologia pelas empresas não é uma questão de SE, mas de QUANDO. E tenho dito :)

terça-feira, 17 de dezembro de 2013

O futuro dos bancos de dados, por Michael Stonebraker

O Gigaom traz um artigo interessantíssimo sobre o futuro dos bancos de dados. O especialista Michael Stonebraker, um dos pioneiros em bancos de dados relacionais, e que atualmente aposta em soluções alternativas, ajudou a criar bancos de dados como Ingres (avô do SQL Server) e Postgres (Post Ingres). Acho que o rapaz sabe o que fala, né ? Ele foi um dos primeiros a indicar que uma solução baseada apenas em MySQL não seria capaz de atender às demandas do Facebook.

Bom, vamos ao que interessa, ou seja, o que ele prevê (ou vê) para o mercado de banco de dados ?

"Em qualquer mercado que possa pensar, há um caminho melhor para resolver um problema que usar bancos de dados relacionais legados". Esta é uma afirmação forte, que deixa claro o quanto é importante olhar atentamente além do mundo tradicional dos bancos de dados. Portanto, se você não sabe o que é NoSQL, NewSQL e afins, é hora de correr, pois deste conhecimento depende a qualidade das soluções que as empresas vão adotar para armazenamento de dados no "futuro presente", diria eu, sejam dados estruturados ou não.

O próprio Michael está envolvido num projeto denominado VoltDB, que ele aponta como duas ordens de magnitude mais rápido que os bancos de dados convencionais. Não é à toa que a Microsoft está correndo para implementar recursos presentes em outras soluções, como armazenamento em colunas (2012) e utilização de tabelas em memória (2014). Me arrisco a dizer que os bancos de dados relacionais que conhecemos (MySQL, SQL Server, Postgres e outros) estão migrando para uma arquitetura híbrida que comporte a utilização de recursos típicos de bancos de dados NoSQL.

Outro ponto destacado no artigo é que cada necessidade demanda um tipo de solução, e a idéia de que uma única solução de banco de dados vai atender a todas as necessidades da organização pode não funcionar de agora em diante. Michael cita como exemplo o Obamacare, que adotou uma solução NoSQL. Isto só reforça minha impressão de que as soluções que quiserem se manter relevantes no mercado deverão adotar uma abordagem híbrida, ou focar num mercado cuja demanda seja muito alta, como redes sociais, onde bases de dados baseadas em grafos têm espaço garantido.

Michael acredita que entre três e cinco tipos de bancos de dados da "geração NoSQL" vão vingar (colunas, grafos, chave/valor, etc), e que em cada tipo haverá espaço para dois ou três "vencedores". Ele também acha que durante a próxima década o mercado de bancos de dados relacionais vai reduzir.

Ele aponta também para uma tendência no sentido de ajustar o mundo NoSQL ao mundo SQL, com iniciativas visando propor o SQL dos bancos não relacionais, e adoção do ACID. Acrescento que o MongoDB, por exemplo, está investindo bastante nessa linha e se tornando uma alternativa recomendada para quem quer começar no mundo NoSQL com o mínimo de esforço.

O especialista vê no futuro próximo um duelo SAP x Oracle, indicando que os clientes SAP são os maiores clientes da Oracle, e que a chegada do HANA pode levar a SAP a tentar convencer seus clientes a migrar.

Por fim, Michael relata que os esforços do Facebook com o MySQL, embora louváveis, não endossam o banco de dados como a melhor solução, mas apenas indica que atualmente não há solução para os desafios da rede social.

E conclui indicando que é hora de aposentar a tecnologia relacional, pois lá se vão mais de 25 anos.

Me vejo cada vez mais interessado pelo tema banco de dados (Big Data, NoSQL e afins). É fascinante ver as possibilidades de armazenamento, organização, busca, otimização e análises de dados que as novas tecnologias permitem.

E vocês ? Concordam com o Michael ? Compartilhem aqui suas opiniões! Vamos discutir mais sobre este tema tão interessante!

quarta-feira, 4 de setembro de 2013

Big Data em 10 frases

Big Data: water wordscape (crédito: Marius B)

Big Data é o assunto do momento, e já falamos sobre isso aqui algumas vezes. Quanto mais estudo o assunto, mais me vejo interessado em aprender mais e mais! É um tema fascinante, as possibilidades são ilimitadas!

Meu objetivo hoje é compartilhar com vocês um pouco do que tenho visto, lido e ouvido sobre o assunto. Achei que trazer frases que ilustram o conceito e as possibilidades do Big Data seria uma maneira interessante de fazer isso. Vamos lá.

Big Data é sobre volume, velocidade e variedade

Garantir a capacidade de lidar de forma eficiente com grandes volumes de dados.

Big Data não é apenas sobre informação não estruturada

Os dados estruturados podem ser inclusive tratados em conjunto com os não estruturados.

Tecnologias de Big Data não requerem, necessariamente, dados "big" (petabytes, etc)

A tecnologia usada para Big Data pode auxiliar no melhor tratamento do "small data" também.

Big Data não é (apenas) sobre Apache Hadoop

Embora o Hadoop seja provavelmente a maior estrela do time, são necessários muitos jogadores para que a tecnologia alcance os resultados pretendidos.

Big Data não torna seus bancos de dados tradicionais obsoletos

Os SGBDs atualmente em uso podem (e devem) ser aproveitados dentro da arquitetura de Big Data.

Big Data requer novas habilidades

O cientista de dados precisa ter sólida base matemática, de TI e disposição para entender o negócio, ajudando a analisar os dados da empresa.

Big Data requer atenção especial à segurança

Com muitos dados vêm muitas preocupações, e a segurança certamente é uma das maiores, especialmente por envolver dados não estruturados, mais sujeitos a problemas de integridade, por exemplo.

Big Data é adequado para as abordagens ágeis de desenvolvimento

Para garantir o V da velocidade no item 1 pode ser necessário ajustar procedimentos e abordagens no desenvolvimento e implantação de ferramentas para análise de dados em tempo real, garantindo agilidade para atender novas demandas com eficiência.

Projetos de Big Data exigem reflexão cuidadosa quanto à qualidade da informação e governança

As fontes de informação podem gerar novos dados muito rapidamente, como no caso de analisadores de log, um case comum de Big Data. Por isso, garantir que a velocidade não comprometa a qualidade é um desafio.

Big Data é apenas mais uma buzzword

Essa é uma meia verdade, na medida em que as empresas estão (obviamente) capitalizando o tema e até certo ponto confundindo um pouco as coisas, mas há elementos novos que justificam sim a adoção de uma terminologia própria.

E então ? O que acharam das frases ? Sua opinião é muito importante pra nós :)

Quer aprofundar no assunto ?
A apresentação abaixo é um bom começo, mas o melhor mesmo é clicar aqui :)

Big Data from NGDATA

domingo, 14 de julho de 2013

#FISL14: MySQL Cluster - visão geral

Confesso que não esperava muito desta palestra, mas fui surpreendido positivamente. O Airton Lastori, da Oracle, iniciou a palestra indicando que atua como "vendedor" na Oracle, mas revelou conhecimento aprofundado do MySQL Cluster, fazendo um apanhado histórico e fornecendo muitas informações úteis, em especial comparativos e critérios que permitem decidir com segurança quando é melhor utilizar o MySQL Cluster e seus recursos de alta disponibilidade, APIs NoSQL, NDB e outros, ou o MySQL "padrão". Esta análise é importante, pois nem sempre o MySQL Cluster é a melhor alternativa. Tudo depende do perfil da aplicação que fará uso dos dados. Confira os detalhes abaixo.

MySQL Cluster - visão geral from MySQL Brasil

quarta-feira, 3 de abril de 2013

Big Data: quanto é Big ?

Estou ficando fã da Debra Shinder, do Windows Networking. Este é o segundo artigo dela que me vejo "obrigado" a traduzir, dada a qualidade e relevância do texto.

Big, Bad Data

Meu pai era fã do cantor country Jimmy Dean muito antes de o homem parar de fazer música e começar a fazer salsicha. Minhas memórias de infância incluem as palavras, embutidas para sempre em meu cérebro, da sua canção maior, "Big Bad John". Ela conta a história de um gigante gentil que assustou a todos ao seu redor, mas que acabou salvando o dia ao sacrificar a sua própria vida.

Big Data lembra-me um pouco desse mineiro de carvão de grandes dimensões. Para aqueles que não entendem o conceito, que é um pouco assustador. O que é o "big data" de qualquer maneira - além de ainda chavão outro projetado para vender "soluções" ? Não há um número restrito de terabytes, petabytes, exabytes, etc, que constitui uma linha que, quando ultrapassada, coloca você no território de big data. Mas o termo evoluiu para se referir a conjuntos de dados que contêm tantas informações que nossas ferramentas de banco de dados tradicionais têm dificuldade de processá-las.

Tudo é relativo, portanto, e uma quantidade de dados que qualificam como "grande" em uma organização pode não ser considerado grande o suficiente em outra. Depende das ferramentas que você usa para processar dados e se elas são capazes de lidar com uma quantidade específica. Um levantamento de CIOs indicou que 36% - mais de um terço deles - consideram 1-9 TB de dados "big data".

Estamos vivendo em um mundo onde a coleta de dados tornou-se onipresente. Houve um tempo em que, para obter informações em um banco de dados, um ser humano devia sentar e introduzir os dados à mão. Hoje, os fluxos de dados em bancos de dados ocorrem automaticamente, através da Internet, em todo o mundo. Dados são coletados a partir de computadores, dispositivos móveis, câmeras, microfones, leitores de código de barras, scanners RFID, e todos os tipos de sensores. Os dados vem em muitas formas: mensagens de e-mail, informações de redes sociais, entrada de formulário web, arquivos de log, documentos, arquivos de texto, PDFs, fotografias, desenhos, vídeos, arquivos de áudio e muito mais. Empresas coletam informações sobre clientes, empregados, fornecedores, indústria, questões jurídicas, contábeis e muito mais.

Estamos nos afogando em dados - mas de que servem os dados, se não temos uma maneira de tomar ciência de tudo isso ? O valor em ter uma grande quantidade de informações é a capacidade de usá-las para detectar tendências, padrões, anomalias e, finalmente, ser capaz de usá-las como base para decisões de negócios. E isso nos leva à necessidade de um software de gestão da informação ou serviços que possam organizar, classificar e filtrar os dados e também realizar análises sobre eles.

Dados não estruturados, em particular, são um desafio para as ferramentas de banco de dados tradicionais, pois não se encaixam bem em tabelas de dados relacionais. Isso inclui documentos de texto, áudio, vídeo, e-mails, páginas web, e muito mais. O problema é que uma grande porcentagem dos dados que as empresas recolhem não é estruturado. A percentagem estimada varia, mas mesmo nas estimativas mais conservadoras, compreende uma parte muito significativa de todos os dados.

A Gestão da informação caminha lado a lado com a ideia de Business Intelligence. Há um número de diferentes tipos de tecnologias que podem ser usadas para processar big data e encontrar o caminho certo pode ser um desafio, uma vez que o que é certo para os seus fins depende do objetivo final de sua análise, bem como suas expectativas em relação ao desempenho e confiabilidade da análise preditiva. A pesquisa CIO mencionada acima mostrou que 81% dos CIOs precisam os resultados de consultas analíticas que devem ser retornados em menos de um minuto.

Grandes soluções de processamento de dados pode ser locais ou baseadas em nuvem. Há soluções projetadas para rodar em qualquer servidor de sistemas operacionais que você possa ter no local, a partir de frameworks open source, como o Apache Hadoop até as caras soluções comerciais. Administradores do Windows provavelmente ficarão felizes em saber que a Microsoft está no jogo do big data (aprender a usar novas tecnologias é difícil o suficiente sem ter que aprender a usá-las em uma nova plataforma). Sua Data Explorer para o Excel 2013 é uma ferramenta recém-lançada e projetada para tornar mais fácil de descobrir, combinar e refinar os dados de fontes diferentes para análise no Excel. A fundação do esforço da Microsoft em big data, porém, é o HDInsight, que curiosamente é uma distribuição Hadoop que pode ser executada em Windows Server ou como um serviço do Windows Azure. A Microsoft também anunciou uma solução de processamento paralelo em banco de dados, o SQL Server 2012 PDW , que integra com Hadoop e muitas soluções de BI populares. Ela oferece uma capacidade de multi-petabytes.

Nem todas as empresas precisam de uma solução de big data, mas se a quantidade de informação que você precisa para processar está excedendo as capacidades dos sistemas que você usa, você pode precisar começar a pensar sobre big data.

Até a próxima, Deb

Por Debra Littlejohn Shinder, MVP

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

Quadrante mágico do Gartner em BI revela cenário de soluções maduras

No mês passado, o Gartner divulgou o seu quadrante mágico para DW e BI, e destaco aqui os principais fabricantes apontados, para que fiquemos de olho nas soluções que oferecem e na evolução da tecnologia, que é a base para o desenvolvimento do Big Data, o sucessor natural do BI.

Microsoft, IBM, SAP e Oracle fornecem as soluções mais completas, sendo consideradas as líderes. Importante notar a chegada da Microsoft "com força", graças ao SQL Server 2012 e seus agregados;
Teradata, SAS e MicroStrategy são fornecedores de alguma maneira especializados, mas que são também muito relevantes;
Tableau, QlikTech QlikView e Tibco Spotfire fornecem soluções bem interessantes para visualização e exploração de dados;
Pentaho, Jaspersoft e Actuate são as soluções de código aberto que se destacam. Senti falta do SpagoBI e BIRT, e me surpreendi com o posicionamento da Jaspersoft;
E quando se trata de Big Data propriamente dito, o Apache Hadoop domina. Não vejo a hora de colocar as mãos neste bichinho pra testar;
Observou-se também um começo de padronização sobre a linguagem de programação R para estatísticas e análise preditiva.

Fico muito feliz em observar que o Big Data, assim como a nuvem, é dominado por soluções livres e abertas, o que revela uma clara tendência de conversão do modelo baseado em licenciamento de software para um modelo baseado em serviços, onde o software é o meio e não o fim.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

sexta-feira, 8 de março de 2013

Big Data, Data Mining e o futuro da #educação

O Edudemic traz vários artigos muito interessantes sobre o que vou chamar aqui de "Educação 2.0", embora não ache o termo nada bonito. O que importa é que, dentre outras informações, os artigos trazem as 6 tecnologias que vão revolucionar o ensino. Algumas já estão. São elas:

Massive Open Online Courses (MOOC) - pois é, mais uma sigla pra nossa lista. Mas essa vale a pena. Muito! Ela representa as inúmeras iniciativas de educação online que tem sido conduzidas pelas mais renomadas instituições de ensino do mundo, como já falamos aqui há bastante tempo;
Tablet computing - o uso de tablets nas escolas e universidades já é realidade, e as possibilidades que isso proporciona já estão sendo observadas na prática;
Gamification - aplicar a "lógica" dos jogos no ensino é uma das tendências apontadas como fortes para os próximos anos. Eu achava que aqueles selos dos joguinhos ridículos (IMHO) do facebook não serviam pra nada, mas agora vejo que a idéia de fases e prêmios, mesmo que fáceis, representa objetivos que funcionam como estímulo ao aprendizado;
Learning Analytics - a idéia (bem superficialmente falando) aqui é coletar e analisar em "tempo de aula" uma infinidade de dados, históricos e atuais, sobre o desempenho dos alunos, áreas críticas e outras informações que permitam adaptar estratégias e métodos de ensino para melhorar os resultados dos alunos. No Edudemic são listados vários casos interessantes;
Impressão 3D - esta tecnologia ainda não está disseminada, mas tem um potencial fantástico para fomentar o interesse dos alunos em áreas como ciências, onde é possível transformar conceitos abstratos em projetos concretos (literalmente);
Tecnologias "vestíveis" - eu sei, minha tradução de wearable ficou bizarra, mas enfim, o que interessa é que as tecnologias que serão embutidas em roupas e outros objetos de vestuário no futuro próximo tem um potencial incrível de aplicações no ensino.

Pois é, a tecnologia chegou pra mudar completamente a sala de aula. É hora de (re)pensar a educação!

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

sexta-feira, 11 de janeiro de 2013

SQL Server 2012 x 2005 - alguns testes empíricos

Em função de novas atribuições assumidas em 2012, passei a me interessar mais profundamente (ui!) pelo SQL Server, e vocês devem ter percebido que passei a postar algumas coisas sobre o assunto. Como parte do processo de planejamento para migrar para a mais recente versão do SGBD de Redmond, resolvi conduzir alguns testes empíricos, e pretendo realizar também testes mais cientìficos, usando o HammerDB, que me pareceu uma ótima ferramenta para testes de desempenho em bancos de dados livres e não livres. Posteriormente devo publicar os novos resultados.

Considerando meus parcos conhecimentos em bancos de dados, resolvi fazer alguns testes de desempenho por conta própria, e por isso este texto (como diria Lulu Santos) não tem a "menor pretensão de convencer", mas sim de validar se os resultados obtidos são legítimos. Aliás, ficarei extremamente grato se, diante de alguma barbeirada cometida nos testes, os queridos leitores mais experientes fizerem a gentileza de apontá-la e sugerir correções nos procedimentos de teste. Mas deixemos de blá blá blá e vamos ao que interessa, que são os testes, e seus resultados, que aliás foram o principal motivador deste texto. Já adianto que, se meu empirismo estiver em dia, o recado é claro: você tem muito a ganhar atualizando para o SQL Server 2012.

Para a realização dos testes, foram utilizados dois servidores com configurações idênticas (ou o mais próximo disso que conseguimos):

4 processadores, 12 GB de RAM e cerca de 500 GB de disco;
Os dois servidores são máquinas virtuais executando sob hosts distintos, mas idênticos em termos de configurações de hardware;
Além disso, tivemos o cuidado (tanto eu quanto os colegas que colaboraram na montagem do ambiente) de verificar que a alocação dos discos das máquinas virtuais no storage tivesse características de desempenho bem próximas.

Foram definidas 3 medidas para os testes:

1 - Tempo da consulta no SQL Server 2005;
2 - Tempo da consulta no SQL Server 2012 - base em modo de compatibilidade SQL 2005;
3 - Tempo da consulta no SQL Server 2012 - base em modo de compatibilidade SQL 2012;

Um colega sugeriu reiniciar os servidores e recriar os índices das tabelas, afim de deixar o banco de dados em situação minimamente otimizada para a realização dos testes. Assim, o procedimento foi realizado para cada tabela utilizada nos testes. Tentei realizar testes diversificados, afim de avaliar a diferença de desempenho em situações bem distintas, mas sempre considerando um volume significativo de dados, pois acreditava que para volumes pequenos a diferença seria reduzida.

Primeiro teste: SELECT * em tabela com 5,4 milhões de registros

1 - SQL Server 2005 - 7min59s

2 - SQL Server 2012 (2005) - 4min22s (~ 83% mais rápido)

3 - SQL Server 2012 (2012) - 4min24s (~ 83% mais rápido)

Segundo teste: SELECT com JOIN em duas tabelas com 5,4 e 1,18 milhões de registros

1 - SQL Server 2005 - 14min13s

2 - SQL Server 2012 (2005) - 6min16s (~ 127% mais rápido)

3 - SQL Server 2012 (2012) - 5min54s (~ 141% mais rápido)

Terceiro teste: SELECT * em tabela com 22,6 milhões de registros

1 - SQL Server 2005 - 16min41s

2 - SQL Server 2012 (2005) - 6min13s (~ 169% mais rápido)

3 - SQL Server 2012 (2012) - 5min49s (~ 187% mais rápido)

Quarto teste: SELECT com JOIN e ORDER BY em duas tabelas com 22,6 e 13,48 milhões de registros

1 - SQL Server 2005 - 20min03s

2 - SQL Server 2012 (2005) - 16min29s (~ 21,6% mais rápido)

3 - SQL Server 2012 (2012) - 15min04s (~ 33% mais rápido)

Quinto teste: SELECT * em tabela com 188 milhões de registros

1 - SQL Server 2005 - 20min50s

2 - SQL Server 2012 (2005) - 13min42s (~ 52,6% mais rápido)

3 - SQL Server 2012 (2012) - 8min28s (~ 145% mais rápido)

Observações

Em alguns testes foi necessário o uso da cláusula TOP, variando entre 2 e 20 milhões de registros obtidos, afim de viabilizar a conclusão dos testes. Alguns testes mais complexos foram tentados mas o servidor com SQL Server 2005 não aguentou, talvez por limitação do ambiente (tempdb, etc).

Cabe lembrar que não foram feitas quaisquer otimizações no SQL Server 2012, como criação de índice ColumnStore e outras possibilidades de melhoria de desempenho específicas desta versão, o que sugere que o ganho pode ser ainda maior. Não foi aplicado sequer o Service Pack 1, já disponível.

Podem haver ainda outros fatores a considerar de modo a garantir que a comparação seja válida, mas, em princípio, as diferenças de desempenho observadas se referem a melhorias no SQL Server mesmo.

Fiquei com a impressão de que às vezes, no SQL Server 2012, executar a mesma consulta sucessivamente tem resultado cada vez melhor. Em tese, uma melhor utilização de memória poderia explicar isso, mas não tenho informações para afirmar.

Conclusão

A tabela abaixo relaciona os ganhos em cada teste, bem como a média de ganho no desempenho para todos os testes.

Teste	1	2	3	4	5	Média
Ganho (2012/2005)	83%	127%	169%	21,6%	52,6%	90,64%
Ganho (2012/2012)	83%	141%	187%	33%	145%	117,8%

Com base nestes dados podemos afirmar que há ganho bastante significativo de desempenho no SQL Server 2012.

Cabe lembrar, entretanto, que estes testes refletem a realidade de um ambiente específico, e portanto não podem nem devem ser utilizados como referência geral de desempenho. De todo modo, ficamos bem animados com os resultados.

Resta agora fazer os testes com o HammerDB para confirmar as conclusões.

Siga-nos no Twitter!
Curta nossa página no facebook!
Confira outros textos sobre o tema!