segunda-feira, 24 de novembro de 2014

HHVM, a grande sacada do Facebook!

Nem só de pisadas na bola vive o Facebook.

A maior rede social do mundo nem sempre foi assim. A cria do Zuckerberg possuia 1 milhão de usuários no final de 2004, e só a partir de 2009 "decolou", alcançando 350 milhões de usuários e disparando até os atuais 1,3 bi.

Esse crescimento exponencial criou muitos desafios, levando a empresa a fabricar seu próprio hardware e rever o software que utilizava, entre eles o PHP.

Daí nasceu a HHVM,  uma iniciativa que elevou o PHP ao patamar de linguagem respeitada não apenas pela facilidade de desenvolvimento, mas pelo desempenho em linha com as necessidades de uma empresa que precisava atender a um bilhão de usuários.

A cereja do bolo vem com a notícia de que a ferramenta teve seu código liberado, e deve representar uma mudança importante, com impacto mundial, impulsionado pela adoção do HHVM pela Wikipedia, Box e Baidu.

Vale lembrar também que o Wordpress, a solução usada por muitos dos sites mais acessados em todo o mundo, é feito em PHP, o que significa que as melhorias do HHVM podem se estender a uma parcela significativa de toda a web.

Na esteira do HHVM, outras soluções foram desenvolvidas, em especial a linguagem HACK, que representa um movimento na direção de facilitar não apenas o desenvolvimento e execução de aplicações com alto desempenho, mas também a identificação e correção de bugs.

Parabéns, Facebook!

Via Wired, AP

sexta-feira, 21 de novembro de 2014

8 fortes tendências para Big Data Analytics

Tendências Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.

Analiso a seguir as 8 tendências apontadas pelo CIO.

1 - Big Data Analytics na nuvem

Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).

Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais "agressivos" de análise de dados.

Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 - Hadoop, o sistema operacional corporativo para dados

O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados "de fato", o que deve se refletir numa adoção mais acelerada de agora em diante.

Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 - Big Data Lakes

Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como "repositório gigante de dados", ou seja, as empresas podem simplesmente "despejar" seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.

Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 - Mais Análises Preditivas

Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 - SQL integrado ao Hadoop

As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.

Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.

Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 - Mais e melhores opções NoSQL

NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.

Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.

7 - Deep Learning

A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.

Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.

Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado "por conta própria" de que Califórnia e Texas são estados dos EUA.

8 - Analytics em memória

O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).

Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.

O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão

Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.

A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.

Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.

Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.

segunda-feira, 17 de novembro de 2014

Facebook "for Business" ? Não, obrigado!



O Facebook quer ampliar seus domínios para a empresa em que você trabalha.

A idéia é separar (sabe Deus como) seu perfil "profissional" do perfil pessoal, e ser a sua rede social onipresente, seja para enviar aquela foto do amigo bêbado na festa ou fazer networking com seu futuro pretenso chefe.

Também vai ser possível colaborar através de chat e criar documentos compartilhados, tornando a rede social concorrente de Google, Microsoft e outros serviços de colaboração.

Por outro lado, é cada vez mais tênue a linha que separa o uso pessoal do profissional quando se trata de redes sociais, e nesse sentido o movimento do Facebook pode fazer sentido.

Em resumo: não curti, mas não vai faltar quem curta.

Via GigaOM.

Resumo do evento Amazon AWS Re:invent 2014

Com a chamada "Cloud is the New Normal", o evento da Amazon que aconteceu de 11 a 14 de novembro em Las Vegas mostrou o quanto a Big A de Seattle está avançando rapidamente na oferta de serviços na nuvem. É impressionante!

Transcrevo abaixo um trecho que email que recebi sobre o evento e que resume parte dele:
Lançamentos

Aurora: novo banco de dados, compatível com o MySQL 5.6. Cinco vezes mais performático que o MySQL tradicional por um décimo do custo de um banco de dados com qualidade comercial. O custo já anunciado é realmente muito menor que o custo de RDS tradicional. A redundância funcionará por meio de promover um read replica em caso de falha ou criar um banco novo de forma automática e transparente - e mesmo assim seria muito mais rápido do que realizar o 'recovery' do banco. O AWS também anunciou que terá ferramentas de migração dos bancos MySQL tradicionais;
 
Desenvolvedores: Após investirem muito nos devops com ferramentas como OpsWorks e Elastic BeanStalk (ok, eles também podem ser usados por desenvolvedores 'puros'...), o AWS lançou 3 ferramentas focadas no desenvolvedor com objetivo de fechar o 'ciclo' de dev: AWS CodePipeline, AWS CodeCommit e o AWS CodeDeploy. O CodeCommit é basicamente um 'github' onde pode colocar o seu código, o Pipeline serve para 'continuous delivery'. Mas o grande destaque é o CodeDeploy. A estória contada é que ele é um clone do projeto interno 'Amazon Apollo' que faz o que o nome diz: deploy do código :). Em ambos os keynotes, foi falado que quando um desenvolvedor deixa a Amazon o que sente mais falta é do 'Apollo'. Vale conferir; 
AWS Key Management Service: serviço que guarda as chaves criptográficas que podem ser usadas no S3, EBS e Redshift para encriptar o conteúdo. A idéia é sempre melhorar no quesito segurança e dar insumos para proteger ainda mais a sua infraestrutura; 
AWS Config: inventário de todos os seus componentes no cloud com histórico de mudanças. Se pensou em ITIL, o AWS já chama cada componente de 'CI' e gera este catálogo automaticamente mediante ativação. Julgamos ser um serviço essencial para qualquer cliente que use o AWS; 
AWS Service Catalog: criação de catálogos de recursos que os usuários podem usar e stacks que podem fazer deploy. O objetivo é padronizar o uso do AWS dentro da organização de forma que times diferentes usem os mesmos conjuntos de componentes. Previsto para o começo de 2015; 
EC2 Container Service (ECS): aderindo a febre (e real benefício) dos containers, este serviço permite que gerencie uma aplicação distribuida construida nos containers Docker dentro da estrutura de servidores EC2. Foi feita uma demonstração muito interessante do deploy de dezenas de containers em diversos servidores combinado com o recurso do AutoScaling. Ainda em preview, é necessário pedir para participar; 
AWS Lambda: sem sombra de dúvidas, o serviço mais 'revolucionário'. O AWS está evoluindo para ser um cloud orientado a eventos (um novo arquivo S3, um servidor EC2 que foi rebootado, um registro atualizado no DynamoDB, etc) e com isto seremos capazes de reagir a cada um deles associando uma função. Você escreve um código (por enquanto somente Javascript/Node.js) que pega os detalhes do evento e processa quaisquer ações dentro do Cloud, desde que tenha permissão. A ruptura é que para casos de uso puramente funcionais, não é necessário mais uma instância EC2 para executar um simples pedaço de código! Com o Lambda os eventos são executados instantaneamente e maciçamente em paralelo. É fácil imaginar a diminuição de complexidade e ganho de produtividade imediatos. Ainda em beta privado, é necessário pedir permissão para participar; 
Novas instâncias C4. Os maiores servidores virtuais do mercado com suporte até 36 cores. No evento a própria Intel revelou que um novo processador foi criado especificamente (e por enquanto exclusivamente) para o AWS rodar workloads gigantes;
EBS com 16TB: muito esperado por todos, será possível em breve ter discos de até 16 TB com até 20.000 Iops (hoje só se chega até 1 TB). Diminui muito a necessidade de se criar RAID 1+0 para grandes partições!
Observem o enfoque em lançamentos relacionados ao que há de mais recente em tecnologias para desenvolvimento de aplicações (seguindo a tendência DevOps e os princípios do ITIL) e serviços de infraestrutura (Docker ataca novamente!).

As apresentações estão no Youtube e Slideshare. Muita coisa interessante. Muita mesmo!

Aviso: a partir deste ponto :)

Confesso que esse tipo de coisa me dá uma certa angústia, pois me lembra que, enquanto toda esta tecnologia e inovação está disponível mundialmente, em terras tupiniquins tem muita gente que poderia aproveitar tudo isso como oportunidade de mudança (pra melhor!), mas se contenta em "pegar um canudo na facul" e reclamar do mercado.

O mercado é global, as tecnologias estão disponíveis, e no caso da Amazon, você tem 1 ano (UM ANO INTEIRO!) pra testar, aprender e descobrir como utilizar a tecnologia a seu favor, sem custo (desde que tome alguns cuidados).

Por isso, pare de reclamar e comece a mudar sua realidade. Não é tão difícil quanto parece!

Você não imagina o quão barato foi montar este site aqui, por exemplo. A bem da verdade, se eu fosse desenvolvedor, teria saído de graça!

Aos que têm a motivação necessária, deixo aqui o convite pra colocar seus comentários abaixo, e prometo ajudar da melhor forma que puder.

ps: não ganho nada da Amazon por divulgar os serviços dela, e se tiverem informações de outros provedores, ficarei feliz em compartilhar também.

segunda-feira, 10 de novembro de 2014

O Melhor do Cinema - Descubra os Filmes que Vale a Pena Assistir!

O Melhor do Cinema - Descubra os Filmes que Vale a Pena Assistir!

Peço licença pra falar aqui de um projeto paralelo que venho desenvolvendo há algum tempo, e que busca resolver um problema que me incomodava há anos, e acredito incomode muitos de vocês também.

O fato é que, mesmo conhecendo e usando IMDB, Rotten Tomatoes e uma série de sites nacionais e internacionais sobre cinema, sentia que algo estava faltando, principalmente quando precisava navegar horas em sites sobre filmes, tentando identificar a qualidade dos filmes listados (geralmente através da nota no IMDB) pra decidir se valia a pena assistir ou não.

Daí surgiu a idéia de criar uma ferramenta que facilitasse a busca dos melhores filmes pra assistir.

Depois de tentar várias alternativas de API e contactar muitos profissionais, acumulando mais de um ano entre expectativas e frustações, finalmente encontrei um profissional capaz de desenvolver o que precisava. E o resultado vocês podem conferir clicando aqui.

Como o foco era resolver meu problema específico, inicialmente me contentei em fazer buscas por gênero e notas dos filmes. Mas ao apresentar o protótipo aos meus contatos, obtive uma verdadeira avalanche de feedbacks (pelos quais agradeço imensamente!) que culminaram com o desenvolvimento de muitos outros recursos, que atualmente permitem fazer buscas bem mais interessantes, como os exemplos a seguir:
  • Busca por nome do filme (português e inglês);
  • Melhores filmes de 2014, ou da última década;
  • Melhores filmes de comédia de 2013;
  • Melhores filmes com Angelina Jolie nos últimos 5 anos;
  • Melhores filmes de Quentin Tarantino dos últimos 10 anos;
  • Melhores filmes de terror dos últimos 5 anos com um mínimo de 100 votos;
  • Filmes de drama dos últimos 20 anos com nota 8 ou superior;
  • Qualquer combinação dos exemplos acima :)

Note que os filmes são sempre ordenados da maior para a menor nota, o que significa que você obtém sempre os "melhores filmes", de acordo com os critérios indicados para a busca.

Ainda há alguns probleminhas a resolver, como o fato de que os resultados vêm quase sempre em inglês, mas clicando na imagem do filme os detalhes estão todos em português.

De quebra, este projeto serve pra mostrar que, por mais que algumas vezes pareça que tudo que podia ser feito já foi feito, se pensarmos sobre nossas próprias necessidades, fica até fácil identificar oportunidades de melhorar o que já existe.

Não paro de pensar porque nenhum site de cinema oferece estas opções de busca tão úteis (de repente há algum que oferece e eu é que não consegui descobrir. Sei lá...).

O que importa é que o serviço está aí, faça bom proveito, divulgue se achar legal, e deixe seu comentário, crítica ou sugestão abaixo.

Colabore com o Tecnologia que Interessa!

Escreva para o Tecnologia que Interessa!

Andei refletindo sobre o blog recentemente.

No quanto este espaço me foi (e ainda é) útil, me transformando de spammer a referência profissional para muitos, "filtro da web" para outros, coach de carreira para outros tantos, etc :)

Na marca que construí nestes quase 7 anos (pois é, 7 anos!).

Nos valiosos contatos que fiz a partir de comentários em posts (até patrocínio consegui!).

No quanto me desenvolvi pessoal e profissionalmente.

E tudo através do simples compartilhamento de informações.

Sempre acreditei que compartilhar conhecimento só traz benefícios para todos os envolvidos. Quanto mais compartilhamos, mais aprendemos, evoluímos e melhoramos. Por isso me tornei professor.

Desde sempre compartilhei aqui no blog dicas de amigos que julgasse relevantes para você. Não raro recebo emails com informações interessantes, que infelizmente não tenho tido tempo suficiente para analisar, comentar e publicar aqui.

É por tudo isso que decidi compartilhar este espaço com você, para que possa obter os mesmos benefícios que eu obtive, além de muitos outros que certamente virão com o tempo. E de quebra você me ajuda a dar conta deste volume gigantesco de informação que temos que lidar atualmente.

Fica portanto o convite para que seja um colaborador do Tecnologia que Interessa!, e tenha seus textos publicados aqui com exclusividade, levando seu conhecimento a milhares de leitores.

Posso ajudar indicando fontes de informação sobre muitos temas atuais, que certamente interessam muito aos leitores (e ao colaborador, claro!), mas que infelizmente não tenho conseguido dar conta em virtude do alto volume de informações envolvido (não é a toa que tenho estudado muito sobre Big Data :).

Caso tenha interesse, entre em contato aqui pelos comentários, envie um email, tweet, mensagem no facebook, etc, e vamos discutir os detalhes da sua colaboração.

quarta-feira, 5 de novembro de 2014

A lista de defeitos do Google Inbox

Inbox by GMail - A caixa de entrada que funciona pra você

Já compartilhei aqui minhas primeiras impressões sobre o Google Inbox, mas confesso que após usar por mais alguns dias, a sensação é de decepção. A impressão inicial se confirmou, e está claro pra mim que a Google poderia deveria ter feito um trabalho melhor.

A idéia de tratar mensagens como tarefas e destacar anexos relevantes é excelente, mas é pouco quando se avalia que é possível obter resultados melhores utilizando extensões do Chrome em conjunto com o GMail.

Por isso, resolvi listar os (graves) defeitos que acredito poderiam ter sido evitados:

Marcar como não lida

Um defeito grave que faz com que quem lida com muitas mensagens diariamente (meu caso) e precise interromper a leitura para retomar depois fique prejudicado, pois uma mensagem não lida chama mais a atenção que uma mensagem lida, mesmo que continue na caixa de entrada. Marco mensagens como não lidas com frequência, e não poder fazer isso no Inbox me aborrece.

Navegar entre mensagens

Não ter uma opção para passar de uma mensagem pra outra automaticamente quando se marca a mensagem como concluída ou apaga é simplesmente irritante pra quem estava acostumado com o GMail. Verdade que é possível simplesmente rolar a página e clicar na próxima mensagem logo abaixo, mas uma vez tomada uma ação sobre uma mensagem, é natural esperar que a próxima seja visualizada.

Assinatura

Minha assinatura é meu cartão de visitas, por isso considero a ausência de suporte a este recurso um defeito grave, que prejudica bastante meu networking.

Labs, especialmente o Quick Links

Fiquei simplesmente viciado num dos melhores labs que o GMail possui, IMHO, que é o Quick Links. Uso muito o recurso de pesquisar, pois as centenas de milhares de mensagens que tenho no GMail são uma valiosa base de dados, e por isso ter à mão um link que me leva diretamente pra lista de mensagens com determinadas características é extremamente útil.

Convites (muito) limitados

Entendo perfeitamente o aspecto "marqueteiro" da iniciativa, eu faria a mesma coisa com O Melhor do Cinema, se pudesse. Mas 3 convites é muito pouco. Chame de mimimi, mas a idéia de convites tão restritos não me agrada.

E você, já teve a oportunidade de testar o Inbox ? Que defeitos encontrou ?

Update! Não envio de mensagens pra grupos

Esqueci completamente de mencionar este defeito gravíssississimo!!! Ao enviar uma mensagem, percebi que não autocompletava os grupos que havia criado, mas imaginei que seriam substituídos pelos círculos do Google+. Nada! Simplesmente temos que nos contentar em enviar mensagens individualmente. Inaceitável :(

segunda-feira, 3 de novembro de 2014

Google Rappor promete privacidade na coleta de dados dos usuários


A Big G liberou recentemente uma ferramenta chamada Rappor (Randomised Aggregatable Privacy-Preserving Ordinal Response), que promete facilitar a vida de quem precisa de dados coletados através de apps. navegadores, etc, mas tem que atender às necessidades de privacidade dos usuários.

A idéia é obter estatísticas estimadas através do que denominaram "privacidade diferencial", que seria uma forma segura de garantir a privacidade individual, ao mesmo tempo que permitiria a obtenção de dados estatísticos sobre um conjunto de indivíduos.

O processo de coleta de dados funciona com base na chamada "resposta aleatorizada aleatória", onde o dado solicitado pode ser real ou fictício, a depender do resultado de uma operação aleatória, como jogar uma moeda.

Assim, imagine que o Google quer saber se você tem uma certa extensão instalada no Chrome. O navegador então "jogaria a moeda", e responderia a verdade, caso o resultado fosse cara. Se o resultado fosse coroa, o navegador responderia sim.

A consequência disso é que os resultados "SIM" serão maioria, porém, considerando que a probabilidade de ocorrência de cara ou coroa é a mesma (50%), é possível estimar a quantidade de usuários que efetivamente teriam a tal extensão instalada no navegador, a partir das respostas sim que excederem o percentual de 50%. Porém, não seria possível revelar exatamente quem tem e quem não tem a extensão, garantindo assim a privacidade do indivíduo.

Com a necessidade de conhecer cada vez melhor o perfil dos usuários (a Google criou a ferramenta para analisar comportamento malicioso no Chrome, mas já tem gente visualizando uso em áreas como marketing), e com a preocupação com privacidade em alta, é natural que se busquem alternativas para viabilizar a coleta de dados sem prejuízo da privacidade dos usuários.

A grande questão, na minha opinião, se deve à falta de credibilidade de grandes empresas quando se trata do quesito privacidade. Seria o Rappor uma iniciativa louvável realmente, ou apenas [mode paranóia ON] uma maneira de maquiar a coleta de dados para entregar ao FBI e NSA ? [mode paranóia OFF].

E você ? O que acha da idéia de uma ferramenta engenhosa como esta ?