segunda-feira, 30 de julho de 2012

#FISL 13: Mineração livre de dados

O Mauríco e o Adewale são baianos, estudam na UFBA, e apresentaram o software WEKA - Waikato Environment for Knowledge Analysis, uma ferramenta muito interessante para mineração de dados. Vamos às observações sobre a palestra.

  • Os palestrantes apresentaram a OxenTI, a empresa deles, que fornece serviços em mineração de dados e áreas correlatas;
  • "Lei de Moore" diz que o processamento dobra a cada 18 meses, mas a capacidade de armazenamento dobra a cada 10 meses, o que gera um descompasso entre a capacidade de produzir e tratar os dados;
  • Knowledge Data Discovery (KDD) é o processo de extração de informação de bases de dados e criação de relações de interesse não percebidas "a olho nú";
  • Tarefas envolvidas no processo de KDD
    • Associação de dados - ex:clientes que compram pão também compram leite;
    • Padrões sequenciais - ex: alguém compra um carro, e 6 meses depois compra pneus;
    • Classificação e predição;
    • Análise de clusters - agrupar informações com base em comportamentos;
    • Análise de outliers - identificar informações fora do padrão.
  • Técnicas utilizadas
    • Árvore de decisão - árvore que estabelece um processo evolutivo que leva a uma decisão com base na relação entre as informações;
    • Redes neurais;
  • O WEKA
    • Desenvolvido em Java, pela Universidade Waikato, na Nova Zelândia;
    • É também conhecido como Pentaho Data Mining;
    • Oferece recursos de data mining e machine learning, permitindo realizar análises de dados de forma simples;
    • Possui diversos módulos, e uma interface intuitiva de fácil utilização (abaixo uma tela de exemplo);
    • Há extensa documentação da ferramenta e uma lista de distribuição.

Fiquei bem impressionado com o software, especialmente pela facilidade para importar dados a partir de arquivos CSV ou ARFF, bem como para realizar as análises, bastando selecionar os atributos de interesse e, claro, conhecer os algoritmos (são muitos!) que se aplicam ao conjunto de dados em questão. Pretendo aprofundar os estudos na ferramenta o quanto antes.

Nenhum comentário:

Postar um comentário