R no Hadoop e R Idioma

A disciplina de aprendizado de máquina tem um catálogo rico e extenso de técnicas. Mahout traz uma gama de ferramentas estatísticas e algoritmos para a mesa, mas só captura uma fração dessas técnicas e algoritmos, como a tarefa de converter esses modelos para um quadro MapReduce é um desafio.

Com o tempo, Mahout é certeza de continuar a expandir a sua caixa de ferramentas de estatística, mas até então todos os cientistas e estatísticos para fora lá de dados precisa estar ciente de software de modelagem estatística alternativa - que é onde R entra.

A linguagem R é um ambiente de linguagem e desenvolvimento estatístico de código aberto poderoso e popular. Ele oferece um ecossistema análises ricas que podem ajudar os cientistas de dados com a exploração de dados, visualização, análise estatística e computação, modelagem, aprendizagem de máquina, e simulação. A linguagem R é comumente usado por estatísticos, mineiros de dados, analistas de dados e (hoje em dia), os cientistas de dados.

os programadores R têm acesso ao Rede Comprehensive R Archive (CRAN) bibliotecas que, a partir do momento da redação deste artigo, contém mais de 3000 pacotes de análise estatística. Esses complementos podem ser retirados em qualquer projeto R, fornecendo ferramentas analíticas ricos para a execução de classificação, regressão, clustering, modelagem linear e algoritmos de aprendizado de máquina mais especializadas.

A linguagem é acessível para quem está familiarizado com simples tipos de estrutura de dados - vetores, escalares, quadros de dados (matrizes), e afins - comumente usados ​​pelos estatísticos, bem como programadores.

Fora da caixa, uma das principais armadilhas com o uso da linguagem R é a falta de apoio que oferece para a execução de tarefas simultâneas. ferramentas de linguagem estatísticos como R sobressair em análise rigorosa, mas falta escalabilidade e suporte nativo para computações paralelas.

Estes sistemas são não-distribuível e não foram desenvolvidos para ser escalável para o petabyte-mundo moderno de big data. Propostas para superar estas limitações devem alargar o âmbito do R para além do carregamento de memória e ambientes de execução único computador, mantendo o talento de R para os algoritmos estatísticos facilmente implementáveis.

menu