Escolhendo os Idiomas melhor programação para Ciência de Dados

Codificação é uma das habilidades primárias na caixa de ferramentas de um cientista de dados. Algumas aplicações incrivelmente poderosas têm feito com sucesso acabar com a necessidade de codificar em alguns contextos a ciência de dados, mas você nunca vai ser capaz de usar esses aplicativos para análise personalizada e visualização. Para tarefas avançadas, você vai ter que codificar as coisas por si mesmo, usando a linguagem de programação Python ou a linguagem de programação R.

Usando Python para a ciência de dados

Python é uma linguagem de programação fácil de aprender, legível que você pode usar para munging avançada de dados, análise e visualização. Você pode instalá-lo e configurá-lo incrivelmente fácil, e você pode mais facilmente aprender Python do que a linguagem de programação R. Python é executado no Mac, Windows e UNIX.

IPython oferece uma interface de codificação muito amigável para as pessoas que não gostam de codificação a partir da linha de comando. Se você baixar e instalar o distribuição Anaconda Python, você começa seu ambiente IPython, bem como a pilha NumPy, que inclui as bibliotecas NumPy, SciPy, matplotlib, e pandas que é provável que você precisa em seus processos de tomada de senso de dados.

O pacote base NumPy é um facilitador óptimo para computação científica em Python porque fornece contentores estruturas / matriz que você pode usar para fazer cálculos com ambos os vetores e matrizes (como em R) .SciPy é a biblioteca Python que é mais comumente usado para científica e computação técnica. Dispõe de toneladas de algoritmos matemáticos que simplesmente não estão disponíveis em outras funcionalidades libraries.Popular incluem clustering, álgebra linear e cálculo matricial, funcionalidades de matrizes esparsas, análise espacial, e statistics.MatPlotLib é estréia biblioteca de visualização de dados do Python. Por último, a biblioteca pandas é útil para tarefas MUNGING dados.

Usando R para a ciência de dados

R é uma outra linguagem de programação popular que é usado para computação estatística e científica. Escrever análise e visualização de rotinas em R é conhecido como R scripting. R foi desenvolvido especificamente para computação estatística e, consequentemente, tem uma oferta mais abundante de pacotes de computação estatística de código aberto do que as ofertas do Python. Além disso, as capacidades de visualização de dados do R são mais sofisticados do que Python. Dito isto, Python é um bocado mais fácil de aprender e usar.

R tem uma comunidade de usuários muito grande e extremamente ativo. Os desenvolvedores estão chegando com (e compartilhando) novos pacotes todo o tempo - para mencionar apenas alguns, o previsão embalagem, o ggplot2 pacote, ea statnet / IGRAPH pacotes. Se você quer fazer análise preditiva e previsão em R, a previsão pacote é um bom lugar para começar. Este pacote oferece a ARMA, AR, e os métodos de suavização exponencial.

Para visualização de dados, você pode usar o ggplot2 pacote, que tem todos os tipos de gráficos de dados padrão, além de muito mais. Por último, pacotes de análise de rede do R são muito especial também. Por exemplo, você pode usar IGRAPH e StatNet para análise de redes sociais, mapeamento genético, planejamento de tráfego, e até mesmo a modelagem hidráulica.

menu