Ciência dados For Dummies

Computadores e Software / Big Data / Ciência dados

Tradicionalmente, big Data

Ciência de dados e engenharia de dados não são os mesmos
Ciência de dados e inteligência de negócios também não são os mesmos
Olhando para as noções básicas de estatística, machine learning e métodos matemáticos em ciência de dados
Vendo a importância da estatística know-how
Trabalhando com clustering, classificação e métodos de aprendizado de máquina
Mantendo métodos matemáticos na mistura
Usando técnicas de visualização para comunicar insights ciência dados
Olhando para o seu conjunto de ferramentas de codificação
Trabalhar com aplicações baseadas na web
Indo com painéis de análise
Aproveitando geographic information systems software (sig)
Olhando para as mecânica implica fazer ciência de dados
Trabalhando com r
Usando sql em um contexto de ciência de dados
Mantendo codificação para um mínimo

é o termo para dados que tem incrível volume, velocidade e variedade. tecnologias de banco de dados tradicionais não são capazes de lidar com grandes dados - soluções de engenharia de dados mais inovadoras são necessárias. Para avaliar o seu projeto para saber se ele se qualifica como um projeto de dados grande, considerar os seguintes critérios:

Volume: Entre 1 terabytes / ano e 10 petabytes / ano
Velocidade: Entre 30 kilobytes / segundo e 30 gigabytes / segundo
Variedade: fontes combinadas de dados não estruturados, semi-estruturados e estruturado

ciência de dados e engenharia de dados não são os mesmos

Os gerentes de contratação tendem a confundir os papéis do cientista de dados e engenheiro de dados. Embora seja possível encontrar alguém que faz um pouco de ambos, cada campo é incrivelmente complexa. É improvável que você vai encontrar alguém com habilidades robustos e experiência em ambas as áreas. Por esta razão, é importante ser capaz de identificar que tipo de especialista é mais adequada para ajudar você a atingir seus objetivos específicos. As descrições abaixo devem ajudá-lo a fazer isso.

cientistas de dados: cientistas de dados usam codificação, métodos quantitativos (matemática, estatística e aprendizagem de máquina), e conhecimentos altamente especializados em sua área de estudo para obter soluções para negócios complexos e problemas científicos.
engenheiros de dados: engenheiros de dados usar suas habilidades em ciência da computação e engenharia de software para projetar sistemas para e resolver problemas com, manusear e manipular grandes conjuntos de dados.

ciência de dados e inteligência de negócios também não são os mesmos

cientistas de dados de empresas-centric e analistas de negócios que fazem inteligência de negócios são como primos. Ambos os tipos de dados sobre o uso de especialista para alcançar os mesmos objetivos de negócio, mas as suas abordagens, tecnologias e funções são diferentes. As descrições abaixo esclarecer as diferenças entre os dois papéis.

inteligência de negócios (BI): As soluções de BI são geralmente construídos utilizando conjuntos de dados gerados internamente - de dentro de uma organização e não de fora, em outras palavras. ferramentas e tecnologias comuns incluem processamento analítico online, transformar extracto e de carga e armazenamento de dados. Apesar de BI às vezes envolve o futuro métodos como previsão, estes métodos são baseados em inferências matemáticas simples a partir de dados históricos ou atuais.
ciência dados de negócios centrada: soluções de ciências dados de negócios centrados são construídos utilizando conjuntos de dados que são tanto interno como externo a uma organização. ferramentas comuns, tecnologias e qualificações incluem plataformas de análise baseados em nuvem, programação estatística e matemática, aprendizagem de máquina, análise de dados usando Python e R, e visualização de dados avançados. cientistas de dados de empresas-centric usar métodos matemáticos ou estatísticos avançados para analisar e gerar previsões de grandes quantidades de dados de negócios.

Olhando para as noções básicas de Estatística, Machine Learning e Métodos Matemáticos em Ciência de Dados

Se as estatísticas tem sido descrita como a ciência de derivar insights de dados, então o que é a diferença entre um estatístico e cientista de dados? Boa pergunta! Enquanto muitas tarefas na ciência de dados requer um pouco de conhecimento estatístico como, o âmbito ea amplitude da base de conhecimento e habilidade de um cientista de dados é diferente dos de um estatístico. As distinções fundamentais são descritos abaixo.

Assunto perícia da matéria: Uma das características principais de cientistas de dados é que eles oferecem um grau sofisticado de experiência na área a que se aplicam os métodos analíticos. cientistas de dados precisam isso para que eles são capazes de compreender verdadeiramente as implicações e aplicações dos conhecimentos de dados que eles geram. Um cientista de dados deve ter o suficiente experiência sobre o assunto para ser capaz de identificar o significado de suas descobertas e independentemente decidir como proceder na análise.
Em contraste, os estatísticos geralmente têm um incrivelmente profundo conhecimento das estatísticas, mas muito pouca experiência nas matérias a que se aplicam métodos estatísticos. Na maioria das vezes, os estatísticos são obrigados a consultar com especialistas no assunto externos para realmente obter um aperto firme sobre o significado de seus resultados, e para ser capaz de decidir a melhor maneira de avançar em uma análise.
Matemáticas e de aprendizado de máquina abordagens: Os estatísticos dependem principalmente sobre os métodos e processos estatísticos ao derivar insights de dados. Em contraste, os cientistas de dados são necessárias para puxar a partir de uma grande variedade de técnicas para derivar percepções de dados. Estes incluem métodos estatísticos, mas também incluem abordagens que não são baseadas em estatísticas - como os encontrados em matemática, clustering, classificação, e abordagens de aprendizado de máquina não estatísticos.

Vendo a importância da estatística know-how

Você não precisa ir para fora e obter um diploma em estatísticas para a prática de ciência de dados, mas você deve, pelo menos, se familiarizar com alguns dos métodos mais fundamentais que são usados na análise estatística dos dados. Esses incluem:

Regressão linear: Regressão linear é útil para modelar as relações entre uma variável dependente e uma ou várias variáveis independentes. O objetivo da regressão linear é descobrir (e quantificar a força da) correlações importantes entre as variáveis dependentes e independentes.
análise de séries temporais: análise de séries temporais envolve a análise de um conjunto de dados sobre valores de atributos ao longo do tempo, a fim de prever futuras instâncias da medida com base nos últimos dados observacionais.
simulações de Monte Carlo: O método de Monte Carlo é uma técnica de simulação você pode usar para testar hipóteses, para gerar estimativas de parâmetros, para prever resultados de cenários, e validar modelos. O método é eficaz porque pode ser usado para simular qualquer lugar muito rapidamente a partir de 1 a 10000 (ou mais) amostras de simulação para qualquer processo que está a tentar avaliar.
Estatísticas de dados espaciais: Uma propriedade fundamental e importante de dados espaciais é que não é aleatória. É espacialmente dependente e autocorrelacionadas. Ao modelar dados espaciais, evitar métodos estatísticos que assumem os seus dados é aleatória. Kriging e Krige dois métodos estatísticos que podem ser usados para modelar dados espaciais. Estes métodos permitem-lhe produzir superfícies preditivos para áreas de estudo inteiros com base em conjuntos de pontos conhecidos no espaço geográfico.

Trabalhando com clustering, classificação e métodos de aprendizado de máquina

aprendizagem de máquina é a aplicação de algoritmos computacionais para aprender (ou deduzir padrões in) conjuntos de dados brutos. Clustering é um tipo específico de aprendizagem de máquina -sem supervisão aprendizagem de máquina, para ser mais preciso, o que significa que os algoritmos devem aprender a partir de dados não marcados, e, como tal, devem utilizar métodos de inferência para descobrir correlações.

Classificação, Por outro lado, é chamado de aprendizagem supervisionada máquina, o que significa que os algoritmos de aprender a partir de dados rotulados. As descrições a seguir apresentamos algumas das agrupamento e classificação abordagens mais básicas:

k-means clustering: Você geralmente implantar k-meios algoritmos para subdividir os pontos de dados de um conjunto de dados em clusters com base em valores médios mais próximos. Para determinar a divisão ideal de seus pontos de dados em clusters, de tal forma que a distância entre os pontos em cada cluster é minimizado, você pode usar k-means clustering.
Mais perto de algoritmos vizinhos: O propósito de uma análise do vizinho mais próximo é o de procurar e localizar ou um ponto mais próximo no espaço ou um valor numérico mais próximo, dependendo do atributo que você usar para a base de comparação.
estimativa da densidade Kernel: Uma forma alternativa para identificar agrupamentos em seus dados é usar uma função de alisamento densidade. estimativa da densidade Kernel (KDE) funciona através da colocação de um núcleo uma função de ponderação que é útil para quantificar a densidade - em cada ponto de dados no conjunto de dados e, em seguida, somando os kernels para gerar uma estimativa de densidade de kernel para a região em geral.

Mantendo métodos matemáticos na mistura

Lotes fica dito sobre o valor das estatísticas na prática da ciência de dados, mas aplicados métodos matemáticos são raramente mencionados. Para ser franco, a matemática é a base de todas as análises quantitativas. A sua importância não deve ser subestimado. Os dois seguintes métodos matemáticos são particularmente úteis na ciência de dados.

Multi-critério tomada de decisão (MCDM): MCDM é abordagem de modelagem decisão amathematical que você pode usar quando você tem vários critérios ou alternativas que você deve avaliar simultaneamente quando tomar uma decisão.
cadeias de Markov: A cadeia de Markov é um método matemático que as cadeias em conjunto uma série de variáveis geradas aleatoriamente que representam o estado atual, a fim de modelar como as mudanças em variáveis de estado presentes afetam os estados futuros.

Usando técnicas de visualização para comunicar Insights Ciência dados

Todas as informações e visão do mundo é inútil se não pode ser comunicada. Se os cientistas de dados não podem comunicar claramente as suas conclusões aos outros, potencialmente valiosas percepções de dados pode permanecer inexplorado.

Seguindo claras e específicas melhores práticas em design de visualização de dados pode ajudar a desenvolver visualizações que se comunicam de uma forma que é altamente relevante e valiosa para as partes interessadas para quem você está trabalhando. O que se segue é um breve resumo de algumas das melhores práticas mais importantes no projeto de visualização de dados.

Conheça seu público-alvo: Desde visualizações de dados são projetados para todo um espectro de diferentes públicos, diferentes propósitos e diferentes níveis de habilidade, o primeiro passo para projetar uma grande visualização de dados é conhecer o seu público. Uma vez que cada público será composto de uma única classe de consumidores, cada um com as suas necessidades de visualização de dados únicos, é essencial para esclarecer exatamente para quem você está projetando.
Escolha estilos de design adequado: Depois de considerar o seu público, escolhendo o estilo de design mais adequada também é crítica. Se seu objetivo é atrair o seu público a tomar um mergulho analítica mais profunda, mais para a visualização, em seguida, usar um estilo de design que induz um cálculo ea resposta exigente em seus telespectadores. Se você quiser que o seu visualização de dados para alimentar a paixão de seu público, usar um estilo de design emocionalmente convincente em seu lugar.
Escolha os tipos de gráficos de dados inteligentes: Por último, certifique-se de escolher tipos de gráficos que mostram dramaticamente as tendências de dados que você está procurando revelar. Você pode exibir a mesma tendência dos dados de muitas maneiras, mas alguns métodos de entregar uma mensagem visual de forma mais eficaz do que outros. Escolha o tipo de gráfico que oferece mais diretamente uma mensagem visual claro e abrangente.

Olhando para o seu conjunto de ferramentas de codificação

D3.js é a linguagem de programação perfeito para a construção de visualizações baseadas na web dinâmicas e interativas. Se você já é um programador web, ou se você não se importa tomar o tempo necessário para chegar até a velocidade em Noções básicas de HTML, CSS e javascript, então é um acéfalo: Usando D3.js para projetar interativo web-based visualizações de dados é certeza de ser a solução perfeita para muitos dos seus problemas de visualização.

Trabalhar com aplicações baseadas na web

Se você não tem tempo ou energia para entrar na codificação de seu próprio visualização de dados feitos por medida, não medo - existem algumas surpreendentes aplicações on-line disponíveis para ajudá-lo a fazer o trabalho em nenhum momento. A lista a seguir detalha algumas excelentes alternativas.

Watson Analytics: Watson Analytics é a primeira solução a ciência dados e análises em larga escala que foi feito disponível como uma oferta baseada em nuvem 100%. Watson Analytics foi construído com o objetivo de democratizar o poder da ciência de dados. É uma plataforma onde os usuários de todos os níveis podem ir para o acesso, refinar, descubra, visualize, relatório, e colaborar em percepções orientadas a dados.
CartoDB: Para os não-programadores ou não-cartógrafos, CartoDB é sobre o mais poderoso solução de tomada de mapa que está disponível online. É usado para comunicações visuais digitais por pessoas de todos os tipos de indústrias - incluindo serviços de informação, engenharia de software, mídia e entretenimento, e desenvolvimento urbano.
Piktochart: A aplicação web Piktochart fornece uma interface fácil de usar para a criação de belas infográficos. A aplicação oferece uma grande variedade de atrativos, modelos de design profissional. Com Piktochart, você pode fazer infográficos estáticos ou dinâmicos.

Indo com painéis de análise

Quando a palavra # 147-dashboard # 148- surge, muitas pessoas associam-lo com soluções de inteligência de negócios à moda antiga. Esta associação está com defeito. Um painel é apenas outra maneira de usar métodos de visualização para comunicar idéias de dados.

Embora seja verdade que você pode usar um painel para comunicar os resultados que são gerados a partir de inteligência de negócios, você também pode usá-los para se comunicar e entregar informações valiosas que são derivados de ciência de dados centrada nos negócios. Só porque painéis têm sido em torno de algum tempo, eles não devem ser desconsideradas como ferramentas eficazes para comunicar valiosas percepções de dados.

Aproveitando Geographic Information Systems software (SIG)

sistemas de informação geográfica (GIS) é outro recurso subestimado na ciência de dados. Quando você precisa descobrir e quantificar as tendências baseados em localização em seu conjunto de dados, GIS é a solução perfeita para o trabalho. Os mapas são uma forma de visualização de dados espaciais que você pode gerar usando GIS, mas software GIS também é bom para formas mais avançadas de análise e visualização. As duas soluções GIS mais populares são detalhados abaixo.

ArcGIS Desktop: ArcGIS proprietário para desktop é a aplicação de tomada de mapa mais amplamente utilizado.
QGIS:Se você não tem o dinheiro para investir em ArcGIS Desktop, você pode usar open-source QGIS para realizar a maioria das mesmas metas de graça.

Olhando para as Mecânica implica fazer ciência de dados

Se você estiver realmente interessado em ciência de dados, você deve realmente fazer um esforço para dominar Python, definitivamente, a linguagem de programação mais fácil para a ciência de dados. Python é uma linguagem de programação orientada a objeto que é perfeito para fácil processamento de dados, análise e visualização.

Python é uma das linguagens de programação mais populares. Isso é porque é relativamente fácil de dominar e porque permite aos usuários realizar várias tarefas com apenas algumas linhas de código. O seguinte é uma lista de três bibliotecas Python que são mais úteis e relevantes na prática da ciência dados.

NumPy: o Numpy pacote está na raiz de quase todos os cálculos numéricos em Python. Isso é porque NumPy oferece aos usuários uma maneira de criar objetos de matriz multi-dimensional em Python.
SciPy:SciPy é construída em cima de, e estende as capacidades de, a NumPy pacote. SciPy é um conjunto de algoritmos matemáticos e funções sofisticadas que você pode usar para quantização vetorial, funções estatísticas, n-dimensional operações de imagem, rotinas de integração, ferramentas de interpolação, álgebra linear esparsa, solucionadores lineares, ferramentas de otimização, ferramentas de processamento de sinal, matrizes esparsas, e muitas outras utilidades que não são servidas por outras bibliotecas Python.
matplotlib: matplotlib é construído em cima de NumPy e SciPy. Use o matplotlib biblioteca quando você quer criar representações visuais de seu conjunto de dados ou análise de dados descobertas.

Trabalhando com R

Para aqueles que não sabem, R é uma fonte aberta, sistema de software estatístico livre que é amplamente adotado em todo o setor de ciência de dados. Sim, não é tão fácil de aprender como Python, mas pode ser muito mais poderoso para determinados tipos de análises estatísticas avançadas. Ele também tem capacidades particularmente avançadas de visualização de dados. O seguinte é uma lista de três pacotes R que são particularmente úteis na prática da ciência dados.

Previsão: o previsão pacote contém várias funções de previsão que você pode adaptar para usar para ARIMA, ou para outros tipos de previsões de séries temporais univariadas.
Mlogit: Um modelo logit multinominal é uma em que as observações de uma classe conhecida são usados para # 147-train # 148- o software para que ele possa identificar classes de outras observações cujas aulas são desconhecidos. Se você quiser realizar regressão logística em R, você pode usar o pacote logit multinomial.
ggplot2: o ggplot2 pacote é o pacote essencial de visualização de dados em R. Oferece-lhe uma maneira de criar todos os diferentes tipos de gráficos de dados, incluindo histogramas, gráficos de dispersão, gráficos de barras, gráficos de caixas, e parcelas de densidade. Ele oferece uma ampla variedade de opções de design - incluindo opções em cores, layout, transparência e densidade de linha.

Usando SQL em um contexto de ciência de dados

Structured Query Language (SQL) é um conjunto de regras que você pode usar para rapidamente e eficientemente consultar, atualizar, modificar, adicionar ou remover dados de bancos de dados grandes e complexos. É útil na ciência de dados quando você precisa fazer alguma rápida consulta e manipulação de dados.

Consultando os registos de dados e filtragem: Em SQL, você usa o SELECIONAR funcionar para consultar um conjunto de dados. Se você, em seguida, usar o ONDE argumento, você pode limitar a saída de consulta para apenas os registros que atendem aos critérios especificados. Esta é uma maneira de usar o SQL para consultar e filtrar dados.
Agregação de dados: Se você quiser agregar seus dados usando SQL, você pode usar o GROUP BY declaração para agrupar o conjunto de dados de acordo com os valores dos atributos comuns.

Mantendo codificação para um mínimo

Se você não estiver a fim de codificação de coisas para si mesmo, você pode tentar concluir um projeto usando aplicações de software off-the-shelf em vez disso. Você pode usar os dois seguintes aplicativos de desktop para executar tarefas avançadas de ciência de dados sem ter que aprender a código.

Microsoft Excel: Embora seja uma aplicação de software um pouco simples, Microsoft Excel pode ser bastante útil na prática da ciência de dados. Se você quer fazer um rápido de verificação pontual para as tendências e valores discrepantes em seu conjunto de dados, você pode usar filtros do Excel, a formatação condicional, e as opções de gráficos para começar o trabalho feito rapidamente. tabelas dinâmicas do Excel são outra ótima opção se você precisar reformatar rapidamente e resumir suas tabelas de dados. Finalmente, se você deseja automatizar tarefas de manipulação de dados ou análise no Excel, você pode usar macros do Excel para fazer o trabalho.
KNIME: KNIME é software de mineração de dados que você pode usar para análise preditiva livre de código. O software é simples o suficiente para que iniciantes ciência até mesmo dados pode usá-lo, mas oferece plug-ins para ampliar os recursos para as necessidades dos usuários mais avançados. analytics KNIME são úteis para fazer as coisas como upsell e cross-sell, a redução da rotatividade de clientes, análise de sentimento, e análise de rede social.