Conjuntos de dados que incluir datas

Você muito raramente funciona através de um conjunto de dados que não inclua datas. Comprar datas, datas de nascimento, datas de atualização, datas citações, ea lista continua. Em quase todos os contextos, algum tipo de data é necessária para obter uma imagem completa da situação que você está tentando analisar.

Lidar com datas pode ser um pouco complicado, em parte devido à variedade de maneiras de armazená-los. Mas também, dependendo do que você está tentando fazer, você pode só precisa de parte da data. Aqui estão algumas situações comuns de olhar para fora.

Lidar com os formatos de data e hora

Para começar, a maioria dos sistemas de gerenciamento de banco de dados tem uma maneira extremamente precisa de armazenar datas internamente: Eles usam uma data hora. Este é exatamente o que parece: um mashup da data e hora. Por exemplo, um formato comum se parece com isso:

2014 - 11 - 2414: 25: 44

Isso significa que 25 minutos e 44 segundos últimos 2:00 em 24 de novembro de 2014.

O detalhe aparentemente excessiva aqui raramente é totalmente utilizado. De longe o usuário mais comum de todos os detalhes é o próprio sistema de gerenciamento de banco de dados. É uma prática comum para os bancos de dados para colocar um carimbo de data e hora em todos os registros para indicar quando o registro foi criado e quando foi a última atualização. Os sistemas de New York Stock Exchange, na verdade, manter o controle de selos de tempo comercial para uma precisão ainda maior.

Para a maioria das aplicações analíticas, no entanto, este é mais detalhe do que você quer.

Se você está analisando o preço de fechamento de uma ação ao longo do tempo, você não vai estar interessado em mais do que apenas o dia ou talvez o mês associado a cada preço de fechamento. Se você está fazendo uma análise demográfica das distribuições de idade, o ano de nascimento pode ser tudo o que é relevante.

Datas de nascimento são um bom exemplo de algo que você pode encontrar com os dados de data e hora. Mesmo que os dados podem ser armazenados num campo de data e hora, pode ser o caso em que apenas uma parte do campo é realmente a ser utilizada. Datas de nascimento normalmente têm a parte do tempo cumprido em 00:00:00 para cada registro.

Felizmente, ambos os sistemas de banco de dados e software analítico têm built-in funções que lhe permitem extrair apenas a parte da data e hora que é relevante para você. Você pode optar por extrair apenas a parte da data, apenas o mês eo ano, apenas o ano, e assim por diante. E, de fato, esta é muitas vezes feito para você antes de você ver os dados.

Levando em conta a geografia

No admirável mundo novo da economia global, você provavelmente vai encontrar os dados que foram coletados a partir de vários locais diferentes. Qualquer um que já tentou agendar uma chamada de conferência internacional está bem ciente da logística envolvida em lidar com vários fusos horários. Cada vez mais comum hoje em dia são conferência pós-meia-noite chama com a Índia.

Um típico exemplo grandes de dados envolve a gestão da cadeia de abastecimento. Gestão da cadeia de abastecimento é o processo contínuo de tentar gerir matérias-primas, estoques, distribuição e qualquer outro aspecto relevante do negócio de uma empresa. É como Walmart mantém prateleiras abastecido, como UPS mantém o controle de pacotes, e como Amazon consegue entregar quase qualquer coisa imaginável em quase qualquer lugar.

Nestes exemplos, a análise subjacente a gestão da cadeia de abastecimento tem de levar em conta que os dados são provenientes de diferentes fusos horários. Quando confrontados com situações como esta, os dados de data e hora deve ser tratado com cuidado.

Suponha que um pacote for enviado da Califórnia às 10 horas de quarta-feira e é entregue ao seu destino final em Nova York na quinta-feira às 10:00 Se você está interessado em analisar os prazos de entrega, você precisa levar em conta a mudança de fuso horário. Neste exemplo, o tempo de entrega é, na verdade, 21 horas, e não 24.

Ao lidar com dados de data e hora, coletados em diferentes fusos horários, você não pode simplesmente comparar diferentes pontos de dados com base nos dados brutos. Você precisa primeiro se certificar de que todos os datetimes são representados em um fuso horário comum. O fuso horário que você usa é um pouco arbitrária, contanto que todos os pontos de dados estão usando a mesma.

Há um outro geograficamente - ou, para ser mais preciso, culturalmente - fato relacionado que você precisa estar ciente. Nem todos os países representam datas da mesma forma. Os EUA é realmente algo único em representar datas como dia / mês / ano. Canadá e grande parte da Europa preferem usar o dia de convenções / mês / ano. Você também pode executar em variações com iniciais do ano.

Como o software pensa sobre datas

As datas são usados ​​em uma variedade de formas de análise de dados. Às vezes, como com a análise do preço das ações, sua principal função é colocar as observações em ordem, desde a primeira à última. Mas, noutros casos, são usadas para medir intervalos de tempo.

Em engenharia, especialmente em aplicações de controle de qualidade, uma estatística chave é tempo até a falha dizer. Esta é simplesmente a média de vida de uma parte ou produto. Para os produtos de longa duração, como peças de automóveis e lâmpadas, esse cálculo requer a comparação de datas.

Em face disto, 15 de agosto de 2013 minus 01 de janeiro de 2010 não faz muito sentido matematicamente. Todos sabemos o que se entende por isso, mas é preciso pensar um pouco para obter a resposta. Por esta razão, muitos programas de estatística, quando confrontado com datas, imediatamente convertê-los em uma série, a fim de facilitar as comparações. Eles fazem isso por pegar algum ponto de partida e calcular o número de dias entre esse ponto de partida ea data em que está sendo convertido.

Por exemplo, um grande fabricante de software estatístico, SAS, utiliza a data de 01 de janeiro de 1960 como ponto de partida. Esta data tem o valor 0. Ele armazena todas as datas como o número de dias é longe deste ponto de partida. Assim, SAS pensa 1º de janeiro de 1961 como 366 (lembre-se de 1960 foi um ano bissexto, e 1 de Janeiro é dia 0, não o dia 1). O ponto de partida é fabricantes de software arbitrárias e diferentes usam diferentes pontos de partida, mas a ideia é a mesma.

Uma consequência estranha desta convenção é que se você olhar para os dados brutos, não só são todos os inteiros datas, mas eles nem sequer têm de ser números inteiros positivos. No exemplo SAS, 01 de janeiro de 1959 seria representado como -365.

Em qualquer caso, esta forma de datas manipulação facilita os cálculos. Ao converter a data para um número na entrada, o sistema evita ter que saltar através de aros cada vez que um cálculo que envolve essa data é realizada.

menu