Como lidar com valores duplicados em seus dados

Os dados são armazenados em modos diferentes em diferentes sistemas. Assim não é nenhuma surpresa que quando a recolha e consolidação de dados de várias fontes, é possível que as duplicatas aparecer. Em particular, o que faz um registro único indivíduo é diferente para diferentes sistemas.

Um resumo da conta de investimentos está ligado a um número de conta. Um resumo carteira pode ser armazenado em um nível individual ou familiar. E as histórias comerciais de todas aquelas contas são armazenados no nível da transação individual.

É importante ser claro sobre o que é suposto para diferenciar registros exclusivos no arquivo de dados. Por exemplo, se é um arquivo de nível de transação, em seguida, números de conta e as identificações de família será duplicado. Contanto que você entender isso e está fazendo uma análise de nível de transação, você vai ficar bem.

Mas se você estiver interessado em usar esses dados para analisar o número de contas detidas por cada agregado familiar, você vai correr em problemas. Os agregados familiares que comercializam com mais frequência terá mais registros do que aquelas que não o comércio muito. Você precisa ter um arquivo no nível da conta.

Removendo registros duplicados não é particularmente difícil. A maioria dos pacotes estatísticos e sistemas de banco de dados têm built-in comandos desse grupo registros juntos. (Na verdade, na linguagem SQL do banco de dados, esse comando é chamado Group By.)

menu