Como coletar Categórica de Dados em Bioestatística
Criação de seus formulários de coleta de dados e tabelas de banco de dados para dados categóricos requer mais atenção do que você pode esperar. Todo mundo assume que sabe como gravar e inserir dados categórica - basta digitar o que é que os dados (por exemplo, Do sexo masculino, branco, Diabetes,
ou Dor de cabeça), certo? Bad suposição!codificação cuidadosamente categorias
A primeira questão é como "Código" as categorias (como para representá-los no banco de dados). Você quer entrar Gênero Como Masculino ou Fêmea, M ou F, 1 (Se do sexo masculino) ou 2 (Se do sexo feminino), ou de alguma outra forma? A maioria dos softwares estatísticos moderna pode analisar dados categóricos com qualquer uma dessas representações, mas alguns programas mais velhos precisa as categorias codificadas como números consecutivos: 1, 2, 3, e assim por diante.
Alguns software permite que você especifique uma correspondência entre o número eo texto (1 = masculino, 2 = Feminino, por exemplo) - então você pode digitar uma ou outra maneira, e você pode escolher para exibi-lo em qualquer forma numérica ou textual.
Nada é pior do que ter de lidar com um conjunto de dados em que Gênero foi codificado como 1 ou 2, sem indicação de qual é qual, quando a pessoa que criou o arquivo é muito longe. Por isso é provavelmente melhor para entrar os valores de categoria tão curtos, abreviaturas de texto significativos como M ou F, ou Masculino ou Fêmea, que são auto-evidentes e, portanto, auto-documentado.
O Excel não importa o que você digita, e esta característica é um dos seus maiores inconvenientes quando ele é usado como um repositório de dados. Pode introduzir Gênero Como M para o primeiro objecto, Masculino para o segundo, masculino para o terceiro, 2 para o quarto, e m para o quinto e Excel não poderia me importar menos. Mas a maioria dos programas de estatísticas considerar cada um deles para ser uma categoria completamente diferente!
Pior ainda, você pode inadvertidamente digite um ou mais espaços em branco antes e / ou depois do texto. Você nunca pode observá-lo, mas alguns programas de estatísticas considere M ~ ser diferente de ~ M, ~ ~ M, e M ~~ (Onde ~ indica um espaço em branco). No Excel, é uma boa idéia para permitir que AutoCompletar para valores de célula (na seção Avançado da caixa de diálogo Opções, localizado no menu Arquivo). Então, quando você começa a digitar alguma coisa em uma célula, ele sugere algo que já está presente na coluna e começa com a mesma letra ou letras que você digitou. Isso irá ajudá-lo a evitar ter várias representações ligeiramente diferentes para a mesma categoria.
Quando você está verificando seus dados para erros, é útil se você pode ter o software produzir um registro para cada variável categórica, mostrando como muitas ocorrências de cada categoria distinta que encontrou nos dados. Isto irá mostrar-lhe se qualquer categoria com erro de digitação foram inseridas (incluindo aqueles com os que conduzem traquinas ou à direita caracteres em branco).
Lidar com mais de dois níveis em uma categoria
Quando uma variável categórica tem mais de dois níveis, as coisas ficam ainda mais interessante. Primeiro, você tem que se perguntar: "É esta variável a Escolha onum ly (Escolha única) ou Escolha todas que se aplicam (Múltipla escolha) variável? "A necessidade de codificação em seu arquivo de dados informatizada é completamente diferente para estes dois tipos de variáveis. Por exemplo, suponha que você está indo para gravar os resultados de um ensaio do Laboratório de Microbiologia de uma amostra de sangue. E suponho, para simplificar, que analisa este laboratório para a presença de apenas cinco classes de bactérias: cocos, bacilos, rickettsia, mycoplasma, e espirilo. Para reduzir a possibilidade de erros de ortografia, você pode decidir usar abreviaturas curtas, tais como: COC, bac, ric, meu c, e spi.
Suponha que você decidir (ou assumir) que nenhuma amostra de sangue nunca vai ter mais do que um tipo de infecção presente. Esta seria uma situação de escolha individual. Em seguida, o resultado de laboratório poderia ser realizada em uma única variável (uma única coluna no arquivo de dados), que se pode chamar BacteriaType (ou BT se você quisesse manter seus nomes de variáveis short). Os resultados para cada amostra (em cada célula da tabela) iria ser codificado como um único valor: COC, ou bac, ou ric, ou meu c, ou spi. Você também teria que permitir a outra categoria (talvez chamado Nenhum) Se foi encontrada nenhuma infecção em tudo.
Mas você pode achar que sua suposição de no máximo uma infecção por espécime era irrealista. Uma pessoa poderia ter dois (ou mais) infecções presentes em simultâneo. Como você lida com isso no seu banco de dados? Se o laboratório informou que ambas as infecções cocos e bacilos estavam presentes, se você tentar encher ambas as abreviaturas (COC e BAC) na célula ao mesmo tempo? A maioria dos softwares estatísticos permitiria apenas uma categoria a ser especificada em uma célula de uma variável categórica. Infelizmente, Excel ficaria feliz em deixá-lo empinar tanto quanto você gostou na célula, mesmo que esta seria a maneira errada de fazê-lo.
Se-múltiplas escolhas são possíveis (mesmo se você acha que eles são improvável de acontecer em seu estudo), você precisa configurar seu banco de dados de forma diferente. Você deve definir variáveis separadas no banco de dados (colunas separadas em Excel) - um para cada valor da categoria possível. Neste caso, porque há cinco possíveis tipos de bactérias, você teria que definir cinco separado variáveis, talvez chamado BTcoc, BTbac, BTric, BTmyc, e BTspi (onde o BT apoia tipo de bactéria). Cada variável seria representado como uma categoria de dois valores (talvez com valores Pres/Abs pé por presente e ausente, ou sim/Não, ou 1 ou 0).
Assim, se o espécime de Objecto 101 foi encontrado para conter coccus, Assunto 102 do espécime tinha Bacillus e micoplasma presente, e a amostra de Objecto 103 não tem bactérias em todos, a informação pode ser codificado como ilustrado na tabela a seguir.
Sujeito | BTcoc | BTbac | BTric | BTmyc | BTspi |
---|---|---|---|---|---|
101 | sim | Não | Não | Não | Não |
102 | Não | sim | Não | sim | Não |
103 | Não | Não | Não | Não | Não |
Independentemente de saber se você codificar uma variável categórica como escolha simples ou múltipla escolha, você vai precisar para permitir a possibilidade de valores em falta. Você pode lidar com valores em falta, deixando a célula em branco, mas uma forma ainda melhor é adicionar uma categoria chamada Ausência de para as categorias regulares de essa variável. Se você precisar de vários sabores diferentes de Ausência de (gostar ainda não cobrados, dom't sabe, de outros, recusou-se a responder, ou não applEucabo), Basta adicioná-los ao conjunto de categorias permitidas para essa variável. O importante é ter certeza de que você sempre pode entrar alguma coisa para essa variável.
Nunca tentar empinar múltiplas escolhas em uma coluna - não entre "COC, bac" numa célula do BacType coluna. Se fizer isso, a coluna resultante será quase impossível para analisar estatisticamente, e você terá que ter o tempo mais tarde para meticulosamente dividir sua coluna multi-valorizados única em sim separados / não colunas. Então porque não fazer certo da primeira vez?