Como dividir Cordas em R

Uma coleção de letras e palavras combinadas é chamado de corda. Sempre que você trabalha com texto, você precisa ser capaz de concatenar palavras (string-los juntos) e dividi-los. Em R, utiliza o colar() funcionar para concatenar eo strsplit () funcionar para dividir. Nesta seção, vamos mostrar-lhe como usar ambas as funções.

Primeiro, crie um vetor personagem chamado pangram, e atribuir-lhe o valor "A ligeira raposa marrom ataca o cão preguiçoso", do seguinte modo:

> pangram lt; - "A ligeira raposa marrom ataca o cão preguiçoso"> pangram [1] "A ligeira raposa marrom ataca o cão preguiçoso"

Para dividir este texto no limites de palavra (Espaços), você pode usar strsplit () do seguinte modo:

> Strsplit (pangram, "") [[1]] [1] "A" "rápido" "brown" "fox" "saltos" "over" "o" "preguiçoso" "cachorro"

Observe que a primeira linha incomum de strsplit ()A saída é constituída por [[1]]. Semelhante à maneira que R exibe vetores, [[1]] significa que R é mostrando o primeiro elemento de uma lista. As listas são conceitos extremamente importantes em R- Eles permitem que você combinar todos os tipos de variáveis.

No exemplo anterior, esta lista tem apenas um único elemento. Sim, isso mesmo: A lista tem um elemento, mas esse elemento é um vetor.

Para extrair um elemento de uma lista, você tem que usar colchetes. dividir o seu pangram em palavras, e atribuir o primeiro elemento a uma nova variável chamada palavras, usando double-colchetes ([[]]) De subconjuntos, como segue:

palavras lt; - strsplit (pangram, "") [[1]]> palavras [1] "A" "rápido" "brown" "fox" "saltos" "over" "o" cão "preguiçoso" ""

Para encontrar os elementos exclusivos de um vetor, incluindo um vetor de texto, use o única () função. Na variável palavras, "a" aparece duas vezes: uma vez em letras minúsculas e uma vez com a primeira letra maiúscula. Para obter uma lista das palavras originais, primeiro converta palavras para minúsculas e, em seguida, usar único:

> Único (tolower (palavras)) [1] "o" rápido "" brown "" raposa "" saltos "" "over" "preguiçoso" [8] "cão"

menu