Como NaturallySpeaking aprende a reconhecer Speech

Computadores são muito inteligente quando se trata de coisas cérebro-esticar como jogar xadrez e preenchimento de declarações fiscais, de modo que você pode pensar que eles seriam gênios em # 147-simple # 148- atividades como reconhecer rostos ou entender a fala.

Mas depois de cerca de 50 anos de tentativas para tornar os computadores fazer essas coisas simples, os programadores têm chegado à conclusão de que a habilidade não é simples, apenas porque os seres humanos dominá-lo facilmente. Na verdade, nossos cérebros e olhos e ouvidos estão repletos de detecção sofisticado e equipamentos de processamento que ainda corre anéis ao redor de qualquer coisa que pode projetar em silício e metal.

Nós, humanos, acho que é simples de entender o discurso porque todo o trabalho duro é feito antes de se tornar consciente disso. Para nós, parece como se as palavras inglesas apenas pop em nossas cabeças assim que as pessoas abrem suas bocas. A natureza inconsciente (ou pré-consciente) do processo torna duplamente difícil para os programadores de computador para imitar.

Para se ter uma ideia de por que os computadores têm tantos problemas com a fala, pense em algo que eles são muito bons em reconhecer e compreensão: Os números de telefone de tom. Esses blips e bloops sobre as linhas de telefone são muito mais significativo para computadores do que eles são para as pessoas. Várias características importantes fazem os sons do telefone uma linguagem fácil para computadores, listados abaixo. Inglês, por outro lado, é completamente diferente.

  • O touch-tone # 147 vocabulário # 148- tem apenas 12 # 147 Palavras-# 148- nele. Depois que você sabe as notas para as dez dígitos Plus * e #, você está dentro. Inglês, por outro lado, tem centenas de milhares de palavras.

  • Nenhuma das palavras o mesmo som. No telefone touch-tone, o "1" tom é bem diferente do "7" tom. Mas Inglês tem homônimos, como homônimos novos e gnu, e de perto, como o mais alegre e casar com ela. Às vezes, frases inteiras soam iguais: # 147 Os filhos levantar carne # 148- e Nº 147-A raios encontro do sol, # 148- por exemplo.

  • Todos nº 147-falantes # 148- da língua dizer as palavras da mesma maneira. Pressione o botão 5 em qualquer telefone, e você terá exatamente o mesmo tom. Mas um homem idoso e uma menina de 10 anos de idade, usar tons muito diferentes quando altifalantes e as pessoas da Grã-Bretanha, Canadá e Estados Unidos pronunciar as mesmas palavras em inglês de maneiras muito diferentes.

  • O contexto é sem sentido. Para o telefone, um 1 é um 1 é uma 1. Como você interpreta o tom não depende do número anterior ou o próximo número. Mas em Inglês escrito, o contexto é tudo. Faz sentido # 147 ir para Nova York. # 148- Mas faz muito menos sentido para # 147-go dois New York # 148- ou # 147 ir demasiado New York # 148.;

menu