10 de ponta Fonética Tendências do Futuro

Educação e Idiomas / linguagem Artística / Gramática e Uso

Fonética já percorreu um longo caminho desde os dias dos bons ol de Daniel Jones e seus colegas em Londres na virada do século. Tecnologia e comunicação de massa revolucionaram o campo da fonética, permitindo avanços fundadores nunca teria imaginado. Os seguintes pré-visualizações de alguns desses novos rumos surpreendentes.

Formação computadores para reconhecer emoções humanas na fala
Animando silício tratos vocais
Obtendo tubular e sintéticos
Formação com baldi e outros avatares
Ajudando a conversa muda de interfaces de voz silenciosas
Visualizando movimento da língua para pacientes com avc
Classificando voz mais masculina de voz menos masculina
Descobrir a síndrome de sotaque estrangeiro (fas)
Descobrir a genética do discurso
Dialetos para diversão e lucro combinando

Formação computadores para reconhecer emoções humanas na fala

Claramente, existem muitas situações em que o reconhecimento emoção na fala pode ser importante. Pense em como sua voz pode tornar-se cada vez mais tensa como você espera ao telefone por um operador de computador para (finalmente) entregá-lo a uma pessoa real. Ou mais a sério, considere as pessoas que trabalham em situações de emergência, como um operador de 911. Grandes problemas, potencialmente fatais pode ocorrer se um operador 911 não pode entender o que você está dizendo.

Trabalhando com emoção na fala é um tema de pesquisa de ponta em muitos laboratórios em todo o mundo. Por exemplo, o Dr. Carlos Busso na Universidade do Texas em Dallas tem experimentado vozes emparelhamento informatizado e cabeças visuais que expressam as emoções de raiva, alegria e tristeza. Este trabalho comparou o discurso de atores e pessoas comuns em situações mais naturalista. A partir das gravações de áudio, Busso usa recursos do passo de classificação para emoções. Ele então usa tecnologia de rastreamento de movimento para gravar os movimentos faciais dos oradores durante o discurso. Os resultados mostram que determinadas regiões da face são mais críticos para expressar certas emoções do que outros.

Lingüística e os cientistas agora podem usar os resultados destes estudos para criar mais crível avatars (Informatizado semelhante à humana caracteres), e para melhor compreender a distúrbios, tais como a doença de Parkinson (na qual desintegração do sistema nervoso provoca uma perda de expressão facial), e autismo (em que atendimento aos sinais facial parece ser um problema).

Animando silício tratos vocais

Diferentes maneiras pode ajudar a compreender o trato vocal humano. É uma maneira de estudar o corpo humano através de anatomia e fisiologia. Outra maneira é a construção de modelos do sistema e estudar as propriedades biomecânicas destes criações. Silicon tratos vocais são um novo tipo de modelo que pode ser utilizado para síntese de fala, a criação artificial de expressão por uma máquina.

O início da síntese de fala, na verdade, remonta a 1700, com uma máquina falante gaita-like consiste de foles de couro (para servir como os pulmões) e uma cana (para servir como as pregas vocais). Embora este sistema guinchou o seu caminho através da fala, não foi possível decifrar muito sobre a origem da fala ou filtro através do estudo de seus componentes.

Hoje as pessoas permanecem fascinado por máquinas falantes, incluindo robôs e criações humanóides. Tais robôs de ajuda com animação e outros fins artísticos, bem como ajudar os pesquisadores a entender melhor os sistemas anatômicos.

Produzir um sistema articulatório semelhante à humana não é simples. O corpo humano tem uma densidade muito específica, o amortecimento, a elasticidade, e as propriedades de inércia que não são fáceis de se replicar. As formas físicas em mudança do trato vocal também são difíceis de reproduzir mecanicamente. Por exemplo, a língua é um hydrostat muscular que preserva o seu volume ao mudar de forma. A língua alonga quando se projetava e humps quando retraído.

Dr. Atsuo Takanishi na Universidade de Waseda, no Japão passou décadas aperfeiçoando uma cabeça de silício que pode produzir vogais, consoantes, e fricativas em japonês. Você pode assistir a filmes de seus vários engenhocas, incluindo silício pregas vocais, línguas motorizados, e lábios acionadas por engrenagem e no rosto.

Obtendo tubular e sintéticos

Um método de expressão sintetizar mais cerebral do que construir robôs envolve fazer maquetes eletrônicas ou matemáticos do sistema de produção da fala. Após os pesquisadores a entender esses sistemas complexos, eles podem criá-los e, em seguida, manipular esses sistemas em um computador para simular o sistema humano (embora eletronicamente). Gunnar Fant, que desenvolveu modelos da relação entre a anatomia da fala humana e frequências formantes, liderou este tipo de trabalho na década de 1950. Esta empresa também se baseia em modelos físicos de Hermann von Helmholtz que descreveram ressonadores como individuais e ressonadores acoplados som de entrada forma.

As versões mais recentes dos modelos de tubo estão fazendo avanços com problemas difíceis, tais como replicar as vozes de mulheres e crianças, assim dando computadores a ilusão de que eles estão cantando com sucesso. Brad Story, um professor da Universidade do Arizona, está trabalhando em um protótipo chamado falante tubo. Este sistema baseia-se em fisiologia modeladas das cordas vocais e o sistema de via aérea superior. Seu design incorpora imagens de vídeo das pregas vocais e imagens de ressonância magnética do trato vocal feita durante o discurso. Usando ambos articulatório e restrições acústicas, Story e sua equipe pode modelar e mover articuladores virtuais para criar movimentos suaves, fala-like. O resultado é uma onda sonora que pode ser escutado, analisado e comparado com o discurso real.

falante tubo foi modificado em alguns aspectos estranhos e interessantes. Por exemplo, os modelos tradicionais de expressão sugerem que os componentes de voz e de filtro deve ser considerado em separado. No entanto, para alguns tipos de voz cantada (e talvez para a voz infantil), isso pode não ser o caso. As versões recentes do locutor tubo de ter testado interações não lineares entre a origem eo filtro como novas combinações possíveis para melhor modelo tais tipos de voz e música.

Outro modelo usando modelos semelhantes a tubos ganhou um concurso recente Europeu canção síntese de fala não só para fazer o discurso falado plausível, mas também para cantar (você pode testemunhar o espetáculo fantasmagórico de tratos vocais computadorizadas 3D transparentes, desenvolvida pelo Dr. Peter Birkholz, cantando um dueto).

Formação com Baldi e outros avatares

agentes de instrução, como avatares que são projetados para serem oradores especialistas de várias línguas, são outra tendência interessante em fonética. Tais sistemas podem ajudar instrutores, dando prática adicional com planos de aula, auxiliando na formação com segunda língua de aprendizagem, trabalhando com a dificuldade de audição, ou indivíduos tendo em particular dificuldade interagindo com parceiros da fala ao vivo (como pessoas com autismo).

Sob a direção do Professor Dominic Massaro na Universidade da Califórnia em Santa Cruz, os pesquisadores vêm-se com uma cabeça falante 3D chamado Baldi, capaz de fazer muitas tarefas. Por exemplo, os estudantes japoneses Baldi tem ajudado a desenvolver seu sotaque Inglês e ajudou na educação de surdos. Nas versões mais recentes, a cabeça de Baldi tornou-se transparente, a fim de mostrar melhor o seu trato vocal para que os alunos de línguas em que posições especiais da língua e faringe são importantes (como o árabe) podem ver o que está acontecendo. Baldi tem mesmo pernas germinadas, braços, e um corpo, porque os gestos de um avatar pode em algumas situações adicionar a uma situação mais eficaz de aprendizagem da língua. Este tipo de investigação sugere que o trabalho com avatares pode segurar um futuro ousado e promissor para a fonética.

Ajudando a conversa muda de interfaces de voz silenciosas

Silenciosa interface de voz (SSI) pode ser especialmente útil em aplicações militares, como para o pessoal em cockpits altos ou veículos que os impedem de ouvir-se falar ou de ser gravado por um microfone.

Além disso, SSI pode ajudar outras pessoas que não podem produzir som audível de suas pregas vocais, mas a sua articuladores (Língua, lábios e mandíbula) ainda funcionam. Tendo uma fonte vocal artificial iria aliviar este problema. Se a posição da língua da pessoa pode ser controlada em tempo real, e esta informação foram alimentados a um computador, os dois podem ser acoplados com uma fonte de vocalização e, presto, discurso.

Vários protótipos de trabalho emocionantes para SSIs estão atualmente em desenvolvimento. A seguir foco em princípios acústicos articulatórias e tecnologias de rastreamento articulador de ponto de carne;

Pesquisadores na África do Sul está trabalhando em um sistema usando electropalatography (EPG).
Cientistas da Universidade da Geórgia estão explorando o uso de um sistema de rastreamento de imã permanente.
Outros pesquisadores estão trabalhando em lábios e língua sistemas de rastreamento.

Um dia, o objetivo final é fazer com que as pessoas que não podem falar, devido à perda da laringe simplesmente retirar seu telefone (ou um dispositivo aproximadamente desse tamanho), apertar um botão e, em seguida, ter uma qualidade sintetizado voz alta falam por -los como eles articulam.

Visualizando movimento da língua para pacientes com AVC

Muitos indivíduos com lesão cerebral cortical esquerda têm apraxia de fala (AOS), um problema controlando a produção dos sons da fala. Embora esses pacientes geralmente entender a linguagem razoavelmente bem, se eles querem pronunciar um certo som, diga "s" na palavra "see ", o som pode sair errado, como como"she. "AOS é muito frustrante para os pacientes, porque eles normalmente sabem que eles produziram um som em erro. Eles geralmente se sentem como eles sabem o que dizer, mas eles simplesmente não pode tirá-lo.

Um princípio comprovado conhecido por ajudar esses pacientes é uma prática (a prática torna perfeito), particularmente porque tais indivíduos tendem a parar de falar devido à frustração, depressão e ter outros membros da família assumir e falar por eles. Outro princípio terapêutico importante é a formação articulatório. A Universidade de Dallas no laboratório Texas (em conjunto com colegas da Universidade de Pittsburgh) está dando indivíduos com feedback visual AOS relativas à posição da sua língua durante a fala. Esta intervenção é baseada na premissa de que indivíduos com AOS ter um colapso com o seqüenciamento de som e som de execução, mas os sistemas de seu olho a língua de feedback de monitoramento estão intactos.

Uma série de estudos descobriram que este método pode ajudar os indivíduos com AOS aumentar a precisão da sua produção de som após acidente vascular cerebral. O trabalho até à data se baseou em informações de um único ponto de dados articulatório (como a ponta da língua). O trabalho futuro vai dar aos pacientes um avatar 3D que lhes mostra o movimento on-line da sua língua, enquanto eles falam. Se o fizer, irá permitir o tratamento de uma ampla gama de sons de fala e vai permitir aos médicos para tratar a forma de articulação, bem como lugar.

Classificando voz mais masculina de voz menos masculina

Um número de propriedades na voz pode realmente indicar masculinidade. Foneticistas têm condições para isso:

discurso mais masculino (MMS)
discurso menos masculina (LMS)

MMS é menor em frequência fundamental (O tom que uma pessoa ouve). Os dois também parecem ter diferenças na espectral qualidade (Como agudo do hissiness é) das fricativas. Além disso, os indivíduos MMS tem espaço vogal menos pronunciada do que os indivíduos julgados LMS (que significa LMS locutores usam maiores excursões língua ao falar).

Empresas ou governos podem ser capazes de usar essas informações para projetar um macho contra detector voz feminina e, talvez, um detector ainda mais detalhadas (em linha reta em relação gay) para tipos simples de julgamentos. No entanto, o transporte de género através da fala é mais complicado do que uma aproximação geral das propriedades biológicas do sexo oposto. Isto é, apesar do que a cultura popular, muitas vezes implica, o discurso dos homens gays não parece ser apenas uma versão feminized da fala de homens heterossexuais (ou o discurso de lésbicas uma versão masculinizada da fala de mulheres heterossexuais).

Ron Smyth, professor da Universidade de Toronto, estudou as diferenças entre mais e menos discurso masculino-som gay. Seu trabalho revela que a seguinte mistura complexa de propriedades acústicas caracteriza "discurso-som gay":

Vogais produzidas mais perto das bordas do espaço vogal
Pare de consoantes com tempos de início mais voz (VOTs)
Mais longas / s / e / # 643- / fricatives com frequências de pico mais elevados
Mais luz "l" allophones

O trabalho de Smyth também mostra que muitas dessas decisões também dependem de suposições feitas pelos ouvintes, os tipos de amostras de fala fornecido, e sobre o gênero e orientação sexual dos próprios ouvintes. Orientação sexual e de expressão é um tema permanente de investigação para determinar se os estereótipos populares-culturais são baseadas em nada tangível, e se a percepção das pessoas de orientação sexual (das pessoas gays auto-proclamado gaydar) É o que afirma ser (Seu trabalho mostrou que gaydar das pessoas com base no discurso geralmente não é confiável.)

Estes problemas referem-se ao campo de sociolingüística, o estudo da relação entre linguagem e sociedade. Estudos têm demonstrado, por exemplo, que os jovens (heterossexuais) homens irá diminuir a sua frequência fundamental, quando uma pergunta fêmea novo, em vez de um macho, entra na sala. Estes homens estão presumivelmente tornando-se atrativos através de uma voz mais baixa. Se os resultados de estudos anteriores são precisos, uma pesquisa poderia supor que, sob as mesmas condições experimentais, as mulheres, aumentaria o breathiness da sua voz, uma característica conhecida por aumentar a percepção de expressão fêmea mais atraente.

Descobrir a síndrome de sotaque estrangeiro (FAS)

Síndrome do sotaque estrangeiro (FAS) é um distúrbio motor da fala, onde adultos presentes com o discurso soando estrangeira como resultado de anormalidades mistiming e prosódicos resultantes do distúrbio cerebral. Ele continua a fascinar o público e cientistas. Estudo de indivíduos com esse transtorno pode, potencialmente, dar uma imagem melhor do que os sistemas cerebrais estão envolvidas na produção e compreensão de sotaque.

Até agora, a maioria dos casos FAS ter sido indivíduos que falam Inglês nativo, embora cada vez mais outros idiomas europeus também estão sendo gravadas. Agora, vários casos não-indo-europeu (em hebraico, japonês e árabe) foram registrados. Os pesquisadores estão interessados em que variedades de línguas são afetados, e os pesquisadores questionam até que ponto a stress e ou fatores prosódicos baseado em sílabas (comumente quantificada como Índice de Variabilidade Pairwise, (PVI)) Desempenha um papel em se esses pacientes são percebidos como estranhos, e se existem de alta PVI e subtipos de baixo PVI FAS.

Outro enigma na imagem FAS é como casos que resultam de lesões focais Frank (tais como acidente vascular cerebral ou de tumor) pode estar relacionado com os de etiologias desconhecidas ou menos específicos (tais como a enxaqueca, a alergia, ou possivelmente causas psicogénicas). Um indivíduo com uma lesão em uma região do cérebro bem estabelecida conhecido para corresponder a função de fala (como a zona de linguagem perisylviana) pode ser assumida a ter uma causa plausível para FAS. A situação para os indivíduos sem causa fisiológica conhecida é menos clara.

Muitos pacientes encaminhados para a clínica na Universidade do Texas em Dallas por suspeita de FAS foram diagnosticados com Distúrbio de conversão. Esta é uma condição em que os pacientes apresentam sintomas neurológicos que a avaliação médica não pode explicar. transtorno de conversão não é simulação de doença (Fingindo doença) e pode afetar a fala, no entanto, esta não é a mesma coisa que a FAS. Para melhor avaliar FAS, os profissionais devem trabalhar em estreita colaboração em uma equipe que inclui o ideal é um psicólogo e psiquiatra. Incluindo testes fonéticos para descartar intencional, acidental ou imitou modificação acento também é importante.

Descobrir a genética do discurso

Foneticistas tornaram-se mais interessado no movimento rápido e emocionante campo da genética para encontrar a base da fala e linguagem. Um tumulto começou na década de 1980 com a descoberta de uma família em Londres, e teve uma série de problemas de fala e linguagem relacionadas com a família. Entre os vários membros da família (chamado KE) eram nove irmãos. Quatro destes irmãos havia pronunciado problemas com a compreensão, a compreensão de frases como "O menino está sendo perseguido pelo tigre" para significar "O menino está perseguindo o tigre." Eles também caiu sons no início de palavras, como dizendo "arte" quando se pretende dizer "tart". De tal comportamento, ficou claro que havia algo familiar relacionado particularmente afetando sua fala e linguagem.

Em meados dos anos 1990, um grupo de geneticistas da Universidade de Oxford começou a procurar o gene danificado nesta família. Eles descobriram esta desordem resultou quando apenas um gene foi passada de uma geração para a seguinte (autossômica dominante) E não foi ligada ao sexo. Outras investigações derrotou o gene para uma área no cromossomo 7, que foi chamado Transtorno fala e da linguagem 1 (SPCH1). Os geneticistas passou a identificar a localização precisa da quebra cromossoma 7 no caso de uma outra criança com um discurso genética e distúrbio de linguagem. Descobriu-se para se relacionar com os casos KE em uma maneira surpreendente: Ambos codificado algo calledForkhead Box Protein (FOXP2), uma proteína da transcrição que codifica outros fatores necessários para os sistemas neurológico, intestino e pulmão.

FOXP2 está associada com a aprendizagem vocal em jovens aves canoras, ecolocalização dos morcegos, e, possivelmente, em outras espécies vocais-aprendizagem, tais como baleias e elefantes. Os ratos com genes humanos-FOXP2 emendados em seu DNA emitida baixos guinchos funk e cresceu diferentes padrões neurais no cérebro em regiões envolvidas com a aprendizagem.

Como todas as histórias científicas emocionantes, a história FOXP2 não é sem controvérsia. Muitos relatórios populares destas descobertas fazem reivindicações simplificados, com vista para a base genética multifactorial para a fala e da linguagem. Por exemplo, a descida da laringe humano foi sem dúvida importante em tornar o discurso fisicamente possível, em comparação com o trato vocal de chimpanzés. No entanto, este processo genético não provável parecem vinculados a FOXP2, sugerindo que outros loci do gene são indiscutivelmente envolvida. De facto, outros genes já estão a emergir. FOXP2 desliga um gene chamado contactina-associado da proteína-like 2 (CNTNAP2). Este gene foi associado tanto Distúrbio Específico de Linguagem (DEL) e autismo. As células nervosas no cérebro em desenvolvimento, particularmente em circuitos associados com a linguagem, implementar CNTNAP2, que codifica a proteína.

dialetos para diversão e lucro combinando

Muitas pessoas mudar seu sotaque falado com o curso de um dia para coincidir com o sotaque das pessoas a que eles estão falando. Você pode chamar isso de ser uma esponja acento, embora seja mais tecnicamente referido como Coincidindo dialeto ou registar correspondência.

Coincidindo dialeto é muito natural para as pessoas. Na verdade, tornou-se uma das áreas quentes em reconhecimento de fala do computador para o potencial de combinar um pedido de telefone call-in com uma resposta on-line combinados em dialeto. Porque as pessoas parecem apreciar membros do grupo, a idéia é fazer com que o computador reconhecer rapidamente o seu dialecto e combiná-lo com um amigo telefone ou voz computadorizado que combina com você.

Os pesquisadores estão projetando sistemas de computador com reconhecimento de unidade de telefone e módulos de adaptação da unidade de telefone. sistemas de telefonia que utilizam tais tecnologias pode determinar o sotaque da pessoa chamada, extrair as características de que acento, e modificar as vozes sintetizadas responder ao chamador pelo melhor ajustamento aquele sotaque da pessoa. Se feito corretamente, pode levar a uma maior inteligibilidade e, talvez, uma melhor sensação subjetiva na conversa. Por outro lado, se não for bem feito, as pessoas podem sentir imitou ou ridicularizado. Você pode apenas imaginar como este tipo de coisa pode ser usado em sistemas de datação computadorizados.

Coincidindo dialeto é até natural para as baleias orca, golfinhos e morcegos Lança-cheirado também. Orcas e golfinhos usam guinchos coordenados e assobios para decidir o que eles vão caçar e viajar. Estudo de morcegos Lança-cheirado mostrou que as fêmeas corresponder às suas chamadas para recrutar outros membros do seu poleiro quando encontram uma fonte de alimento rico e coletivamente defender os seus alimentos de outros morcegos. De acordo com biólogos, esses sons de animais são todos os casos de sinalização para adesão ao grupo.