Equipe da Siri publica três artigos contando sobre os processos internos da assistente

Há alguns assuntos no mundo da tecnologia que somente progridem se seus estudos forem compartilhados, de modo que todas as empresas, até concorrentes, possam avançar juntas a fim de apresentarem boas opções para os usuários.

Publicidade

Este é o caso da inteligência artificial e a Apple sabe disso, tanto que em dezembro do ano passado ela começou a permitir que seus pesquisadores da área pudessem publicar descobertas.

Dentro da IA, nós temos um assunto ainda mais badalado nos últimos anos, que é o aprendizado de máquina. Para compartilhar especificamente isso, a Apple inaugurou em julho o seu “Apple Machine Learning Journal”. Agora, a equipe responsável pela Siri publicou mais três artigos, baseados em pesquisas que estão sendo apresentadas na Interspeech 2017, conferência que está acontecendo em Estocolmo, na Suécia.

O primeiro publicado ontem (Issue 2) intitula-se “Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization” e explica sobre diversos aspectos relacionados aos vários idiomas, incluindo como inicializam a Siri em outras línguas da maneira mais “suave” possível.

Publicidade

O segundo artigo (Issue 3), intitulado “Inverse Text Normalization as a Labeling Problem”, trata sobre a maneira que a assistente utiliza o aprendizado de máquina para exibir coisas como datas, horários, endereços, montantes em uma moeda e mais.

Já o último artigo (Issue 4; “Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis”) mostra a tecnologia por trás das melhorias de voz da Siri nos últimos sistemas. Este deve interessar até os leitores casuais, já que há exemplos de fala da assistente virtual desde o iOS 9 até o 11, que ainda será lançado para o grande público; é muito bacana analisarmos a fluidez da fala que há no sistema mais recente.

Para o iOS 11, escolhemos uma nova voz feminina com o objetivo de melhorar a naturalidade, a personalidade e a expressividade da voz da Siri. Avaliamos centenas de candidatas antes de escolher a melhor. Então, gravamos mais de 20 horas de fala e construímos uma nova voz TTS usando a nova tecnologia TTS baseada em aprendizagem profunda. Como resultado, a nova voz Siri dos Estados Unidos parece melhor do que nunca. A Tabela 1 contém alguns exemplos das vozes baseadas em aprendizagem profunda do Siri no iOS 11 e 10 em comparação com uma voz de seleção de unidade tradicional no iOS 9.

Ainda que estejam todos em inglês, quem gosta desse tema vai curtir bastante. Para ler mais, acesse esta página.

via 9to5Mac

Posts relacionados

Comentários

Carregando os comentários…