Sabe aquela história de que “a vida imita a arte” e vice-versa? Em tecnologia, isso também é aplicado, a um certo grau. Pelo menos foi o que pareceu ter acontecido com Alex Acero, o executivo responsável pela Siri, ao ver o filme “Her” (“Ela”), cujo enredo gira em torno de um romance entre uma assistente virtual e um humano.
Em uma entrevista à WIRED, o executivo contou de que maneira tentou entender como um humano poderia se apaixonar por “algo” que nem sequer via. Ele chegou a uma resposta: a voz da assistente, interpretada pela atriz Scarlett Johansson, era “natural, não robótica”.
Apesar de isso ser bastante óbvio e até ser basicamente a intenção da empresa desde a gênese da Siri, algo certamente mudou no iOS 11. Como comentamos aqui, a diferença pode ser notada neste artigo publicado no Apple Machine Learning Journal, por meio de exemplos em áudio das últimas versões do iOS. De fato, a fala da assistente está muito mais natural, com pausas e traços de interpretação dos elementos textuais.
A base da Siri é o “aprendizado profundo” e a inteligência artificial, tecnologias que permitiram que a melhora acontecesse. De acordo com a WIRED, sua capacidade de reconhecimento de voz agora chega a reconhecer corretamente cerca de 95% da fala do usuário, o que é muito mais do que suas concorrentes Alexa e Cortana.
Por outro lado, como sabemos, há limitações muito primárias que impossibilitam o uso regular da Siri. Essas limitações, conforme contaram executivos da Maçã, teriam sido culpa de alguns problemas surgidos da parceria com terceiros nos primeiros anos de sua criação, e que a empresa está trabalhando para superar isso.
“Era como correr uma corrida e, você sabe, outra pessoa estava nos segurando”, diz Greg Joswiak, vice-presidente de marketing de produtos da Apple. Joswiak disse que a Apple sempre teve grandes planos para Siri, “essa ideia de uma assistente com a qual você poderia conversar em seu telefone, e tê-la fazendo essas coisas para você de uma maneira mais fácil”, mas a tecnologia simplesmente não era boa o suficiente. “Você sabe, lixo, lixo,” ele diz.
Joswiak disse que o objetivo da Apple desde o início foi fazer da Siri uma máquina que “fazia as coisas acontecerem”, não para ser de uso “trivial”, como contar piadas e fazer perguntas bobas. Quer dizer, sua intenção é que realmente a assistente permita automatizar vários processos e ajude o usuário ao realizar suas tarefas, como demonstrado nos comerciais estrelados por Dwayne “The Rock” Johnson.
https://www.youtube.com/watch?v=LEpygPbOJWU
Uma das vantagens da Siri em relação às demais assistentes é a possibilidade de falar e entender diversas línguas, como já contamos aqui, e coletando dados anonimamente conforme os usuários interagem com ela.
Além disso, mesmo nos locais onde não há suporte à Siri, mas apenas ao ditado, os dados são coletados para usos futuros da assistente. Em relação à escolha da voz em cada idioma, o processo também é meticuloso.
Eles começam com centenas de pessoas, todas trazidas para gravar uma amostragem de coisas que Siri poderia dizer. Acero, então, trabalha com os designers da Apple e com a equipe de interface do usuário para decidir quais as vozes de que mais gostam. Esta parte pende mais para a arte do que para a ciência — eles querem ouvir um inefável senso de utilidade e camaradagem, espalhafatoso sem ser afiado, feliz sem ser caricato.
Todos os esforços são para que a Siri se torne mais uma pessoa confiável do que um robô, fazendo-a “ótima” até mesmo quando não souber responder corretamente. No iOS 11, já ouviremos a assistente muito mais proativa e certamente seu uso se potencializará com a chegada do HomePod em dezembro.
A matéria completa, com os detalhes, pode ser pode ser lida aqui.
via The Loop