A OpenAI anunciou hoje uma série de atualizações para o ChatGPT. As principais mudanças estão nas formas como os usuários interagem com a inteligência artificial, já que as últimas novidades se concentraram em aprimorar o conhecimento da IA.
Uma das principais adições é o controle por voz, que permitirá aos usuários interagirem com a IA via comandos verbais. O recurso, segundo a OpenAI, proporciona uma experiência mais intuitiva e natural — quase como uma assistente virtual.
O que diferencia esse desenvolvimento é o compromisso da OpenAI não apenas em fazer a IA falar, mas também em garantir respostas mais precisas, fruto de melhorias substanciais na tecnologia por debaixo do recurso.
De acordo com a empresa, os principais componentes que impulsionam a funcionalidade incluem o Whisper, sistema da OpenAI que transcreve palavras faladas em texto, e um novo modelo de texto para fala capaz de gerar áudio semelhante à voz humana a partir de texto simples e breves amostras de fala.
Essa inovação na tecnologia de texto para fala resultou em colaborações com diversas empresas, incluindo o Spotify, com o objetivo de traduzir podcasts para diversos idiomas, preservando as vozes originais dos apresentadores. 😲
Ainda assim, a OpenAI diz estar consciente dos potenciais perigos associados às vozes sintéticas, incluindo os riscos que elas trazem. Por isso, há uma abordagem cautelosa, com planos de restringir a disponibilidade a parcerias cuidadosamente selecionadas.
Outro recurso que estreará no ChatGPT é a busca de imagens. Com ele, usuários poderão tirar uma foto de algum objeto, cena ou item de interesse, e o chatbot analisará a imagem para fornecer informações relevantes ou respostas à consulta.
Além disso, a plataforma oferecerá uma ferramenta de desenho versátil e permitirá que os usuários complementem sua imagem com perguntas faladas ou digitadas, possibilitando uma experiência dinâmica e interativa.
Ainda segundo a OpenAI, o recurso de voz estará disponível no iOS e no Android; já o de imagem, em todas as plataformas. O lançamento, segundo a empresa, ocorrerá para usuários Plus e Enterprise “ao longo das próximas duas semanas”. Outros grupos de usuários, incluindo desenvolvedores, deverão receber as funções “em breve”.
via The Verge