O melhor pedaço da Maçã.
Shutterstock.com
Inteligência artificial, ChatGPT, etc.

Esqueça o Gemini: o iPhone precisa mesmo é de uma loja de LLMs

Refletindo sobre a coluna da semana passada, em que escrevi sobre como a hipótese de o Google Gemini marcar presença no iPhone pode ser mais positiva do que ruim, cheguei a uma nova conclusão: ter o Gemini no iPhone é melhor do que não ter nada? Sem dúvida. Mas sabe o que é melhor do que ter o Gemini no iPhone? Ter acesso a todos os outros LLMs 1Large language models, ou grandes modelos de linguagem. também.

Publicidade

O que estou prestes a propor não é algo provável, e vai contra tudo o que a Apple vem fazendo no iOS (a ponto de lhe gerar inúmeros processos de práticas anticompetitivas), mas imagine só: e se o iOS nos permitisse acessar, nativamente, um ou mais LLMs de nossa preferência, ao invés de apenas contar de maneira fixa com o Gemini?

A má notícia é que, além da improbabilidade, a história nos mostra que, mesmo quando a Apple decide fazer algo assim, ela o faz da uma forma pouco prática ou útil.

Se você usa o indispensável TextExpander, sabe do que estou falando. No macOS, basta você instalar o TextExpander, e ele passa a permitir que você use atalhos de teclado em qualquer contexto de digitação, em qualquer parte do sistema 2Sim, o macOS e o iOS disponibilizam atalhos de teclado há anos, mas a funcionalidade oferecida pelo recurso nativo não é uma fração das possibilidades oferecidas pelo TextExpander..

Animação do funcionamento do TextExpander no Mac.

Já no iPhone, o sistema não permite esse tipo de integração. Por isso, restou ao TextExpander lançar um aplicativo que se comporta como um teclado de terceiro e, ali dentro, disponibilizar os atalhos de teclado. Esse fluxo de uso é, como os usuários do TextExpander sabem, terrível.

Teclado do customizado do TextExpander no iOS.

E a culpa, é claro, não é do TextExpander, mas sim do gesso que a Apple aplica no iOS sob o (importante, mas por vezes exagerado) véu da segurança. Ao mesmo tempo em que ela protege pessoas que cairiam em golpes que se aproveitariam dessa abertura do sistema, ela frustra quem busca algo além do básico na interseção entre funcionalidades nativas e recursos complementares de produtividade.

OK, mas e os LLMs?

Pois bem. A ideia seria a seguinte: da mesma forma que é possível cadastrar diferentes provedores de email no aplicativo Mail, se o iOS 18 permitisse aos usuários fazerem login no ChatGPT, no Perplexity, no Google Gemini, no You, no Microsoft Copilot, no Mistral, no Claude e em outros diretamente nos ajustes do sistema como fontes complementares da Siri — talvez via um app? 👀 —, o iOS poderia possibilitar uma integração nativa entre o usuário e os seus LLMs favoritos, em vez de obrigar a pessoa a ir atrás do LLM no Safari, ou num app que fica isolado do resto do sistema.

Publicidade

Isso seria especialmente útil para quem já se familiarizou ou ajustou um LLM específico para as suas preferências e necessidades, o que para usos frequentes, se traduz em um ganho imenso de produtividade e de assertividade do modelo.

Publicidade

Tomemos como exemplo o ChatGPT. Quem assina o plano pago da plataforma tem acesso a uma funcionalidade de personalização que permite ao usuário fornecer informações importantes sobre o seu contexto de uso, além de também permitir ajustar a forma como o ChatGPT deve se comportar em todas as conversas.

Interface de Instruções Customizadas do ChatGPT.

Na prática, essa função abre possibilidades como, por exemplo, a de um médico poder dizer “na maior parte do tempo, vou lhe utilizar para enviar artigos científicos em outros idiomas. Por isso, quando você for traduzir ou gerar respostas, mantenha sempre em mente o contexto de termos médicos ou científicos e ofereça uma tradução mais precisa. E sempre que me trouxer afirmações, liste as referências com a citação no Estilo Vancouver”.

Publicidade

Já um usuário que queira treinar o inglês pode instruir o ChatGPT a sempre formular respostas utilizando palavras mais frequentes do vocabulário, ou pedir para que o modelo sempre o corrija quando cometer algum erro de grafia ou de gramática ao longo da conversa.

Um LLM feito pela Apple poderia oferecer algo parecido? Sem dúvida. Mas antes, ela precisa disponibilizar algo que esteja no nível do ChatGPT para começo de conversa e, dada a possibilidade da parceria com o Google, isso parece tão improvável quanto a loja de LLMs.

E a privacidade?

Aqui, como sempre, as coisas ficam mais nebulosas, já que por vezes o LLM seria usado nos contextos que envolvem a privacidade não só do usuário, mas também de um ou mais interlocutores. Pense, por exemplo, em uma troca de mensagens em grupo. A pessoa usando o LLM pode estar confortável com a ideia de copiar e colar o histórico de mensagens na formulação de uma resposta, mas e os outros participantes? Ou que tal o uso em ambientes corporativos, com históricos de emails contendo informações sigilosas?

É bem verdade que, para todos esses casos, nada impede o usuário de copiar e colar os textos no ChatGPT. Por outro lado, geralmente é aqui que a Apple diz “sim, e eu sou diferente do meu concorrente. Se ele quiser permitir isso, o problema é dele. Eu não vou permitir”. Voltamos ao papo do gesso.

Dito isso, a Apple também já tem a solução para esse problema, e ela se chama notarização. Se houvesse um processo de aprovação para controlar quais LLMs poderiam ter acesso ao iOS 3Alô, antitruste!, a Apple teria a possibilidade de revogar o acesso de um mau agente que se revelasse pouco confiável, ou que mudasse seus termos de uso a ponto de torná-los pouco seguros.

De quebra, ao basicamente terceirizar esse (importantíssimo, é claro) aspecto do iOS enquanto não consegue oferecer uma boa solução por conta própria, a Apple teria mais tempo para trabalhar e buscar resolver questões delicadas relacionadas a vieses do modelo, alucinações e a sempre polêmica questão dos dados utilizados no treinamento.

E para ser claro: oferecer um LLM multimodal eficiente e privado é o mínimo que esperamos da Apple, e é impensável que o futuro do iOS e do macOS não inclua algo assim. Mas se neste momento as alternativas forem terceirizar e oferecer a escolha entre provedores que já sabem o que estão fazendo, ou não oferecer um LLM nativo útil por sabe-se lá quanto tempo, eu definitivamente prefiro a primeira opção.

Resumo da ópera

Como eu disse na semana passada, se a Apple permitir o acesso do Google Gemini ao iPhone, eu imagino que seja apenas ao modelo Nano, feito para já vir instalado no sistema e não necessitar da internet para nada. Isso torna a funcionalidade menos útil do que o acesso a um modelo 10x, 20x maior e que mora na web, como é o caso do Gemini Pro, mas pode tornar mais palatável a ideia de termos o Google mais presente nos nossos iPhones.

Do ponto de vista prático e de utilidade dos LLMs, existe uma grande diferença entre apenas mostrar pontualmente meia dúzia de emails ao Google Gemini para que ele lembre-se momentaneamente da forma como você escreve, em comparação com ter, por exemplo, um LLM nativo e que (com privacidade em mente) utilize mensagens, fotos, localização, arquivos, histórico de navegação e mais como parte da customização permanente do modelo.

Algo como essa segunda situação tornaria o iPhone a ferramenta de IA personalizada mais útil do mundo da noite para o dia, e creio que seja isso que esperamos da Apple no futuro.

Porém, até mesmo os mais otimistas devem reconhecer que as chances de isso acontecer em breve são baixíssimas, especialmente considerando que, se a Apple está falando com o Google, provavelmente é para suprir uma carência que ela já sabe não conseguirá resolver conta própria tão cedo.

Já se a ideia da Apple for de realmente dar o braço a torcer e ceder ao Gemini Pro para oferecer funcionalidades de IA, neste caso não consigo ver essa solução como algo mais eficiente do que permitir ao usuário a integração com seu LLM de escolha ou de confiança, especialmente considerando que há LLMs mais eficientes do que o Gemini no mercado.

Apenas na última semana, por exemplo, o Claude 3 Opus da Anthropic ultrapassou o ChatGPT-4 e se tornou o novo líder do ranking da HuggingFace . Nesse mesmo ranking, o Gemini Pro figura na quarta colocação. Já o Nano, é claro, sequer aparece na lista.

Notas de rodapé

  • 1
    Large language models, ou grandes modelos de linguagem.
  • 2
    Sim, o macOS e o iOS disponibilizam atalhos de teclado há anos, mas a funcionalidade oferecida pelo recurso nativo não é uma fração das possibilidades oferecidas pelo TextExpander.
  • 3
    Alô, antitruste!

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

MM Fórum: M1, IRPF 2024 no Mac, iPhone SE em 2020 e mais!

Próx. Post

Vídeo: Q&A — ainda vale a pena comprar o MacBook Air M1?

Posts Relacionados