ChatGPT evolui e fica mais rápido para ouvir, conversar e descrever objetos

A OpenAI, desenvolvedora do ChatGPT, anunciou nesta segunda-feira (13) o GPT-4o. Trata-se da nova versão do modelo de inteligência artificial (IA) usado pelo robô conversador que ganhou fama nos últimos tempos.

É o primeiro modelo da OpenAI criado para combinar textos, imagens e áudios em tempo real por conta própria. Segundo a empresa, o GPT-4o tem mais capacidade para entender esses conteúdos do que seu antecessor, o GPT-4, lançado em março de 2023 e que é pago.

A atualização será liberada gradualmente, para todos os usuários, inclusive quem está na versão gratuita.

O QUE MUDA, NA PRÁTICA? A promessa é que vai dar para falar e mostrar coisas para o robô e ter respostas numa velocidade mais parecida com a de uma conversa com pessoas, em vez de apenas digitar o que você quer saber ou pedir.

Nas redes sociais, usuários compararam a nova versão com a assistente virtual do filme “Ela” (“Her”, no título original), em que o protagonista se apaixona por um sistema operacional. A reação chegou a Altman, que postou o nome do filme em seu perfil no X (antigo Twitter).

Para demonstrar, a OpenAI divulgou o vídeo em que uma pessoa pede para o ChatGPT avaliar sua roupa para uma entrevista de emprego. Em outro teste, ele foi usado para criar uma música.

Até então, o ChatGPT seguia várias etapas para analisar e responder comandos de voz. Primeiro, era preciso usar um modelo para converter o áudio para texto. Depois, o GPT-3.5 ou o GPT-4 interpretava o conteúdo e criava uma resposta. Por fim, outro modelo transformava o material de volta para áudio.

Segundo a OpenAI, o GPT-4o leva, em média, 320 milissegundos para responder comandos de áudio – o tempo mínimo foi de 232 milissegundos. A empresa diz que ele é muito mais veloz que os modelos antecessores: em média, o GPT-3.5 leva 2,8 segundos e o GPT-4, que é pago, toma 5,4 segundos.

“Com o GPT-4o, treinamos um único modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural”, disse a OpenAI, em comunicado. 

O presidente-executivo da OpenAI, Sam Altman, afirmou que este é o melhor modelo já criado pela empresa. “É inteligente, é rápido, é nativamente multimodal”, disse.

A empresa também anunciou um aplicativo do ChatGPT para computador, que se junta à versão para navegadores e ao aplicativo para Android e iOS.

Quando o GPT-4o será liberado?

A OpenAI informou que começou a liberar nesta segunda os recursos de texto e foto do GPT-4o. Eles também estão disponíveis para desenvolvedores usarem as funcionalidades em seus próprios aplicativos.

Usuários da versão gratuita poderão usá-lo com um limite de mensagens que não foi informado, enquanto assinantes do ChatGPT Plus terão um limite maior.

O uso do GPT-4o com comandos de voz será liberado nas próximas semanas para quem paga pelo ChatGPT Plus.

A empresa não revelou quando os recursos de vídeos chegarão para todos os usuários, mas informou que eles chegarão primeiro para um grupo restrito de desenvolvedores parceiros. Do G1.