O grande modelo de linguagem multimodal, GPT-4, está pronto para o horário nobre, embora, ao contrário dos relatórios que circulam desde sexta-feira, não suporte a capacidade de produzir vídeos a partir de texto.
O GPT-4 pode, no entanto, aceitar entrada de imagem e texto e produzir saída de texto. Em uma variedade de domínios – incluindo documentos com texto e fotografias, diagramas ou capturas de tela – o GPT-4 exibe recursos semelhantes aos das entradas somente de texto, explicou a OpenAI em seu site.
Esse recurso, no entanto, está em “visualização de pesquisa” e não estará disponível publicamente.
A OpenAI explicou que o GPT-4, embora menos capaz que os humanos em muitos cenários do mundo real, exibe desempenho de nível humano em vários benchmarks profissionais e acadêmicos.
Por exemplo, passou em um exame simulado da ordem com uma pontuação entre os 10% melhores candidatos. Em contraste, a pontuação do GPT-3.5 ficou em torno dos 10% inferiores.
Saltos sobre os modelos anteriores
Um dos primeiros usuários do GPT-4 é a Casetext, criadora de um assistente jurídico de IA, CoCounsel, que diz ser capaz de passar nas partes de múltipla escolha e escrita do Uniform Bar Exam.
“O GPT-4 supera o poder dos modelos de linguagem anteriores”, disse Pablo Arredondo, cofundador e diretor de inovação da Casetext, em comunicado. “A capacidade do modelo não apenas de gerar texto, mas também de interpretá-lo, anuncia nada menos que uma nova era na prática do direito.”
“O CoCounsel da Casetext está mudando a forma como a lei é praticada, automatizando tarefas críticas e demoradas e liberando nossos advogados para se concentrarem nos aspectos mais impactantes da prática”, acrescentou Frank Ryan, presidente das Américas da DLA Piper, um escritório de advocacia global, em uma Comunicado de imprensa.
A OpenAI explicou que passou seis meses alinhando o GPT-4 usando lições de seu programa de testes adversários, bem como o ChatGPT, resultando em seus melhores resultados de todos os tempos – embora longe de serem perfeitos – em factualidade, dirigibilidade e recusando-se a sair dos trilhos de proteção.
Acrescentou que a execução do treinamento GPT-4 foi estável sem precedentes. Foi o primeiro grande modelo da empresa cujo desempenho de treinamento foi capaz de prever antecipadamente com precisão.
“À medida que continuamos a nos concentrar no dimensionamento confiável”, escreveu, “pretendemos aprimorar nossa metodologia para nos ajudar a prever e nos preparar para recursos futuros com cada vez mais antecedência – algo que consideramos crítico para a segurança”.
Distinções sutis
A OpenAI observou que a distinção entre GPT-3.5 e GPT-4 pode ser sutil. A diferença surge quando a complexidade da tarefa atinge um limite suficiente, explicou. O GPT-4 é mais confiável e criativo e pode lidar com instruções mais sutis do que o GPT-3.5.
O GPT-4 também pode ser mais personalizado do que seu antecessor. Em vez da personalidade clássica do ChatGPT com verbosidade, tom e estilo fixos, explicou o OpenAI, os desenvolvedores – e em breve os usuários do ChatGPT – agora podem prescrever o estilo e a tarefa de sua IA descrevendo essas instruções na mensagem do “sistema”. As mensagens do sistema permitem que os usuários da API personalizem significativamente a experiência de seus usuários dentro dos limites.
Os usuários da API terão que esperar inicialmente para experimentar esse recurso, no entanto, já que seu acesso ao GPT-4 será restrito por uma lista de espera.
A OpenAI reconheceu que, apesar de suas capacidades, o GPT-4 tem limitações semelhantes aos modelos GPT anteriores. Mais importante, ainda não é totalmente confiável. Ele “alucina” fatos e comete erros de raciocínio.
Deve-se tomar muito cuidado ao usar as saídas do modelo de linguagem, principalmente em contextos de alto risco, alertou a OpenAI.
O GPT-4 também pode estar errado em suas previsões, não tendo o cuidado de verificar novamente o trabalho quando é provável que cometa um erro, acrescentou.
T2V ausente
A expectativa para o novo lançamento do GPT aumentou no fim de semana depois que um executivo da Microsoft na Alemanha sugeriu que um recurso de conversão de texto em vídeo faria parte do pacote final.
“Apresentaremos o GPT-4 na próxima semana, onde teremos modelos multimodais que oferecerão possibilidades completamente diferentes – por exemplo, vídeos”, disse Andreas Braun, diretor de tecnologia da Microsoft na Alemanha, em um evento para a imprensa na sexta-feira.
Text-to-video seria muito perturbador, observou Rob Enderle, presidente e principal analista da Grupo Enderleuma empresa de serviços de consultoria em Bend, Ore.
“Isso pode mudar drasticamente a forma como os filmes e programas de TV são criados, como os programas de notícias são formatados, fornecendo um mecanismo para personalização altamente granular do usuário”, disse ele ao TechNewsWorld.
Enderle observou que um uso inicial da tecnologia poderia ser na criação de storyboards a partir de rascunhos de roteiros. “À medida que essa tecnologia amadurece, ela avançará para algo mais próximo de um produto acabado.”
Proliferação de vídeo
O conteúdo criado por aplicativos de texto para vídeo ainda é básico, observou Greg Sterling, cofundador da mídia próximaum site de notícias, comentários e análises.
“Mas a conversão de texto em vídeo tem o potencial de ser prejudicial no sentido de que veremos muito mais conteúdo de vídeo gerado a um custo muito baixo ou quase nenhum”, disse ele ao TechNewsWorld.
“A qualidade e eficácia desse vídeo é uma questão diferente”, continuou ele. “Mas eu suspeito que parte disso será decente.”
Ele acrescentou que explicadores e informações básicas de como fazer são bons candidatos para conversão de texto em vídeo.
“Posso imaginar que algumas agências o usarão para criar vídeos para pequenas e médias empresas usarem em seus sites ou no YouTube para fins de classificação”, disse ele.
“Não será bom – pelo menos no começo – em qualquer conteúdo de marca”, continuou ele. “O conteúdo de mídia social é outro caso de uso. Você verá criadores no YouTube usá-lo para aumentar o volume para gerar visualizações e receita de anúncios.”
Não se deixe enganar por deepfakes
Como foi descoberto com o ChatGPT, existem perigos potenciais para tecnologias como texto para vídeo.
“Os casos de uso mais perigosos, como todas as ferramentas como esta, são os golpes comuns que se fazem passar por parentes ou ataques a pessoas ou instituições particularmente vulneráveis”, observou Will Duffield, analista de políticas da instituto catoum think tank de Washington, DC.
Duffield, no entanto, descartou a ideia de usar texto para vídeo para produzir “deepfakes” eficazes.
“Quando vimos ataques com bons recursos, como o deepfake russo de Zelenskyy se rendendo no ano passado, eles falharam porque há contexto e expectativa suficientes no mundo para refutar o falso”, explicou ele.
“Temos noções muito bem definidas de quem são as figuras públicas, do que se tratam, o que podemos esperar que façam”, continuou ele. “Então, quando vemos na mídia que eles se comportam de uma maneira aberrante, que não condiz com essas expectativas, é provável que sejamos muito críticos ou céticos em relação a isso.”