Os envoltórios foram retirados de um novo chatbot de IA classificado como “útil, inofensivo e honesto” na terça-feira por seu desenvolvedor, antrópico.
O chatbot, Claude 2, possui um repertório familiar. Ele pode criar resumos, escrever código, traduzir texto e executar tarefas que se tornaram de rigueur para o gênero de software.
Esta versão mais recente da oferta de IA generativa pode ser acessada via API e por meio de uma nova interface da Web que o público pode acessar nos Estados Unidos e no Reino Unido. Anteriormente, estava disponível apenas para empresas mediante solicitação ou por meio do Slack como um aplicativo.
“Pense em Claude como um colega amigável e entusiasmado ou assistente pessoal que pode ser instruído em linguagem natural para ajudá-lo em muitas tarefas”, disse a Anthropic em um comunicado.
“A Anthropic está tentando entrar no espaço do assistente pessoal”, observou Will Duffield, analista de políticas do instituto catoum think tank de Washington, DC
“Enquanto a Microsoft tem uma vantagem em trazer o Bing para sua suíte de produtividade, Claude quer ser um assistente pessoal mais útil do que o resto”, disse ele ao TechNewsWorld.
Pontuações de raciocínio aprimoradas
O Claude 2 é melhorado em relação aos modelos anteriores nas áreas de codificação, matemática e raciocínio, de acordo com a Anthropic.
Na seção de múltipla escolha de um exame da ordem, por exemplo, Claude 2 obteve 76,5%. Modelos anteriores pontuaram 73,0%.
Nos exames de leitura e redação do GRE para estudantes universitários que se candidatam à pós-graduação, Claude 2 pontuou acima do 90º percentil. No raciocínio quantitativo, ele se saiu tão bem quanto os candidatos medianos.
Na área de codificação, Claude 2 obteve 71,2% no teste Codex HumanEval, um teste de codificação em Python. Isso é uma melhoria significativa em relação aos modelos anteriores, que atingiram uma pontuação de 56,0%.
No entanto, ele se saiu apenas um pouco melhor do que seu antecessor no GSM8K, que abrange um grande conjunto de problemas de matemática do ensino fundamental, acumulando uma pontuação de 88,0%, em comparação com 85,2% do Claude 1.3.
O Claude 2 melhorou de nossos modelos anteriores em avaliações, incluindo Codex HumanEval, GSM8K e MMLU. Você pode ver o conjunto completo de avaliações em nosso cartão modelo: https://t.co/fJ210d9utd pic.twitter.com/LLOUUNfOFV
— Antrópica (@AnthropicAI) 11 de julho de 2023
atraso de conhecimento
Anthropic melhorou Claude em outra área: entrada.
A janela de contexto do Claude 2 pode lidar com até 75.000 palavras. Isso significa que Claude pode digerir centenas de páginas de documentação técnica ou até mesmo um livro. Em comparação, a entrada máxima do ChatGPT é de 3.000 palavras.
Anthropic acrescentou que Claude agora também pode escrever documentos mais longos – de memorandos a cartas e histórias de até alguns milhares de palavras.
Assim como o ChatGPT, Claude não está conectado à internet. Ele é treinado com dados que terminam abruptamente em dezembro de 2022. Isso dá uma ligeira vantagem sobre o ChatGPT, cujos dados são interrompidos atualmente em setembro de 2021 – mas ficam atrás do Bing e do Bard.
“Com o Bing, você obtém resultados de pesquisa atualizados, que também obtém com o Bard”, explicou Greg Sterling, cofundador da mídia próximaum site de notícias, comentários e análises.
No entanto, isso pode ter um impacto limitado no Claude 2. “A maioria das pessoas não verá grandes diferenças, a menos que use todos esses aplicativos lado a lado”, disse Sterling ao TechNewsWorld. “As diferenças que as pessoas podem perceber serão principalmente nas IUs.”
A Anthropic também elogiou as melhorias de segurança feitas no Claude 2. Ela explicou que possui uma “equipe vermelha” interna que pontua seus modelos com base em um grande conjunto de solicitações prejudiciais. Os testes são automatizados, mas os resultados são regularmente verificados manualmente. Em sua última avaliação, a Anthropic observou que o Claude 2 era duas vezes melhor em dar respostas inofensivas do que o Claude 1.3.
Além disso, possui um conjunto de princípios denominados constituição incorporado ao sistema que pode moderar suas respostas sem a necessidade de usar um moderador humano.
Tamping Down Danos
A Anthropic não está sozinha na tentativa de diminuir os danos potenciais causados por seu software de IA generativo. “Todo mundo está trabalhando em IAs úteis que supostamente não causam danos, e o objetivo é quase universal”, observou Rob Enderle, presidente e principal analista da Grupo Enderleuma empresa de serviços de consultoria em Bend, Ore.
“É a execução que provavelmente variará entre os provedores”, disse ele ao TechNewsWorld.
Ele observou que fornecedores industriais como Microsoft, Nvidia e IBM levaram a sério a segurança da IA desde o momento em que entraram no domínio. “Algumas outras startups parecem mais focadas em lançar algo do que algo seguro e confiável”, disse ele.
“Sempre questionei o uso de linguagem como inofensiva, porque ferramentas úteis geralmente podem ser mal utilizadas de alguma forma para causar danos”, acrescentou Duffield.
As tentativas de minimizar os danos em um programa de IA generativo podem afetar seu valor. Esse não parece ser o caso de Claude 2, no entanto. “Não parece castrado a ponto de ser inútil”, disse Duffield.
Conquistando Barreira de Ruído
Ter uma IA “honesta” é a chave para confiar nela, afirmou Enderle. “Ter uma IA prejudicial e desonesta não nos traz muito bem”, disse ele. “Mas se não confiarmos na tecnologia, não deveríamos usá-la.”
“As IAs operam em velocidades de máquina, e nós não”, continuou ele, “portanto, elas podem causar muito mais danos em um curto período do que seríamos capazes de lidar”.
“A IA pode inventar coisas que são imprecisas, mas que parecem plausíveis”, acrescentou Sterling. “Isso é altamente problemático se as pessoas confiarem em informações incorretas.”
“A IA também pode divulgar informações tendenciosas ou tóxicas em alguns casos”, disse ele.
Mesmo que o Claude 2 cumpra sua promessa de ser um chatbot de IA “útil, inofensivo e honesto”, ele terá que lutar para ser notado em um mercado que está se tornando muito barulhento.
“Estamos sobrecarregados com o número de coisas anunciadas, tornando mais difícil superar o barulho”, observou Enderle.
“ChatGPT, Bing e Bard são os mais populares, e a maioria das pessoas verá poucos motivos para usar outros aplicativos”, acrescentou Sterling.
Ele observou que tentar diferenciar Claude como a IA “amigável” provavelmente não será suficiente para diferenciá-lo dos outros players do mercado. “É uma abstração”, disse ele. “Claude precisará ter um desempenho melhor ou ser mais útil para obter adoção. As pessoas não verão nenhuma distinção entre ele e seu rival mais conhecido, o ChatGPT.”
Como se os altos níveis de ruído não bastassem, há tédio para lidar. “É mais difícil impressionar as pessoas com qualquer tipo de novo chatbot do que há seis meses”, observou Duffield. “Há um pouco de fadiga do chatbot se instalando.”