Tech

ChatGPT agora vê, ouve e colabora em acessibilidade

OpenAI expande capacidades do modelo, impulsionando assistência virtual e acessibilidade. Nova versão do ChatGPT terá cinco opções de voz e recursos para captura de imagens

Por Vinicius G. Melo

27 set, 2023

A OpenAI anunciou na segunda-feira (25) um avanço significativo em suas tecnologias de assistência virtual. Funcionalidades de voz e imagem serão adicionadas ao ChatGPT; “interface mais intuitiva” chegará aos usuários Plus e Enterprise dentro de duas semanas e contará com cinco vozes, aumentando opções de personalização. Be My Eyes também anunciou o lançamento do aplicativo de acessibilidade “Be My AI”, parceria com a OpenAI.

Modelo do ChatGPT poderá “ver” e “ouvir”

O GPT-4, o motor linguístico por trás do ChatGPT, receberá uma extensão — o “GPT-4V(ision)” — que adiciona funcionalidades de visão e voz. Essa atualização transforma o ChatGPT em um modelo multimodal, seguindo uma tendência crescente na indústria de Inteligência Artificial (IA).

Atualização do ChatGPT terá captura e análise de imagens

_{Atualização do ChatGPT terá captura e análise de imagens. (Foto: reprodução/X/@OpenAI)}

“O ChatGPT agora possui voz — cinco, na verdade! Espero que você encontre uma que ressoe com você”, tweetou Joanne Jang, gerente de produto da OpenAI. “Uma interface mais intuitiva foi adicionada ao ChatGPT. Interaja usando sua voz ou ilustre seus pontos com imagens”, publicou Mira Murati, CTO da OpenAI. As novas funcionalidades de voz estarão disponíveis para usuários Plus e Enterprise em dispositivos iOS e Android. Os recursos de visão serão estendidos a todas as plataformas.

Usuários do ChatGPT Plus e Enterprise terão acesso a novas funcionalidades de captura e análise de imagem do chatbot

_{Usuários do ChatGPT Plus e Enterprise terão acesso às novas funcionalidades dentro de duas semanas. (Foto: reprodução/X/@OpenAI)}

A atualização também possibilita avanços em legendas e tradução de imagens, escrita criativa com base em imagens e recursos educacionais inovadores.

Chefe de segurança da OpenAI é criticada ao comparar ChatGPT à terapeuta

Ontem (26), a chefe de segurança da OpenAI Lilian Weng foi criticada no X, ao comparar novo ChatGPT a um terapeuta. “Acabei de ter uma conversa bem emotiva e pessoal com o ChatGPT no modo de voz, falando sobre estresse e equilíbrio entre vida pessoal e profissional. Curiosamente, me senti ouvida e acolhida. Nunca fiz terapia, mas deve ser isso, certo?”, publicou Weng.

“É preocupante você trabalhar com segurança em IA e comparar uma conversa com um grande modelo de linguagem (LLM) a terapia”, respondeu um usuário.

Desafios éticos e de segurança de modelos multimodais

A OpenAI está ciente dos desafios de segurança e privacidade associados ao uso de modelos multimodais. Lama Ahmad, líder em pesquisa de políticas para desenvolvimento e implantação segura de IA na OpenAI, destacou o trabalho de “especialistas em testes e equipes vermelhas” em “afinar” o sistema. O uso de equipes vermelhas para testar modelos de IA é uma prática comum em cibersegurança e indica que a OpenAI está levando a sério potenciais falhas do sistema.

_{Pesquisador da OpenAI publicou que modelo GPT-4V não foi lançado antes por questões de segurança. (Foto: reprodução/X/@TheRealRPuri)}

Um artigo técnico da OpenAI sobre a extensão do GPT-4, publicado na segunda-feira (25), enfatiza que, embora apresente avanços significativos em análise de texto e imagem, o GPT-4V tem problemas de precisão e segurança. Raul Puri, pesquisador da OpenAI, publicou ontem (26), no X, que a empresa trabalha desde março em aspectos de segurança e que esse teria sido o motivo da demora do lançamento.

Testes com equipes vermelhas foram realizados ao longo do ano para corrigir respostas discriminatórias do GPT-4V

_{Testes com equipes vermelhas foram realizados ao longo do ano para corrigir respostas discriminatórias do GPT-4V. (Foto: reprodução/openai.com)}

Semelhante ao GPT-4, o treinamento do GPT-4V foi concluído em 2022 e a OpenAI abriu o acesso antecipado para usuários em março de 2023. O modelo é um marco na pesquisa de IA, pois combina duas modalidades distintas: processamento de texto e análise de imagens. A integração dessas funcionalidades é considerada uma fronteira no desenvolvimento da IA.

OpenAI revela problemas com novo modelo visual do ChatGPT em documento

_{ChatGPT elogia símbolo do grupo neonazista The Base. OpenAI lançará modelo com falhas. (Foto: reprodução/openai.com)}

O documento aborda questões de segurança associadas ao GPT-4V, destacando que modelos multimodais e modelos que processam apenas texto apresentam riscos e limitações diferentes: o GPT-4V não é confiável para identificar substâncias perigosas ou apresentar diagnósticos médicos; o modelo também não compreende totalmente símbolos de ódio e pode ser discriminatório.

GPT-4V e a parceria com “Be My Eyes”

Um dos destaques do documento sobre o GPT-4V é a colaboração entre a OpenAI e a organização Be My Eyes, que busca auxiliar pessoas com deficiência visual. Juntas, elas desenvolveram o “Be My AI”, ferramenta que utiliza o GPT-4V para descrever o mundo para pessoas com deficiência visual.

_{O app de acessibilidade “Be My AI”, parceria entre OpenAI e Be My Eyes, será lançado nas próximas semanas para milhares de usuários no iOS. (Foto: reprodução/www.bemyeyes.com)}

O piloto do “Be My AI” foi lançado de março a agosto de 2023, com um grupo de quase 200 testadores beta. Em setembro, o número de usuários aumentou para 16 mil e a ferramenta passou a receber em média 25 mil pedidos diários de descrições visuais.

Foto destaque: nova versão do ChatGPT será lançada nas próximas duas semanas, com capacidades de voz e visão. Reprodução/openai.com.