A inovação que torna os rostos robóticos mais agradáveis
Quando as pessoas falam cara a cara, quase metade da atenção é voltada para o movimento dos lábios. Apesar disso, os robôs ainda têm grandes dificuldades em mover suas bocas de maneira convincente. Mesmo as máquinas humanoides mais avançadas frequentemente dependem de movimentos labiais rígidos e exagerados que lembram um fantoche, supondo que tenham um…
Quando as pessoas falam cara a cara, quase metade da atenção é voltada para o movimento dos lábios. Apesar disso, os robôs ainda têm grandes dificuldades em mover suas bocas de maneira convincente. Mesmo as máquinas humanoides mais avançadas frequentemente dependem de movimentos labiais rígidos e exagerados que lembram um fantoche, supondo que tenham um rosto.
Os humanos atribuem uma importância enorme à expressão facial, especialmente aos movimentos sutis dos lábios. Embora uma maneira desajeitada de andar ou gestos de mão desastrados possam ser perdoados, até mesmo pequenos erros nos movimentos faciais tendem a se destacar imediatamente. Essa sensibilidade contribui para o que os cientistas chamam de “Vale Estranho”, um fenômeno onde os robôs parecem inquietantes em vez de realistas. O movimento labial deficiente é uma das principais razões pelas quais os robôs podem parecer estranhos ou emocionalmente planos, mas os pesquisadores dizem que isso pode mudar em breve.
Um Robô Que Aprende a Mover Seus Lábios
No dia 15 de janeiro, uma equipe da Columbia Engineering anunciou um grande avanço na robótica humanoide. Pela primeira vez, os pesquisadores construíram um robô que pode aprender movimentos labiais faciais para falar e cantar. Suas descobertas, publicadas na Science Robotics, mostram o robô formando palavras em vários idiomas e até mesmo interpretando uma música de seu álbum de estreia gerado por IA, “hello world_.”
Em vez de depender de regras predefinidas, o robô aprendeu por meio da observação. Começou descobrindo como controlar seu próprio rosto usando 26 motores faciais separados. Para fazer isso, ele assistiu seu reflexo em um espelho e, depois, estudou horas de vídeos de fala e canto humanos no YouTube para entender como as pessoas movem os lábios.
“Quanto mais ele interage com humanos, melhor ele ficará,” disse Hod Lipson, Professor de Inovação James e Sally Scapa no Departamento de Engenharia Mecânica e diretor do Creative Machines Lab da Columbia, onde a pesquisa foi realizada.
Veja o link para o vídeo “Robô Sincronizando Lábios” abaixo.
Robô Assiste a Si Mesmo Falando
Criar movimentos labiais que pareçam naturais em robôs é especialmente difícil por duas razões principais. Primeiro, requer hardware avançado, incluindo material facial flexível e muitos pequenos motores que devem operar silenciosamente e em perfeita coordenação. Em segundo lugar, o movimento dos lábios está intimamente ligado aos sons da fala, que mudam rapidamente e dependem de sequências complexas de fonemas.
Os rostos humanos são controlados por dezenas de músculos localizados sob a pele macia, permitindo que os movimentos fluam naturalmente com a fala. No entanto, a maioria dos robôs humanoides tem rostos rígidos com movimento limitado. Seus movimentos labiais são tipicamente ditados por regras fixas, o que leva a expressões mecânicas e não naturais que são perturbadoras.
Para enfrentar esses desafios, a equipe da Columbia projetou um rosto robótico flexível com um número elevado de motores e permitiu que o robô aprendesse o controle facial de forma autônoma. O robô foi colocado em frente a um espelho e começou a experimentar milhares de expressões faciais aleatórias. Assim como uma criança explorando seu reflexo, ele aprendeu gradualmente quais movimentos de motor produziam formas faciais específicas. Esse processo dependia do que os pesquisadores chamam de um modelo de linguagem “visão-ação” (VLA).
Aprendendo Com Fala e Música Humanas
Após entender como seu próprio rosto funcionava, o robô foi mostrado vídeos de pessoas falando e cantando. O sistema de IA observou como as formas da boca mudavam com diferentes sons, permitindo-lhe associar a entrada de áudio diretamente com o movimento do motor. Com essa combinação de auto-aprendizagem e observação humana, o robô conseguiu converter som em movimento labial sincronizado.
A equipe de pesquisa testou o sistema em vários idiomas, estilos de fala e exemplos musicais. Mesmo sem compreender o significado do áudio, o robô foi capaz de mover os lábios em sintonia com os sons que ouviu.
Os pesquisadores reconhecem que os resultados não são perfeitos. “Tivemos dificuldades particulares com sons duros, como ‘B’, e com sons envolvendo a pressão dos lábios, como ‘W’. Mas essas habilidades provavelmente irão melhorar com o tempo e a prática,” disse Lipson.
Além da Sincronização Labial para Comunicação Real
Os pesquisadores ressaltam que a sincronização labial é apenas uma parte de um objetivo mais amplo. Eles visam dar aos robôs maneiras mais ricas e naturais de se comunicar com as pessoas.
“Quando a habilidade de sincronização labial é combinada com IA conversacional como ChatGPT ou Gemini, o efeito acrescenta uma nova profundidade à conexão que o robô forma com o humano,” disse Yuhang Hu, que liderou o estudo como parte de seu trabalho de doutorado. “Quanto mais o robô assiste humanos conversando, melhor ele ficará em imitar os gestos faciais sutis com os quais podemos nos conectar emocionalmente.”
“Quanto maior a janela de contexto da conversa, mais contextualmente sensíveis esses gestos se tornarão,” acrescentou Hu.
Expressão Facial como o Elo Perdido
A equipe de pesquisa acredita que a expressão emocional através do rosto representa uma lacuna importante na robótica atual.
“Grande parte da robótica humanoide hoje está focada em movimentos de pernas e mãos, para atividades como andar e agarrar,” disse Lipson. “Mas a afeição facial é igualmente importante para qualquer aplicação robótica envolvendo interação humana.”
Lipson e Hu esperam que expressões faciais realistas se tornem cada vez mais importantes à medida que robôs humanoides sejam introduzidos em entretenimento, educação, saúde e cuidados geriátricos. Alguns economistas estimam que mais de um bilhão de robôs humanoides poderiam ser produzidos na próxima década.
“Não há futuro em que todos esses robôs humanoides não tenham um rosto. E quando finalmente tiverem um rosto, precisarão mover os olhos e os lábios corretamente, ou eles permanecerão estranhos para sempre,” disse Lipson.
“Nós, humanos, estamos apenas programados para isso, e não podemos escapar. Estamos perto de cruzar o vale inquietante,” acrescentou Hu.
Riscos e Progresso Responsável
Este trabalho se baseia no esforço de longa data de Lipson para ajudar robôs a formar conexões mais naturais com as pessoas, aprendendo comportamentos faciais, como sorrir, contato visual e fala. Ele argumenta que essas habilidades devem ser aprendidas através da observação, em vez de serem programadas por instruções rígidas.
“Algo mágico acontece quando um robô aprende a sorrir ou falar apenas assistindo e ouvindo os humanos,” disse ele. “Sou um robótico cínico, mas não consigo evitar sorrir de volta para um robô que sorri espontaneamente para mim.”
Hu enfatizou que o rosto humano continua sendo uma das ferramentas mais poderosas de comunicação, e os cientistas estão apenas começando a entender como ele funciona.
“Robôs com essa habilidade terão claramente uma capacidade muito melhor de se conectar com os humanos, porque uma parte tão significativa de nossa comunicação envolve a linguagem corporal facial, e esse canal inteiro ainda não foi explorado,” disse Hu.
Os pesquisadores também reconhecem as preocupações éticas que surgem com a criação de máquinas que podem se envolver emocionalmente com humanos.
“Esta será uma tecnologia poderosa. Precisamos avançar lentamente e cuidadosamente, para que possamos aproveitar os benefícios enquanto minimizamos os riscos,” disse Lipson.
