Olhar (realmente) para dentro dos LLMs com a ajuda do DEI

E se pudéssemos entrar na “mente” dos bots para descobrir com que textos foram treinados? É precisamente isso que propõem Arlindo Oliveira, Professor do DEI, e André Duarte, aluno do Programa Doutoral em Engenharia Informática e de Computadores.
O método, desenvolvido por investigadores da Carnegie Mellon University, do Instituto Superior Técnico/INESC-ID e da plataforma de segurança Hydrox AI, permite identificar os textos usados no treino de grandes modelos de linguagem (LLMs). O agente criado (RECAP) usa um processo iterativo de feedback para extrair conteúdo específico dos modelos, recorrendo a técnicas de jailbreaking quando estes se recusam a responder, superando o melhor método anterior em 78%.
A importância deste avanço foi evidenciada pela ACM TechNews.
O artigo está disponível AQUI.
