Um estudo conduzido por pesquisadores das universidades de Hong Kong e Berkeley questiona um princípio fundamental do treinamento de inteligência artificial: a necessidade de dados rotulados por humanos. A pesquisa demonstra que modelos de linguagem (LLMs) e visão (VLMs) apresentam uma capacidade superior de generalização quando aprendem por reforço, sem depender de exemplos pré-formatados.
Nos experimentos, os modelos treinados por reforço se mostraram mais eficientes na resolução de novas tarefas, enquanto aqueles ajustados com supervisão humana tendiam a apenas memorizar regras específicas. Isso não significa que o aprendizado supervisionado (SFT) seja descartável.
Os pesquisadores apontam que ele contribui para estabilizar as respostas dos modelos e criar um ambiente mais adequado para que o aprendizado por reforço (RL) atinja todo o seu potencial. Essa abordagem reforça tendências observadas em projetos como o DeepSeek-R1, um competidor da OpenAI, que investe no aprendizado autônomo para enfrentar desafios complexos.
A principal implicação do estudo é que permitir que modelos de IA desenvolvam suas próprias estratégias pode ser um método mais eficiente – e economicamente viável – do que a criação de vastos bancos de dados rotulados manualmente. Em áreas onde os resultados podem ser validados, essa abordagem tem o potencial de acelerar descobertas e oferecer soluções inovadoras, incluindo respostas que nem mesmo os humanos teriam previsto.
Achou útil essa informação? Compartilhe com seus amigos!
Deixe-nos a sua opinião aqui nos comentários.