Quão bem LLMs podem avaliar redações em árabe?

A pesquisa avaliou a eficácia de grandes modelos de linguagem como ChatGPT, Llama, Aya, Jais e ACEGPT na avaliação automática de redações em árabe usando um conjunto de dados real de estudantes. 📌 ACEGPT se destacou entre esses modelos, atingindo um Quadratic Weighted Kappa de 0,67, mas um modelo menor baseado em BERT superou todos com QWK de 0,88.

👉 Entre as demais descobertas estão as dificuldades com tokenização do árabe e a alta demanda computacional para processar os textos. A variação de desempenho em diferentes disciplinas reforça a necessidade de modelos adaptativos. E a engenharia de prompt eficiente provou melhorar muito os resultados. #InteligenciaArtificial #AvaliaçãoAutomática #InovaçãoNaEscola

Leia o artigo completo

Americo N. Amorim

Américo é doutor em educação pela Johns Hopkins University. Pesquisador em educação, fundou a Escribo onde trabalha com as escolas para fortalecer o aprendizado das crianças.

Enviar Comentário Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Meta