Towards accurate dependency parsing for Galician with limited resources

  1. Sarymsakova, Albina
  2. Sánchez-Rodríguez, Xulia
  3. Garcia, Marcos
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2024

Número: 73

Páxinas: 247-257

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural


El análisis sintáctico automático es fundamental dentro del PLN. Sin embargo, las herramientas eficaces requieren bancos de ´arboles extensos y de alta calidad para el entrenamiento satisfactorio. En consecuencia, la calidad del análisis sintáctico sigue siendo inadecuada para lenguas de escasos recursos como el gallego. En este contexto, el presente estudio explora varios enfoques para mejorar el análisis sintáctico del gallego utilizando el marco de UD. Nuestros experimentos analizan la calidad del modelo incrementando el tamaño del corpus de entrenamiento inicial añadiendo datos del PUD gallego. Además, exploramos los beneficios de incorporación de las representaciones vectoriales contextualizadas y el uso de varios modelos BERT. Por último, evaluamos el impacto de la integración de datos interlingüísticos para el entrenamiento de variedades similares, analizando el rendimiento del modelo en los bancos de árboles usados. Nuestros hallazgos subrayan (1) la correlación positiva entre los datos de entrenamiento aumentados y el rendimiento mejorado del modelo; (2) el rendimiento superior de los modelos BERT monolingües en comparación con sus análogos multilingües; (3) el rendimiento mejorado general del modelo en los bancos de ´arboles tras la incorporación de datos interlingüísticos.

