Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego

  1. Gómez Rodríguez, Carlos
  2. Alonso Pardo, Miguel Ángel
  3. García González, Marcos
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2016

Número: 57

Páxinas: 33-40

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural

Resumo

En este trabajo presentamos una nueva estrategia para crear treebanks de lenguas con pocos recursos para el análisis sintáctico. El método consiste en la adaptación y combinación de diferentes treebanks anotados con dependencias universales de variedades lingüísticas próximas, con el objetivo de entrenar un analizador sintáctico para la lengua elegida, en nuestro caso el gallego. Durante el proceso de selección y adaptación de los treebanks de origen, analizamos el impacto de propiedades de tres niveles diferentes: (i) la distancia entre las lenguas de origen y destino, (ii) la adaptación de características léxico-ortográficas, y (iii) las directrices de anotación entre los treebanks. Usando la estrategia propuesta, entrenamos un analizador sintáctico estadístico para etiquetar, con resultados prometedores y sin datos previos de gallego, un pequeño corpus de esta lengua. La corrección manual de este corpus, usado como gold-standard, nos permitió probar la eficacia del método propuesto.

Referencias bibliográficas

  • Cintra, L. F. L. y C. Cunha. 1984. Nova gramática do portuguˆes contemporˆaneo. Sá da Costa, Lisboa.
  • De Marneffe, M.-C. y C. D. Manning. 2008. The Stanford typed dependencies representation. En COLING 2008: Proceedings of the Workshop on Cross-Framework and Cross-Domain Parser Evaluation, páginas 1–8, Manchester. ACL.
  • Gamallo Otero, P. y I. González López. 2011. A grammatical formalism based on patterns of Part of Speech tags. International Journal of Corpus Linguistics, 16(1):45– 71.
  • Ganchev, K., J. Gillenwater, y B. Taskar. 2009. Dependency grammar induction via bitext projection constraints. En Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, volumen 1, páginas 369–377, Singapur. ACL.
  • Garcia, M. y I. J. González. 2012. Automatic Phonetic Transcription by Phonological Derivation. En H. Caseli A. Villavicencio A. Teixeira, y F. Perdig˜ao, editores, Computational Processing of the Portuguese Language (PROPOR 2012), volumen 7243 de Lecture Notes in Artificial Intelligence. Springer, Coimbra, páginas 350–361.
  • Gimpel, K. y N. A. Smith. 2014. Phrase Dependency Machine Translation with Quasi-Synchronous Tree-to-Tree Features. Computational Linguistics, 40(2):349–401.
  • Hwa, R., P. Resnik, A. Weinberg, C. Cabezas, y O. Kolak. 2005. Bootstrapping parsers via syntactic projection across parallel texts. Natural Language Engineering, 11(03):311–325.
  • Lynn, T., J. Foster, M. Dras, L. Tounsi, y others. 2014. Cross-lingual transfer parsing for low-resourced languages: An Irish case study. En Proceedings of the First Celtic Language Technology Workshop, páginas 41–49, Dublin. ACL.
  • Malvar, P., J. R. Pichel, O. Senra, P. Gama- ´ llo, y A. Garc´ıa. 2010. Vencendo a escassez de recursos computacionais. Carvalho: Tradutor Automático Estat´ıstico InglˆesGalego a partir do corpus paralelo Europarl Inglˆes-Portuguˆes. Linguamática, 2(2):31–38.
  • McDonald, R., S. Petrov, y K. Hall. 2011. Multi-source transfer of delexicalized dependency parsers. En Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2011), páginas 62–72, Edimburgo. ACL.
  • McDonald, R. T., J. Nivre, Y. QuirmbachBrundage, Y. Goldberg, D. Das, K. Ganchev, K. B. Hall, S. Petrov, H. Zhang, O. T¨ackstr¨om, C. Bedini, N. Bertomeu Castelló, y J. Lee. 2013. Universal Dependency Annotation for Multilingual Parsing. En Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), páginas 92–97, Sofia. Association for Computational Linguistics.
  • Nivre, J., J. Hall, J. Nilsson, A. Chanev, G. Eryigit, S. K¨ubler, S. Marinov, y E. Marsi. 2007. MaltParser: A languageindependent system for data-driven dependency parsing. Natural Language Engineering, 13(02):95–135.
  • Padró, L. y E. Stanilovsky. 2012. Freeling 3.0: Towards wider multilinguality. En Proceedings of the 8th edition of the Language Resources and Evaluation Conference (LREC 2012), Estambul. ELRA.
  • Petrov, S., D. Das, y R. McDonald. 2012. A Universal Part-of-Speech Tagset. En Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), Estambul. ELRA.
  • Ribeyre, C. 2015. M´ethodes d’Analyse Supervis´ee pour l’Interface Syntaxe-S´emantique. Ph.D. tesis, Universit´e Paris 7 Diderot.
  • Rojo, G., M. L. Mart´ınez, E. D. Noya, y F. M. Barcala. 2015. Corpus de adestramento do Etiquetador/Lematizador do Galego Actual (XIADA), versión 2.6. http://corpus.cirp.es/xiada/ corpus_xiada_2_6.tar.gz.
  • Socher, R., A. Perelygin, J. Y. Wu, J. Chuang, C. D. Manning, A. Y. Ng, y C. Potts. 2013. Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank. En Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2013), páginas 1631–1642, Seattle. ACL.
  • Søgaard, A. 2011. Data point selection for cross-language adaptation of dependency parsers. En Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers (ACL HLT 2011), volumen 22, páginas 682–686, Portland. ACL.
  • Vilares, D., M. A. Alonso, y C. GómezRodr´ıguez. 2016. One model, two languages: training bilingual parsers with harmonized treebanks. En Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), Berlin. ACL.
  • Zeman, D. y P. Resnik. 2008. CrossLanguage Parser Adaptation between Related Languages. En Proceedings of the Workshop on NLP for Less Privileged Language at the 3rd International Joint Conference on Natural Language Processing (IJCNLP 2008), páginas 35–42, Hyderabad. Asian Federation of Natural Language Processing.