CarvalhoEnglish-Galician SMT system from EuroParl English-Portuguese parallel corpus

  1. Pichel Campos, José Ramón
  2. Malvar Fernández, Paulo
  3. Senra Gómez, Oscar
  4. Gamallo Otero, Pablo
  5. García, Alberto
Journal:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Year of publication: 2009

Issue: 43

Pages: 379-381

Type: Article

More publications in: Procesamiento del lenguaje natural

Abstract

Para poder construir sistemas de traducción estadística es preciso contar con corpora paralelos suficientemente relevantes. No existe en estos momentos suficientes corpus paralelos entre el par de lenguas inglés-gallego. Siguiendo las teorías de importantes romanistas como Eugene Coseriu o Cunha & Cintra que gallego, portugués y brasileño son tres variedades del mismo sistema lingüístico y puesto que la variante portuguesa si que tiene estos corpus, en este proyecto investigamos si podemos usar el corpus EUROPARL inglés-portugués para conseguir un ingenio de traducción estadística entre el inglés-galego. Para conseguir esto, convertimos los corpus inglés-portugués a inglés-gallego usando un traductor RBMT Opentrad portugués- gallego. Las palabras no detectadas por el traductor son enviadas a un conversor ortográfico entre la grafía etimológica e histórica que usa el portugués y la grafía castellanizada del gallego. Posteriormente mediante Moses y Giza++ conseguimos modelos de lenguaje de nuestro prototipo. Los resultados obtenidos nos permiten pensar en la posibilidad de usar recursos lingüístico-computacionais del portugués para construír recursos, herramientasy aplicaciones para el gallego normativo ILG-RAG.