Das pages-korpus, ein parallelkorpus der deutschen und spanischen gegenwartssprache1

  1. Irene Doval 1
  1. 1 Universidade de Santiago de Compostela
    info

    Universidade de Santiago de Compostela

    Santiago de Compostela, España

    ROR https://ror.org/030eybx10

Revista:
Revista de filología alemana

ISSN: 1133-0406

Ano de publicación: 2018

Número: 26

Páxinas: 181-197

Tipo: Artigo

DOI: 10.5209/RFAL.60148 DIALNET GOOGLE SCHOLAR lock_openAcceso aberto editor

Outras publicacións en: Revista de filología alemana

Obxectivos de Desenvolvemento Sustentable

Resumo

The corpus PaGeS is a bilingual parallel corpus, that comprises a collection of contemporary Spanish and German texts. This paper describes the different steps in the construction of the corpus. The description includes the manual preparation process of the texts to make the documents suitable for further processing, the linguistic annotation and the manual and automatic procedure of the sentence alignment of the texts. It is dealt with the access and the visualization of the data and the different search possibilities are explained. Finally, the next steps of future work are outlined

Referencias bibliográficas

  • Braune, F. / Fraser, A., «Improved Unsupervised Sentence Alignment for Symmetrical and Asymmetrical Parallel Corpora», in: Huang, Ch. / Jurafsky, D. (ed.), Coling. Beijing 2010, 81-89.
  • Brown, P. et al., «The Mathematics of Statistical Machine Translation: Parameter Estimation», Computational Linguistics 19/2 (1993), 263-311.
  • Doval, I., «Raumerfassung kontrastiv Deutsch / Spanisch», in: Ogawa, A. (Hg.), Raumerfassung – Deutsch im Kontrast. Tübingen: Stauffenburg Verlag 2016, 209-236.
  • Fabricius-Hansen, C., «Paralleltext und Übersetzung in sprachwissenschaftlicher Sicht», in: Kittel, H. et al. (Hg.), Übersetzung, Translation, Traduction, vol 1, Berlin / New York: de Gruyter 2004, 322-29.
  • Gale, W. / Church, K., «A program for aligning sentences in bilingual corpora», Computational Linguistics 19/1 (1993), 75-102.
  • Kay, M. / Röscheisen, M., «Text-Translation Alignment», Computational Linguistics 19/1 (1993), 121-142.
  • Koehn, P., EuroParl, «A parallel corpus for statistical machine translation». Proceedings of the machine translation summit, Thailand, Phuket 2005, 79-86. http://www.statmt.org/europarl/ [15.07.2017].
  • Krause, M. / Doval, I., Spatiale Relationen – kontrastiv Deutsch – Spanisch. Tübingen: Groos 2011.
  • Lemnitzer, L. / Zinsmeister, H., Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2. Aufl. 2010.
  • Lüdeling, A. / Walter, M., «Korpuslinguistik für Deutsch als Fremdsprache Sprachvermittlungund Spracherwerbsforschung», 2009, https://www.linguistik.huberlin.de/de/institut/ professuren/korpuslinguistik/ mitarbeiter-innen/anke/pdf/Luedeling-WalterDaF.pdf [12.06.2017].
  • Mcenery, A. / Xiao, Z., «Parallel and comparable corpora: What are they up to?», Incorporating corpora: Translation and the linguist. Translating Europe. Multilingual matters, Chap XX, Clevedon, UK, 2007. http://someya-net.com/104-IT_Kansai_Initiative/corpora_and_translation.pdf [15.07.2017].
  • Padró, L., «Analizadores Multilingües en FreeLing», Linguamatica 3/ 2 (2011), 13-20.
  • Schmid, H., «Improvements in Part-of-Speech Tagging with an Application to German», Proceedings of the ACL SIGDAT-Workshop. Dublin: 1995. http://www.cis.unimuenchen. de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf [15.07.2017].
  • Schmid, H., «Probabilistic Part-of-Speech Tagging Using Decision Trees», Proceedings of International Conference on New Methods in Language Processing, Manchester 1994. Reviewed version: http://www.cis.unimuenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf [15.07.2017].
  • Steinberger, R. et al., «An overview of the European Union’s highly multilingual parallel corpora», Language Resources and Evaluation, 48, 4 (2014), 679-707. doi:10.1007/s10579-014-9277-0.
  • Storrer, A., «Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie», in: Knapp, K. et al. (Hg.), Angewandte Linguistik. Ein Lehrbuch. 3. Auflage. Tübingen: Francke 2013, 216-239.
  • Tiedemann, J., «Parallel Data, Tools and Interfaces in OPUS». Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012) ELRA 2012, 2214-2218, www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf [12.06.2017].
  • Tiedemann, J., Bitext Alignment. Toronto: Morgan & Claypool 2011.
  • Varga, D. et al., «Parallel corpora for medium density languages», Proceedings of the RANLP 2005, 590-596 https://doi.org/10.1016/j.protcy.2014.11.024. [15.07.2017].
  • Volk, M. / Graën, J. / Callegaro, E., «Innovations in parallel corpus search tools», in: Ninth International Conference on Language Resources and Evaluation (LREC'14), Reykjavik, 2014, http://www.zora.uzh.ch/id/eprint/97282/1/Volk_Graen_Callegaro_LREC_2014_v06.pdf [15.07.2017].
  • Zinsmeister, H., «Corpora», in: Carstensen, K.-U. et al. (Hg.), Computerlinguistik und Sprachtechnologie: Eine Einführung. Heidelberg: Spektrum, Akad. Verl., 3. Aufl., 2010, 481-492.
  • Safier, D., Happy family. Hamburg: Rowohlt 2011. [Safier, D., Una familia feliz. Barcelona: Seix Barral 2012.]
  • Sierra, J., El ángel perdido. Barcelona: Planeta 2011. [Sierra, J., Die Rache der Engel. München: Blanvalet 2013.]