Das pages-korpus, ein parallelkorpus der deutschen und spanischen gegenwartssprache1
-
1
Universidade de Santiago de Compostela
info
ISSN: 1133-0406
Ano de publicación: 2018
Número: 26
Páxinas: 181-197
Tipo: Artigo
Outras publicacións en: Revista de filología alemana
Resumo
The corpus PaGeS is a bilingual parallel corpus, that comprises a collection of contemporary Spanish and German texts. This paper describes the different steps in the construction of the corpus. The description includes the manual preparation process of the texts to make the documents suitable for further processing, the linguistic annotation and the manual and automatic procedure of the sentence alignment of the texts. It is dealt with the access and the visualization of the data and the different search possibilities are explained. Finally, the next steps of future work are outlined
Referencias bibliográficas
- Braune, F. / Fraser, A., «Improved Unsupervised Sentence Alignment for Symmetrical and Asymmetrical Parallel Corpora», in: Huang, Ch. / Jurafsky, D. (ed.), Coling. Beijing 2010, 81-89.
- Brown, P. et al., «The Mathematics of Statistical Machine Translation: Parameter Estimation», Computational Linguistics 19/2 (1993), 263-311.
- Doval, I., «Raumerfassung kontrastiv Deutsch / Spanisch», in: Ogawa, A. (Hg.), Raumerfassung – Deutsch im Kontrast. Tübingen: Stauffenburg Verlag 2016, 209-236.
- Fabricius-Hansen, C., «Paralleltext und Übersetzung in sprachwissenschaftlicher Sicht», in: Kittel, H. et al. (Hg.), Übersetzung, Translation, Traduction, vol 1, Berlin / New York: de Gruyter 2004, 322-29.
- Gale, W. / Church, K., «A program for aligning sentences in bilingual corpora», Computational Linguistics 19/1 (1993), 75-102.
- Kay, M. / Röscheisen, M., «Text-Translation Alignment», Computational Linguistics 19/1 (1993), 121-142.
- Koehn, P., EuroParl, «A parallel corpus for statistical machine translation». Proceedings of the machine translation summit, Thailand, Phuket 2005, 79-86. http://www.statmt.org/europarl/ [15.07.2017].
- Krause, M. / Doval, I., Spatiale Relationen – kontrastiv Deutsch – Spanisch. Tübingen: Groos 2011.
- Lemnitzer, L. / Zinsmeister, H., Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2. Aufl. 2010.
- Lüdeling, A. / Walter, M., «Korpuslinguistik für Deutsch als Fremdsprache Sprachvermittlungund Spracherwerbsforschung», 2009, https://www.linguistik.huberlin.de/de/institut/ professuren/korpuslinguistik/ mitarbeiter-innen/anke/pdf/Luedeling-WalterDaF.pdf [12.06.2017].
- Mcenery, A. / Xiao, Z., «Parallel and comparable corpora: What are they up to?», Incorporating corpora: Translation and the linguist. Translating Europe. Multilingual matters, Chap XX, Clevedon, UK, 2007. http://someya-net.com/104-IT_Kansai_Initiative/corpora_and_translation.pdf [15.07.2017].
- Padró, L., «Analizadores Multilingües en FreeLing», Linguamatica 3/ 2 (2011), 13-20.
- Schmid, H., «Improvements in Part-of-Speech Tagging with an Application to German», Proceedings of the ACL SIGDAT-Workshop. Dublin: 1995. http://www.cis.unimuenchen. de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf [15.07.2017].
- Schmid, H., «Probabilistic Part-of-Speech Tagging Using Decision Trees», Proceedings of International Conference on New Methods in Language Processing, Manchester 1994. Reviewed version: http://www.cis.unimuenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf [15.07.2017].
- Steinberger, R. et al., «An overview of the European Union’s highly multilingual parallel corpora», Language Resources and Evaluation, 48, 4 (2014), 679-707. doi:10.1007/s10579-014-9277-0.
- Storrer, A., «Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie», in: Knapp, K. et al. (Hg.), Angewandte Linguistik. Ein Lehrbuch. 3. Auflage. Tübingen: Francke 2013, 216-239.
- Tiedemann, J., «Parallel Data, Tools and Interfaces in OPUS». Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012) ELRA 2012, 2214-2218, www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf [12.06.2017].
- Tiedemann, J., Bitext Alignment. Toronto: Morgan & Claypool 2011.
- Varga, D. et al., «Parallel corpora for medium density languages», Proceedings of the RANLP 2005, 590-596 https://doi.org/10.1016/j.protcy.2014.11.024. [15.07.2017].
- Volk, M. / Graën, J. / Callegaro, E., «Innovations in parallel corpus search tools», in: Ninth International Conference on Language Resources and Evaluation (LREC'14), Reykjavik, 2014, http://www.zora.uzh.ch/id/eprint/97282/1/Volk_Graen_Callegaro_LREC_2014_v06.pdf [15.07.2017].
- Zinsmeister, H., «Corpora», in: Carstensen, K.-U. et al. (Hg.), Computerlinguistik und Sprachtechnologie: Eine Einführung. Heidelberg: Spektrum, Akad. Verl., 3. Aufl., 2010, 481-492.
- Safier, D., Happy family. Hamburg: Rowohlt 2011. [Safier, D., Una familia feliz. Barcelona: Seix Barral 2012.]
- Sierra, J., El ángel perdido. Barcelona: Planeta 2011. [Sierra, J., Die Rache der Engel. München: Blanvalet 2013.]