Discovering bilingual collocations in parallel corpora: A first attempt at using distributional semantics

García, Marcos; García Salido, Marcos; Alonso Ramos, Margarita

doi:10.1075/SCL.90.16GON

Discovering bilingual collocations in parallel corporaA first attempt at using distributional semantics

García, Marcos ¹
García Salido, Marcos ¹
Alonso Ramos, Margarita ¹

1 Universidade da Coruña

Universidade da Coruña

La Coruña, España

ROR https://ror.org/01qckj285

Libro:

Parallel Corpora for Contrastive and Traslation Studies: New resources and applications

Doval, Irene (ed. lit.)
Sánchez Nieto, María Teresa (ed. lit.)

Editorial: John Benjamins

ISBN: 9789027202345

Año de publicación: 2019

Páginas: 267-279

Tipo: Capítulo de Libro

DOI: 10.1075/SCL.90.16GON WoS: WOS:000813446700016 DIALNET GOOGLE SCHOLAR

Resumen

This chapter presents a method that exploits parallel corpora to automatically extract bilingual collocation equivalents. First, we use dependency parsing and statistical measures to identify collocation candidates in corpora. Then, we leverage the parallel corpora to extract bilingual word-embeddings. Finally, we use these distributional models as probabilistic dictionaries in order to identify bilingual collocation equivalents. To evaluate our strategy we carry out a set of experiments in Portuguese and Spanish focusing on verb-object collocations, for example, "reach the maturity" ("atingir a maturidade" in Portuguese, "alcanzar la madurez" in Spanish). The results of our experiments show that this method is useful to automatically identify thousands of bilingual collocation equivalents, achieving a precision of 86%.

Fuente de los datos: Dialnet

Discovering bilingual collocations in parallel corporaA first attempt at using distributional semantics

Universidade da Coruña

Resumen