Uso de tecnologias linguı́sticas para estudar a evolução dos sufixos -ÇOM e -VEL no galego-português medieval a partir de corpora históricos
- Gamallo, Pablo 1
- Ramom Pichel, José 2
- Montero Santalha, José Martinho 3
- Neves, Marco 4
-
1
Universidade de Santiago de Compostela
info
- 2 CITIUS/USC
-
3
Universidade de Vigo
info
-
4
Universidade Nova de Lisboa
info
ISSN: 1647-0818
Year of publication: 2021
Volume: 13
Issue: 2
Pages: 3-17
Type: Article
More publications in: Linguamática
Abstract
O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.
Bibliographic References
- Canosa, Xavier, Pablo Gamallo, Xavier Ca-nosa, Joséángel Taboada, Paulo Martínez Lema & Marcos Garcia. 2019. Uma utilidadepara o reconhecimento de topónimos em docu-mentos medievais.Linguamática2(11). 3–15.10.21814/lm.11.1.291.
- Cristine Prado, Natália & Gladis Massini-Cagliari. 2014. Forma ̧cão de nomes deverbaisnas cantigas de Santa Maria: Um estudo mor-fofonológico. Revista Do GEL11(2). 71–96.
- Dieguez, Ignacio Vázquez. 2018. Sobre alg ́unssufixos galegos medievais. Estudios de Lingüística del Español39. 241–277.
- Ferreiro, Manuel. 1997.Gramática histórica da lingua galega. ii. lexicoloxía. Santiago de Com-postela: Lailovento.
- Fillo, Machado & Américo Venâncio Lopes. 2013. Dicionário etimológico do portuguˆes arcaico: Projeto DEPARC. Salvador: Edufba.
- Freixeiro Mato, Xosé Ramón. 1997.Lingua ga-lega: normalidade e conflito. Santiago de Com-postela: Lailovento.
- Gamallo,Pablo & Marcos Garcia. 2017. LinguaKit:uma ferramenta multilinguepara a análise linguística e a extra ̧cãode informa ̧cão.Linguamática9(1). 19–28.10.21814/lm.9.1.243.
- Gamallo, Pablo, Marcos Garcia, Cesar Pineiro,Rodrigo Martinez-Castano & Juan C. Pichel.2018.LinguaKit:a big data-based mul-tilingual tool for linguistic analysis and in-formation extraction. Em 5th InternationalConference on Social Networks Analysis, Ma-nagement and Security (SNAMS), 239–244.10.1109/SNAMS.2018.8554689.
- Gamallo, Pablo, Susana Sotelo & José RamomPichel. 2014. Comparing ranking-based andnaive bayes approaches to language detectionon tweets. EmWorkshop TweetLID: TwitterLanguage Identification Workshop at SEPLN2014, n/p.
- Garcia, Marcos & Pablo Gamallo. 2015. Yetanother suite of multilingual NLP tools. EmLanguages, Applications and Technologies, 65–75.10.1007/978-3-319-27653-3_7.
- Kettunen, Kimmo. 2014.Can type-tokenratiobeusedtoshowmorphologicalcomplexity of languages Journal of Quantitative Linguistics 21.223–245 DOI 10.1080/09296174.2014.911506.
- Leach, Geoffrey & Andrew Wilson. 1996. Re-commendations for the morphosyntactic anno-tation of corpora. Em Technical Rapport, Ex-pert Advisory Group on Language EngineeringStandard (EAGLES).
- Lorenzo, Ramón. 1985 Crónica troiana. intro-ducción e texto. A Coruña: Fundación Pedro Barrié de la Maza, Conde de Fenosa.
- Mariño, Ramón. 1998. Notas sobre a historia dasterminacións -ión / -ón en galego. Em D. Kre-mer (ed.),Homenaxe a Ramón Lorenzo, 735–760. Vigo, Galaxia, vol. 2.
- Mariño Paz, Ramón. 2005. Forma e función dosufixo -uel no galego medieval.Cadernos deLingua27. 155–193.
- Messner, Dieter. 2007. Os dicionários portu-gueses, devedores da lexicografia espanhola.Península, Revista de Estudos Ibéricos4. 141–151.
- Padró, Lluís. 2012. Analizadores multilingües enFreeLing.Linguamática3(2). 13–20.
- Pichel, José Ramom, Pablo Gamallo, Iñaki Ale-gria & Marco Neves. 2020. A methodologyto measure the diachronic language distancebetween three languages based on perplexity.Journal of Quantitative Linguistics28(4). 306–336 DOI 10.1080/09296174.2020.1732177.
- Pichel, José Ramom, Pablo Gamallo & InakiAlegria. 2019.Measuring diachronic lan-guage distance using perplexity: Applicationto english, portuguese, and spanish.Na-tural Language Engineering26(4). 433–454. 10.1017/S1351324919000378.
- Rögnvaldsson, Eiríkur & Sigr ́un Helgadóttir.2008. Morphological tagging of old norse textsand its use in studying syntactic variation andchange. Em2ndWorkshop on Language Tech-nology for Cultural Heritage Data, 40–46.
- Sánchez-Marco, Cristina, Gemma Boleda & LluísPadró. 2011. Extending the tool, or how toannotate historical language varieties. Em5thACL-HLT Workshop on Language Technologyfor Cultural Heritage, Social Sciences, and Hu-manities, 1–9.
- Santalha, Montero & José-Martinho. 2005. Do-cumentos medievais galegos (3). Agália 81–82.255–264.
- Silvestre, João Paulo. 2008.Bluteau e a origensda lexicografia moderna. Lisbon: Imprensa Na-cional – Casa da Moeda: Colecão filología portuguesa.
- Sáenz, Marta. 2015. The lemmatization of OldEnglish verbs from the second weak class ona lexical database.Journal of English Studies13. 135.10.18172/jes.2861.
- Varela Barreiro, Xavier, Maria Francisca Xavier& Charlotte Galves. 2016. Corpus informa-tizado Galego-Portugués antigo. Instituto da Lingua Galega / Centro de Lingüística da Uni-versidade Nova de Lisboa / Universidade de Campinas.http://ilg.usc.gal/tmilg.
- Venâncio, Fernando. 2019.Assim nasceu umalíngua. sobre as origens do português. Lisbon : Guerra e Paz
- Viaro, Mário Eduardo. 2012.A produti-vidade dos sufixos do ponto de vista di-acrônico. Em T. Lobo, Z. Carneiro, J. Soledade, A. Almeida & S. Ribeiro (eds.),Rosae: linguística histórica, história das línguas e outras histórias, 275–292. SciELO Books.
- Xavier, Maria Francisca. 2005. A caminho deum dicionário do portuguˆes medieval.EmDes(a)fiando discursos: Homenagem a Maria Emília Ricardo Marques, 667–686. Lisboa: Universidade Aberta, Língua, Literaturae Cultura Portuguesas.
- Xavier, Maria Francisca. 2016.O CIPM —corpus informatizado do portuguˆes medieval,fonte de um dicionário exaustivo. Em Carlota de Benito Moreno Johannes Kabatek (ed.),Lingüística de corpus y lingüística histórica iberorrománica, 137–156. De Gruyter.
- Zampieri, Marcos, Shervin Malmasi, Nikola Ljubesic, Preslav Nakov, Ahmed Ali, Jörg Ti-edemann, Yves Scherrer & Noemi Aepli. Findings of the VarDial evaluation campaign 2017. Em 4th Workshop on NLP for SimilarLanguages, Varieties and Dialects (VarDial),1–15