A identificação e referenciação de entidades geográficas mencionadaso caso da peregrinação de Fernão Mendes Pinto
- Canosa Rodríguez, Alfonso Javier
- Pablo Gamallo Otero Director
- José António Souto Cabo Codirector
Universidad de defensa: Universidade de Santiago de Compostela
Fecha de defensa: 30 de noviembre de 2017
- J. Carlos Quiroga Díaz Presidente
- Daniel Ribeiro Alves Secretario/a
- Paulo Miguel Torres Duarte Quaresma Vocal
Tipo: Tesis
Resumen
As entidades geográficas mencionadas são uma das principais classes de entidades mencionadas. Um problema ocorre quando a entidade geográfica é identificada no texto, mas não há coordenadas para localizá-la. Esta tese propõe um modelo semântico como solução. As entidades são divididas em dois grupos segundo um critério epistemológico: aquelas que têm coordenadas conhecidas e as que não. Peregrinação, um extenso relatório escrito por um diplomata na Ásia no século dezasseis, serve de caso de estudo. Extrai-se manualmente uma lista de entidades geográficas mencionadas e comenta-se a partir da análise crítica e comparativa das descrições encontradas no corpus, a bibliografia relacionada e a geovisualização das áreas relevantes em bases de dados e programas geográficos. Esta lista é também usada para avaliar soluções automáticas de anotação e georreferenciação. A anotação é examinada em três fases: coincidência de expressões, otimização de resultados com uma ferramenta NERC e processo de automatização completo. Para a georreferenciação, as entidades com coordenadas conhecidas são procuradas numa base de dados aberta de âmbito global de onde se extraem dados geográficos que são adicionados a uma base de dados relacional local. As referências relativas são solucionadas para todas as entidades. O problema de atribuição do tipo geográfico liga-se ao de criação de uma taxonomia. Com esta finalidade, avalia-se a extração automática de termos: a combinatória de análise sintática, medida TF-IDF e validação com fontes externas conseguiu os melhores resultados. Explora-se o aprendizado de máquina com exemplos na procura de relações entre entidades e tipos geográficos, com resultados significativos para aquelas entidades de frequências mais altas. As entidades são instanciadas numa ontologia para organizar as relações. Finalmente, extrai-se um índice com uma definição estruturada para cada entidade, as suas ocorrências no corpus, nome contemporâneo e coordenadas quando disponíveis e relações com outras entidades para mais desenvolver a referência relativa.