Características identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas Mencionadas

Autores

  • Afonso Xavier Canosa Universidade de Santiago de Compostela (Espanha)

DOI:

https://doi.org/10.21814/diacritica.574

Palavras-chave:

Entidades Geográficas Mencionadas, REM, Topónimos, Anotação de corpus, Corpus histórico

Resumo

Na anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática.

Referências

Amaral, D. O., Fonseca, E. B., Lopes, L. & Vieira, R. (2014). Comparative Analysis of Portuguese Named Entities Recognition Tools. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik (pp. 2554–2558). European Language Resources Association (ELRA). Available at: http://www.lrecconf.org/proceedings/lrec2014/pdf/513_Paper.pdf.

Canosa, A. X. (2017). Algumas interseções disciplinares na recuperação da geografia da Peregrinação de Fernão Mendes Pinto. Fluxos e Riscos, 2(1).

Canosa, A. X., Varela, X., Lema, P., Gamallo, P., Taboada, J. A. & Garcia, M. (2018). Uma utilidade para o reconhecimento de topónimos em documentos medievais. Linguamática, 11(1). DOI: https://doi.org/10.21814/lm.11.1.291

Gregory, I. N., Baron, A., Murrieta-Flores, P., Hardie, A. & Rayson, P. (2013). Geographical Text Analysis Mapping and spatially analysing corpora. In A. Hardie, & R. Love (Eds.), Corpus Linguistics 2013 Abstracts (pp. 105–108). UCREL. Available at: http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf.

Gregory, I. N., Cooper, D. C., Hardie, A. & Rayson, P. (2015). Spatializing and Analyzing Digital Texts: Corpora, GIS, and Places. In D. J. Bodenhamer, J. Corrigan, and T. M. Harris (Eds.), Deep Maps and Spatial Narratives. Bloomington: Indiana University Press. Available at: http://e-space.mmu.ac.uk/579357/2/Spatializing%20and%20Analyzing%20Digital%20Texts.pdf.

Leidner, J. L. (2007). Toponym Resolution in Text: Annotation, Evaluation and Applications of Spatial Grounding of Place Names (PhD Thesis, University of Edinburgh). Available at: https://www.era.lib.ed.ac.uk/handle/1842/1849.

Nadeau, D. & Sekine, S. (2007). A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1), 3–26. Available at: http://nlp.cs.nyu.edu/sekine/papers/li07.pdf. DOI: https://doi.org/10.1075/li.30.1.03nad

Santos, D. & Cardoso, N. (Eds.). (2007). Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM a primeira avaliação conjunta na área. Linguateca 2007. Available at: http://comum.rcaap.pt/bitstream/10400.26/380/1/LivroSantosCardoso2007.pdf.

Southall, H., Mostern, R. & Berman, M. L. (2011). On historical gazetteers. International Journal of Humanities and Arts Computing, 5(2), 127–145. DOI: https://doi.org/10.3366/ijhac.2011.0028

Won, M., Murrieta-Flores, P. & Martins, B. (2018). Ensemble Named Entity Recognition (NER): Evaluating NER Tools in the Identification of Place Names in Historical Corpora. Frontiers in Digital Humanities, 5(2). doi: https://doi.org/10.3389/fdigh.2018.00002. DOI: https://doi.org/10.3389/fdigh.2018.00002

Albuquerque, L. (Dir.). (1994). Dicionário de História dos Descobrimentos Portugueses. 2 vols. Lisboa: Caminho.

Alves, J. S. (Dir.). (2010). Fernão Mendes Pinto and the Peregrinação. 4 vols. Lisboa: Fundação Oriente.

Bluteau, R. C. R. (1712–28). Vocabulario portuguez e latino, aulico, anatomico, architectonico, bellico, botanico, brasilico, comico, critico, chimico, dogmatico, dialectico, dendrologico, ecclesiastico, etymologico, economico, florifero, forense, fructifero... Coimbra, Portugal: Collegio das Artes da Companhia de Jesus. Digital facsimile edition: Biblioteca Nacional de Portugal. Available at: http://purl.pt/13969.

Flores, A. M., Gomes, R. V. & R. H. Pereira de Sousa. (1983). Fernão Mendes Pinto. Subsídios para a sua Bio-Bibliografia. [Almada]: Câmara Municipal da Almada.

Lagoa, V. (1950–53). Glossário Toponímico da Antiga Historiografia Portuguesa Ultramarina. 4 vols. Lisboa: Junta de Investigações Coloniais.

Pereira, B. (1647). Thesouro da Lingoa Portugueza. Lisboa: Paulo Craesbecck. Digital facsimile edition: Biblioteca Nacional de Portugal. Available at: http://purl.pt/29129.

Pinto, F. M. (1614). Peregrinaçam. Lisboa: Pedro Crasbeek. Digital facsimile edition: Biblioteca Nacional de Portugal. Available at: http://purl.pt/82.

Downloads

Publicado

24-03-2020

Como Citar

Canosa, A. X. (2020). Características identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas Mencionadas. Diacrítica, 32(3), 87–103. https://doi.org/10.21814/diacritica.574