Estudo metodológico – Representação de conhecimento para a análise de corpus históricos
DOI:
https://doi.org/10.21814/h2d.6580Palavras-chave:
Humanidades Digitais, Análise de Corpus, Ontologias, Reconhecimento Óptico de Caracteres, SPARQL, Imprensa HistóricaResumo
Este artigo apresenta um modelo teórico para a análise semântica de corpus históricos com base em ferramentas digitais interoperáveis. Recorrendo ao PaddleOCR para extração textual, a uma ontologia construída sobre o modelo CIDOC CRM e a consultas SPARQL definidas manualmente, propõe-se uma abordagem escalável para o tratamento e exploração de fontes jornalísticas digitalizadas. O estudo de caso centra-se na cobertura mediática da missão Apolo 11 em periódicos portugueses do século XX, no contexto do Estado Novo. A metodologia permitiu identificar padrões discursivos, estruturar relações semânticas entre eventos, atores e publicações, e demonstrar o potencial da modelação ontológica na análise crítica de discursos históricos. O modelo, ainda em fase exploratória, mostra-se promissor para futuras aplicações em Humanidades Digitais.
Downloads
Referências
Bekiari, C., Bruseker, G., Canning, E., Doerr, M., Michon, P., Ore, C.-E., Stead, S., & Velios, A. (2024). Definition of the CIDOC Conceptual Reference Model. CIDOC CRM SIG.
Du, Y., Li, C., Guo, R., Yin, X., Liu, W., Zhou, J., Bai, Y., Yu, Z., Yang, Y., Dang, Q., & Wang, H. (2020). PP-OCR: A practical ultra lightweight OCR system (arXiv:2009.09941). arXiv. https://doi.org/10.48550/arXiv.2009.09941
Fafalios, P., Marketakis, Y., Samaritakis, G., Patramanis, D., & Tzitzikas, Y. (2021). Towards Semantic Interoperability in Historical Research: Documenting Research Data and Knowledge with Synthesis. In Hotho, A., et al. (Eds.), The Semantic Web – ISWC 2021. Lecture Notes in Computer Science, Vol. 12922. Springer, Cham. https://doi.org/10.1007/978-3-030-88361-4_40
Fafalios, P., Kritsotaki, A., & Doerr, M. (2023). The SeaLiT Ontology – An Extension of CIDOC-CRM for the Modeling and Integration of Maritime History Information. ACM Journal on Computing and Cultural Heritage, 16(3), Article 60, 21 pages. https://doi.org/10.1145/3586080
Fairclough, N. (2009). Discourse and social change. Polity Press.
Kadilierakis, G., Fafalios, P., Marketakis, Y., Tzitzikas, Y., & Doerr, M. (2020). Keyword Search over RDF using Document-Centric Information Retrieval Systems. In A. Harth et al. (Eds.), The Semantic Web – ESWC 2020. Lecture Notes in Computer Science, Vol. 12123. Springer. https://doi.org/10.1007/978-3-030-49461-2_8
Liang, Y., Xie, B., Tan, W., & Zhang, Q. (2025). Ontology-based construction of embroidery intangible cultural heritage knowledge graph: A case study of Qingyang sachets. PLOS ONE, 20(1), e0317447. https://doi.org/10.1371/journal.pone.0317447
Smith, R. W. (2007). An overview of the Tesseract OCR engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition, 629–633. https://doi.org/10.1109/ICDAR.2007.4376991
Meroño Peñuela, A., Ashkpour, A., van Erp, M. G. J., Mandemakers, K., Breure, L., Scharnhorst, A., Schlobach, K. S., & van Harmelen, F. A. H. (2015). Semantic Technologies for Historical Research: A Survey. Semantic Web, 6(6), 539–564. https://doi.org/10.3233/SW-140158
Downloads
Publicado
Como Citar
Edição
Secção
Licença
Direitos de Autor (c) 2025 Rafael Prezado, Renata Vieira

Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição 4.0.



