From text to data: Debates about distant reading in the humanities

Authors

  • Suemi Higuchi Getúlio Vargas Foundation

DOI:

https://doi.org/10.21814/h2d.3569

Keywords:

distant reading, linguistics, corpus, language, semantics

Abstract

The humanities, especially fields like literature and history, have always assigned to textual records a great part of their reason for being and their way of doing. This paper aims to reflect and broaden the horizon of the relationship between the humanities and the use of available technologies, focusing mainly on methods of distant reading for literary studies, based on corpus linguistics. How has research practice in these areas been impacted by the use of digital tools? What challenges need to be faced and what opportunities open up in this potential innovative scenario? These are some of the issues discussed in the text.

Downloads

Download data is not yet available.

References

Almeida, M. B., & Souza, R. R. (2011). Avaliação do espectro semântico de instrumentos para organização da informação. Encontros Bibli: Revista eletrônica de biblioteconomia e ciência da informação, 16(31), 25-50. http://dx.doi.org/10.5007/1518-2924.2011v16n31p25

Abreu, A. A. D., Beloch, I., Lattman-Weltman, F., & Lamarão, S. (2001). Dicionário histórico-biográfico brasileiro. CPDOC/Fundação Getúlio Vargas.

Araújo, N. (2016). Vista de longe, a literatura é o que desaparece (Acerca de um fracasso programático em Franco Moretti). In A. Werkema, M.V.N. Soares, & N. Araújo (Eds.), Variações sobre o romance (pp. 259-272). Edições Makunaima.

Archer, J., & Jockers, M. L. (2016). The bestseller code: Anatomy of the blockbuster novel. St. Martin's Press.

Barthes, R. (1976). Introdução à análise estrutural da narrativa. In R. Barthes, T. Todorov, A. J. Greimas, C. Bremond, U. Eco,

J. Gritti., V. Morin, C. Metz, & G. Genette (Eds.), Análise estrutural da narrativa (pp. 19-60) Editora Vozes.

Bode, K. (2014). Reading by numbers: Recalibrating the literary field. Anthem Press. https://doi.org/10.7135/UPO9780857284563

Bonelli, E. T. (2010). Theoretical overview of the evolution of corpus linguistics. In A. O'Keeffe, & M. McCarthy (Eds.), The Routledge handbook of corpus linguistics (pp. 14-28). Routledge.

Bonfiglioli, R., & Nanni, F. (2015). From close to distant and back: How to read with the help of machines. In M. Gadducci, & M. Tavosanis (Eds.), History and philosophy of computing. Third International Conference Hapoc 2015, Pisa, Italy, October 8-11, 2015. Revised Selected Papers (pp. 87-100). Springer.

Carr, E. H. (1978). Que é história? Conferências George Macaulay Trevelyan proferidas por E. H. Carr

na Universidade de Cambridge, janeiro-março de 1961. Paz e Terra.

Castro, C., Higuchi, S., & Monnerat, S. (2021). A obra de Gilberto Velho: Uma leitura distante para observar o familiar. CPDOC.

Certeau, M. (1988). A operação histórica. In P. Nora, & J. Le Goff (Eds.), História: Novos problemas. Editora F. Alves.

Dobson, J. E. (2015). Can an algorithm be disturbed? Machine learning, intrinsic criticism, and the Digital Humanities. College Literature: A Journal of Critical Literary Studies, 42(4), 543-564. https://doi.org/10.17613/M6QW2C

Fairclough, N. (2008). Discurso e mudança social. Editora UnB.

Freitas, C. (2015). Corpus, Linguística Computacional e as Humanidades Digitais. In M. Leite, & C. T. Gabriel (Eds.), Linguagem, Discurso, Pesquisa e Educação (pp 18-46). DP Et Alii Editora.

Garside, R., Leech, G. N., & Mcenery, A. M. (1997). Corpus annotation: Linguistic information from computer text corpora. Taylor & Francis.

Gracioso, L., & Saldanha, G. S. (2010). Ciência da Informação e Filosofia da Linguagem: Da pragmática informacional à web pragmática. Junqueira & Marin Editores.

Hammond, A. (2017). The double bind of validation: Distant reading and the digital humanities“trough of disillusionment”. Literature Compass, 14(8). https://doi.org/10.1111/lic3.12402

Higuchi, S. (2021). Extração automática de informações: uma leitura distante do Dicionário Histórico-Biográfico do Brasil [Tese de doutoramento, Pontifícia Universidade Católica do Rio de Janeiro]. ETDs @PUC-Rio. https://doi.org/10.17771/PUCRio.acad.54623

Ide, N., & Véronis, J. (1998). Introduction to the special issue on word sense disambiguation: The state of the art. Computational linguistics, 24(1), 1-40. https://aclanthology.org/J98-1001

Jockers, M. L. (2013). Macroanalysis: Digital methods and literary history. University of Illinois Press.

Kirsch, A. (2014, 2 de maio). Technology is taking over English Departments: The false promise of the Digital Humanities. The New Republic. https://newrepublic.com/article/117428/limits-digital-humanities-adam-kirsch

Lacan, J. (1998). Escritos. Zahar.

Manning, C., & Schutze, H. (1999). Foundations of statistical natural language processing. MIT Press.

Marcondes, D. (2009). Textos básicos de linguagem: De Platão a Foucault. Zahar.

Martins, H. (2005). Três caminhos na filosofia da linguagem. In F. Mussalin, & A. Bentes (Eds.), Introdução a linguística – Fundamentos Epistemológicos (Vol. 3). Cortez Editora.

McCarthy, M., & O’Keeffe, A. (2010). Historical perspective: What are corpora and how have they evolved? In A. O'Keeffe, & M. McCarthy (Eds.), The Routledge handbook of corpus linguistics (pp. 3-13). Routledge

Moretti, F. (2013). Distant reading. Verso Books.

Moretti, F. (2000). Conjectures on world literature. New Left Review, 1. https://newleftreview.org/issues/ii1/articles/franco-moretti-conjectures-on-world-literature

Najafabadi, M. M., Villanustre, F., Khoshgoftaar, T. M., Seliya, N., Wald, R., & Muharemagic, E. (2015). Deep learning applications and challenges in big data analytics. Journal of Big Data, 2(1), 1-21. https://doi.org/10.1186/s40537-014-0007-7

Rademaker, A., Chalub, F., & Freitas, C. (2017). Two Corpus Based Experiments with the Portuguese and English Wordnets. In J. P. McCrae et al. (Eds.) Proceedings of the {LDK} 2017 Workshops: 1st Workshop on the OntoLex Model (OntoLex-2017), Shared Task on Translation Inference Across Dictionaries {&} Challenges for Wordnets co-located with 1st Conference on Language, Data and Knowledge {(LDK} 2017), Galway, Ireland, June 18, 2017 (134-145). CEUR-WS.org. http://ceur-ws.org/Vol-1899/CfWNs_2017_proc2-paper_4.pdf

Ribeiro, C. J. S., Higuchi, S., & Ferla, L. A. C. (2020). Aproximações ao cenário das humanidades digitais no Brasil. Digital Humanities Quarterly, 14(2). http://www.digitalhumanities.org/dhq/vol/14/2/000453/000453.html

Sampson, G. (2001). Empirical Linguistics. Continuum.

Santos, D. (2007). Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa. IST Press.

Santos, D. (2014). Podemos contar com as contas? In S. M. Aluísio, & S. E. O. Tagnin (Eds.), New Language Technologies and Linguistic Research: A Two-Way Road (pp. 194-213). Cambridge Scholars Publishing.

Santos, D. (2019). Literature studies in Literateca: Between digital humanities and corpus linguistics. In M. Doerr, Ø. Eide, O. Grønvik, & B. Kjelsvik (Eds.), Humanists and the digital toolbox: In honour of Christian-Emil Smith Ore. Novus Forlag.

Santos, D., Alves, D., Amaro, R., Branco, I. A., Fialho, O., Freitas, C., ... & Terra, P. (2020). Leitura distante em português: Resumo do Primeiro Encontro MatLit (Centro de Literatura Portuguesa da Universidade de Coimbra), 8(1), 279-298.

Santos, D., Marques, R., Freitas, C., Simões, A., & Mota, C. (2015). Comparando anotações linguísticas na Gramateca: Filosofia, ferramentas e exemplos. Domínios de Lingu@ gem, 9(2), 11-26.

Sapir, E. (1949). Language, an introduction to the study of speech. Harcourt.

Sardinha, T. B. (2000). Lingüística de Corpus: Histórico e problemática. DELTA, 16(2), 323-367. https://doi.org/10.1590/S0102-44502000000200005

Saussure, F. de (2002). Curso de linguística geral. Organizado por Charles Bally e Albert Sechehaye. Prefácio de Isaac Nicolau Salum. (24.ª ed.). Cultrix.

Schnapp, J., Presner, T., & Lunenfeld, P. (2009). Digital humanities manifesto 2.0. https://www.humanitiesblast.com/manifesto/Manifesto_V2.pdf

Sinclair, J. (2005). “Corpus and text – Basic principles”. In M. Wynne (Ed.), Developing Linguistic Corpora: a Guide to Good Practice (pp. 1-16). Oxbow Books. http://ota.ox.ac.uk/documents/creating/dlc/

Weedwood, B. (2002). História concisa da linguística. Parabola Editora.

Wittgenstein, L. (1979). Investigações Filosóficas (J. C. Bruni, Trad., 2.ª ed.). Abril Cultural (Os Pensadores).

Wilson, A., & Thomas, J. (1997). “Semantic Annotation”. In R.G. Garside, G. Leech, & A. M. Mcenery (Eds.), Corpus Annotation: Linguistic Information from Computer Text Corpora. Longman.

Published

2021-12-31

How to Cite

Higuchi, S. . (2021). From text to data: Debates about distant reading in the humanities. H2D|Digital Humanities Journal, 3(2). https://doi.org/10.21814/h2d.3569