Interinstitutional Center of Computational Linguistics


Historical Portuguese Corpora


About Historical Portuguese Corpora (HPC)

HPC is a sub-project of the Historical Dictionary of Brazilian Portuguese project, which is funded by CNPq, Brazil. In the HPC project tools and resources for manipulation of historical corpora and management of historical dictionaries are developed. The tools and resources were released under public domain.

About Historical Dictionary of Brazilian Portuguese (HDBP)

The Historical Dictionary of Brazilian Portuguese (HDBP), the first of its kind, is based on a corpus of Brazilian Portuguese texts from the sixteenth through the eighteenth centuries (including some texts from the beginning of the nineteenth century). The HDBP is a five-year project, which started in 2006. This project has participants from various regions of Brazil and Portugal, including linguists and computer scientists from 11 universities. Private resources from HDPB project can be found here (access restricted to HDBP members).

Publications

CANDIDO JR, A., ALUÍSIO, S. M. Building a Corpus-based Historical Portuguese Dictionary: Challenges and Opportunities. Traitement Automatique des Langues (TAL), [S.l.], v.50, p.73 - 102, 2009. ISSN: 1965-0906. Download paper.

BATISTA, A. M. F.; PARREIRA DA SILVA, M. C.; ALUÍSIO, S. M.; VALE, O. A. Reconhecimento e Classificação de Entidades Nomeadas para o Desenvolvimento de um Dicionário Eletrônico de Abreviaturas do Português Histórico do Brasil. In: XX Congresso de Iniciação Científica da Unesp de Rio Preto, pp 1-8, 2008. Download do artigo.

PARREIRA DA SILVA, M. C.; BATISTA, A. M. F. Tratamento e Classificação das Entidades Nomeadas (ENs) para um Dicionário de Abreviaturas. Série de Relatórios do NILC (NILC-TR-09-02), 30p. ICMC-USP, São Carlos, 2008. Download do relatório.

HIROTSU, K. T.; ALUÍSIO, S. M. Criação de um grande repositório público de Entidades Nomeadas Abreviadas extraídas de um Corpus Histórico do Português do Brasil: automatizando a extração de padrões. Série de Relatórios do NILC (NILC-TR-08-16), 30p. ICMC-USP, São Carlos, 2008. Download do relatório.

HIROTSU, K. T.; SANCHEZ, R. ALUÍSIO, S. M. Criação de um grande repositório público de Entidades Nomeadas Abreviadas extraídas de um Corpus Histórico do Português do Brasil: automatizando a extração de padrões . Série de Relatórios do NILC (NILC-TR-08-15), 32p. ICMC-USP, São Carlos, 2008. Download do relatório.

CANDIDO JR, A.; ALUÍSIO, S. M. Um Ambiente Computacional para o Processamento de Córpus de Português Histórico. In: VI Best MSc Dissertation/PhD Thesis Contest (CTDIA 2008), 2008, Salvador. Proceedings of CTDIA (2008). Hidelberg: Springer, 2008. v. 1. p. 1-10. Downloads: artigo, apresentação.

CANDIDO JR, A.; ALUÍSIO, S. M. Procorph: um Sistema de Apoio à Criação de Dicionários Históricos. In: VI Workshop em Tecnologias da Informação e da Linguagem Humana (TIL 2008), 2008, Vilha Velha. Anais do VI Workshop em Tecnologias da Informação e da Linguagem Humana, 2008. v. 1. p. 1-6. Downloads: artigo, apresentação.

VALE, O. A.; CANDIDO JR, A.; MUNIZ; BENGTSON, C. G.; CUCATTO, L. A.; ALMEIDA, G. M. B.; BATISTA, A.; PARREIRA DA SILVA, M. C.; BIDERMAN, M. T.; ALUÍSIO, S. M. Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora. In: Language Technology for Cultural Heritage Data (LaTech - 2008), 2008, Marrackech. Proceedings of LREC 2008. Paris: ELRA, 2008. v. 1. p. 1-10. Downloads: paper, presentation.

CANDIDO JR, A. Criação de um ambiente para o processamento de córpus de Português Histórico. Dissertação (Mestrado) – ICMC-USP, São Carlos, 2008. Downloads: dissertação, apresentacao.

GIUSTI, R.; CANDIDO JR, A.; MUNIZ; CUCATTO, L. A.; ALUÍSIO, S. M. Automatic detection of spelling variation in historical corpus: An application to build a Brazilian Portuguese spelling variants dictionary. In: Corpus Linguistics, 2007, University of Birmingham, Birmingham, UK. Corpus Linguistics, 2007. Downloads: paper, presentation.

GIUSTI, R; ALUÍSIO, S. M. Siaconf. Relatório Interno de Trabalho. ICMC-USP, São Carlos, 2006. Downloads: relatório, apresentação.

Presentations/Posters

ALUÍSIO, S. M. Córpus Históricos, Recursos Léxicos e Ferramentas para a Tarefa de Criação de Dicionários. In: I Escola Brasileira de Lingüística Computacional. 2007. Download da apresentação.

CANDIDO JR. Acesso ao Córpus do Dicionário do Português Histórico do Brasil: As ferramentas. II Workshop do Projeto do Dicionário Histórico do Brasil. 2007. Download da apresentação.

ALUÍSIO, S. M. O papel do léxico do Unitex-PB no projeto “Dicionário Histórico do Português do Brasil dos séculos XVI, XVII e XVIII”. II Colóquio OS ESTUDOS LEXICAIS EM DIFERENTES PERSPECTIVAS, FFLCH, 2006. Download da apresentação.

ALUÍSIO, S. M. Etapas no processamento do córpus do Projeto DHPB. I Workshop do Projeto do Dicionário Histórico do Brasil. 2006. Download do poster.

ALUÍSIO, S. M. Ferramentas computacionais para possibilitar o uso universal da Base Informatizada sobre o Brasil dos séculos XVI, XVII e XVIII . Reunião de Trabalho do Projeto DHPB. 2005. Download da apresentação.

Tools

Procorph: a system for historical dictionary management. Download.

Siaconf: a system for automatic spelling variant extraction based on Transformation Rules. Download.

Renahb: an online system to retrieve abbreviated named entities. Download or see online.

Protej: a system used in HDBP project to convert plain text with simple annotation to XML annotation or plain text without annotation. Download.

Protew: a system used in HDBP project to convert Word documents into plain text with simple annotation. Download.

Obs: There is an online version of Procorph, Philologic and Unitex systems here (access restricted to HDBP researchers).

Resources

Spelling variants glossary: spellings automatically retrieved from HDBP corpus by Siaconf. Download.

Abbreviations glossary without expansions: abbreviations extracted by the HDBP corpus through heuristics. Download.

Abbreviated Named Entity glossary: a glossary with rivers, locations and persons name. Download.

Abbreviations with expansions, morphosyntatic annotation and semantic annotation: abbreviations extract from Flexor (1991). These abbreviation are available only by request and only for non-profit use. Contact information bellow.

Junctions glossary: words junctions manually extract from corpus by an HDBP researcher. Download.

Contact

Sandra Maria Aluísio (sandra at icmc dot usp dot br).

Arnaldo Candido Junior (arnaldoc at icmc dot usp dot br).

Financial Support

We would like to thank CNPq for the financial support received.