Generating Linguistic Knowledge for Multi-document Summarization

 

Team

Resources

Publications

Contact

The sustento was a long-term (2012-2020) research project which aimed at generating knowledge to provide more linguistic-motivated strategies for multi-document automatic summarization of texts in the Brazilian Portuguese language. Specifically, the project focused on 3 correlated tasks:

  • linguistic characterization of multi-document summaries and their manual production, since multi-document summarization has just been based on clues regarding the human summarization;
  • corpus-based studies of multi-document phenomena (redundancy, contradiction and complementarity);
  • representation of semantic-conceptual knowledge and construction of resources and tools, since there are no methods based on this level of knowledge for multi-document summarization of Brazilian Portuguese texts.

Considering the description and formalization of linguistic knowledge to be generated by the 3 research tasks, this project has potential to achieve significant contributions in the multi-document summarization and descriptive linguistics.
An ultimate goal of this project is to pull the developed resources and tools together as on-line applications for final users.

The project was developed at NILC (Interinstitutional Center for Computational Linguistics), one of the biggest research groups on Natural Language Processing and Computational Linguistics in Brazil.
It started in 2012 and finished in 2020. It was supported by the research agencies FAPESP and CNPq, and CAPES, which granted scholarships for undergraduate and graduate students and regular financial support for the project (FAPESP #2012/13246-5, CNPq 483231/2012-6).

 Team 

 Coordinator

Students and colaborators

  • Jackson W. C. Souza (PhD student - supervisor: Ariani Di Felippo)
  • Darlan Xavier Nascimento (MSc student - supersivor: Ariani Di Felippo)
  • Renata Rasmich (MSc student - supersivor: Ariani Di Felippo)
  • Yasmin Vizeu Camargo (MSc student - supersivor: Ariani Di Felippo)
  • Rejeane Cassia de Luca (MSc student - supersivor: Ariani Di Felippo)
  • Vinicius Felix dos Santos (undergraduate student - supervisor: Ariani Di Felippo)
  • Marina Delege (undergraduate student - supervisor: Ariani Di Felippo)
  • Carla Chuman (undergraduate student - supervisor: Ariani Di Felippo)
  • Naira Licia da Silva (undergraduate student - supervisor: Ariani Di Felippo)
  • Vanessa Marcasso (undergraduate student - supervisor: Ariani Di Felippo)
  • Andressa C. I. Zacarias (undergraduate student)
  • Renata T. Camargo (MSc - supervisor: Ariani Di Felippo)
  • Fabrício E. S. Tosta (MSc - supervisor: Ariani Di Felippo)
  • Matheus R. Chaud (MSc - supervisor: Ariani Di Felippo)
  • Débora Garcia (PhD - supervisor: Ariani Di Felippo)
  • Maria Lucía R. Castro Jorge (PhD - supervisor: Thiago Pardo)
  • Alessandro Y. Bokan Garay (MSc- supervisor: Thiago Pardo)
  • Amanda P. Rassi (PhD - supervisor: Oto A. Vale)
  • Márcio S. Dias (PhD - supervisor: Thiago Pardo)
  • Marco A. Sobrevilla Cabezudo (MSc - supervisor: Thiago Pardo)
  • Paula C. F. Cardoso (PhD - supervisor: Thiago Pardo)
  • Roque E. López Condori (MSc - supervisor: Thiago Pardo)
  • Erick G. Maziero (PhD - supervisor: Thiago Pardo)
  • Fernando A. A. Nóbrega (PhD - supervisor: Thiago Pardo)

Colaborators

 Publications 

Book chapters

  1. Agostini, V.; Camargo, R.T.; Di-Felippo, A.; Pardo, T.A.S. (2014) Manual alignment of news texts and their multi-document human summaries. In: Aluísio, S.M., Tagnin, S.E.O. (Eds.). New language technologies and linguistic research: a two-way road. Cambridge: Cambridge Scholars Publishing, 2014, Chapter 9, p. 148-170. ISBN-13: 978-1443853774
  2. Di-Felippo, A. Rassi, A.P.; Zacarias, A.C.I.; Maziero, E.G.; Souza, J.W.C.; Dias, M.S.; Castro Jorge, M.L.; Cardoso, P.C.F.; Balage Filho, P.P.; Camargo, R.T.; Agostini, V.; Seno, E.R.M.; Rino, L.H.M.; Pardo, T.A.S. (2014) Corpus Annotation of Textual Aspects in Multi-document Summaries. In: Aluísio, S.M., Tagnin, S.E.O. (Eds.). New language technologies and linguistic research: a two-way road. Cambridge: Cambridge Scholars Publishing, 2014, Chapter 10, p. 171-193. ISBN-13: 978-1443853774
  3. Di-Felippo, A. (2013) Extração automática de termos a partir de corpus e sua validação para a construção de wordnets terminológicas em português do Brasil. In: Tagnin, S.E.O.; Bevilacqua, C. (Orgs.). Corpora na terminologia. Editora: HUB Editorial, p. 63-85. ISBN 978-85-8076-134-4
  4. Camargo, R.T.; Di-Felippo, A. (2013) Anotação e descrição de corpus para a investigação de estratégias de sumarização humana multidocumento. In: Laporte, E.; Smarsaro, A.; Vale, O. A. Dialogar é preciso - Linguistica para processamento de línguas. Vitória, ES: PPGEL/UFES, v.01, p. 57-72, 2013. ISBN 978-85-8087-104-3.

Papers in journal

  1. Souza, J. W. C., Di-Felippo, A. (2018) Characterization of temporal complementarity: Fundamentals for Multi-Document Summarization. Alfa - Revista de Linguística, v. 62 (1), p. 121-147. E-ISSN: 1981-5794. pdf
  2. Chaud, M.R.; Di Felippo, A. (2018) Exploring content selection strategies for Multilingual Multi-Document Summarization based on the Universal Network Language (UNL). Revista de Estudos da Linguagem, v. 26(1), p. 45-71. pdf
  3. Sobrevilla Cabezudo, M.A.; Maziero, E.G.; Souza, J.W.C.; Dias, M.S.; Cardoso, P.C.F.; Balage Filho, P.P.; Agostini, V.; Nóbrega, F.A.A.; Barros, C.D.; Di Felippo, A.; Pardo, T.A.S. (2015). Anotação de Sentidos de Verbos em Textos Jornalísticos do Corpus CSTNews. Revista de Estudos da Linguagem (RELIN), Vol. 23, N. 3, pp. 797-832. pdf
  4. Conrado, M.S.; Di-Felippo, A.; Pardo, T.A.S.; Rezende, S.O. (2014) A survey on automatic term extraction for Brazilian Portuguese. Journal of the Brazilian Computer Society (Special issue on Web and Text Intelligence), Vol. 20, N. 12, pp. 1-28. pdf
  5. Camargo, R.T.; Agostini, V.; Di-Felippo, A.; Pardo, T.A.S. (2013) Manual typification of source texts and multi-document summaries alignments. Procedia (Social and Behavioral Sciences)., Vol. 95, pp. 498-506. pdf

Papers in conference

  1. Cristrini, L.F.; Di-Felippo, A. (2018) Source Texts Annotation for Rewriting References to People in Automatic Multi-Document Extracts. In the Proceedings of the PROPOR Student Research Workshop (Tilic), pp. 1-5. September, 24. Canela, RS/Brazil. pdf
  2. Pardo, T.A.S.; Baptista, J.; Duran, M.S.; Nunes, M.G.V.; Nóbrega, F.A.A.; Aluísio, S.M.; Di-Felippo, A.; Seno, E.R.M.; Silva, R.R.; Anchiêta, R.T.; Brum, H.B.; Dias, M.S.; Martins, R.S.O.; Maziero, E.G.; Souza, J.W.C.; Vargas, F.A. (2017). The Coreference Annotation of the CSTNews Corpus. In the Proceedings of the Second Workshop on Evaluation of Human Language Technologies for Iberian Languages (IberEval), pp. 102-112. September, 19. Murcia/Spain. pdf
  3. Di-Felippo, A., Nenkova, A. (2016). Phrase Generalization: a Corpus Study in Multi-Document Abstracts and Original News Alignments. In the Proceedings of LAW - The 10th Linguistic Annotation Workshop, Association for Computational Linguistics, pp. 151-159, August, 11th. Berlin, Germany. 2016. pdf
  4. Di-Felippo, A. (2016). CM2News: Towards a Corpus for Multilingual Multi-document Summarization. In the Proceedings of the Workshop on Corpora and Tools for Processing Corpora (CTPC), Collocated with PROPOR 2016 - The 12th International Conference on the Computational Processing of Portuguese language, pp. 1-8, July, 13th. Tomar, Portugal, 2016. pdf (preprint version)
  5. Di-Felippo, A. Tosta, F. E. S., Pardo, T. A. S. (2016). Applying Lexical-Conceptual Knowledge for Multilingual Multi-Document Summarization. In the Proceedings of the 12th International Conference on the Computational Processing of Portuguese (PROPOR). Lecture Notes in Computer Science, Vol 9727, Springer, pp. 38-49, July, 13-15. Tomar, Portugal. ISBN 978-3-319-41552-9 pdf (preprint version)
  6. Camargo, R.T.; Di Felippo, A.; Pardo, T.A.S. (2015). On Strategies of Human Multi-Document Summarization. In the Proceedings of the 10th Brazilian Symposium in Information and Human Language Technology - STIL, pp. 141-150. November 4-7. Natal/Brazil. pdf
    *Award of 2nd best paper in the conference
  7. Souza, J.C.; Di-Felippo, A. (2015) Em direção à caracterização da complementaridade no corpus multidocumento CSTNews. In the Proceedings of the 4th Workshop on Portuguese Description - JDP, November 4-7. Natal/Brazil. pdf
  8. Zacarias, A. C. I. , Di-Felippo, A.(2015) Explorando hierarquias conceituais para a seleção de conteúdo na sumarização automática multidocumento. In the Proceedings of the 4th Workshop on Portuguese Description - JDP, November 4-7. Natal/Brazil. pdf
  9. Lopes, R.; Pardo, T.; Avanço, L.; Balage-Filho, P.; Bokan, A.; Cardoso, P.; Dias, M.; Nóbrega, F.; Cabezudo, M.; Souza, J.; Zacarias, A.; Seno, E.; Di-Felippo, A. (2015) A qualitative analysis of a corpus of opinion based on aspects. In the Proceedings of the 9th Linguistic Annotation Workshop (LAW)/NAACL. pp. 62-71. June 5. Denver/USA. pdf
  10. Sobrevilla Cabezudo, M.A.; Maziero, E.G.; Souza, J.W.C.; Dias, M.S.; Cardoso, P.C.F.; Balage Filho, P.P.; Agostini, V.; Nóbrega, F.A.A.; Barros, C.D.; Di-Felippo, A.; Pardo, T.A.S. (2014) Anotação de sentidos de verbos em notícias jornalísticas em português do Brasil. In the Proceedings of the 12th Encontro de Linguística de Corpus (ELC), November, 6-7, Uberlândia-MG/Brasil. pdf
  11. Nóbrega, F.A.A.; Agostini, V.; Camargo, R.T.; Di-Felippo, A.; Pardo, T.A.S. (2014) Alignment-based sentence position policy in a news corpus for Multi-document Summarization. In the Proceedings of the 11th International Conference on Computational Processing of Portuguese (PROPOR). Lecture Notes in Computer Science (LNCS), Vol. 8775, 2014, pp 286-291. October 6-9. São Carlos-SP/Brazil. pdf
  12. Dias, M. S., Bokan Garay, A. Y.; Chuman, C.; Barros, C.D.; Maziero, E.G.; Nobrega, F.A.A.; Souza, J.W.C.; Sobrevilla Cabezudo, M.A.; Delege, M.; Castro Jorge, M.L.; Silva, N. S.; Cardoso, P.F.; Balage Filho, P.P.; Condori, R.E.L; Marcasso, V.; Di-Felippo, A.; Nunes, M.G.V; Pardo, A.S. (2014) Enriquecendo o Córpus CSTNews: a criação de novos sumários multidocumento. In the Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish (ToRPorEsp), São Carlos: USP, 2014, pp. 1-8. October 9pdf
  13. Souza, J.W.C.; Di-Felippo, A. (2014) O Corpus CSTNews e sua Complementaridade Temporal. In the Proceedings of the 1rst Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish (ToRPorEsp). pp. 105-108. October 9. São Carlos: USP. pdf
  14. Rino, L.H.M.; Di-Felippo, A.; Pardo, T.A.S. (2013) Insights for better RST segmentation of texts in Portuguese? In the Proceedings of the 4th Workshop RST and Discourse Studies, Fortaleza/CE, p. 1-10. October 23. pdf
  15. Souza, J.W.C.; Di-Felippo, A. (2013) Em busca de métodos de detecção da complementaridade para a Sumarização Automática Multidocumento. In the Proceedings of the 3rd Workshop on Portuguese Description (JDP), Fortaleza/CE, p. 1-10. 23 de outubro. pdf
  16. Agostini, V.; Camargo, R. T.; Di-Felippo, A.; Pardo, T. A. S. (2012) Alinhamento manual de textos e sumários em um corpus jornalístico multidocumento. In the Proceedings of the XI Encontro de Linguística de Corpus (ELC), pp. 1-5. September 13-15, São Carlos/SP, Brazil. pdf (on-line unofficial version in the conference page) 
  17. Jorge, M. L. C.; Di-Felippo, A.; Nobrega, F. A. A.; Pardo, T. A. S. (2012) Analysis of aspects in a corpus of human multi-document summaries of "sport" news. In the Proceedings of the XI Encontro de Linguística de Corpus (ELC), pp. 1-7. São Carlos. September 13-15, São Carlos/SP, Brazil. pdf (on-line unofficial version in the conference page)

Extended Abstracts

  1. Souza, J.W.C.; Di-Felippo, A.; Pardo, T.A.S. (2013) Identificação da redundância na Sumarização Automática Multidocumento: explorando métodos superficiais. In the Proceedings of the 3rd Student Workshop on Information and Human Language Technology (TILic), Fortaleza/CE. p.1-3. 23 de outubro. pdf
  2. Tosta, F.E.S.; Di-Felippo, A.; Pardo, T.A.S. (2013) Estudo de métodos clássicos de sumarização no cenário multidocumento multilíngue. In the Proceedings of the 3rd Student Workshop on Information and Human Language Technology (TILic), p.1-3. 23 de outubro. pdf
  3. Zacarias, A.C.I; Di-Felippo, A.; Pardo, T.A.S. (2013) Delimitação de subontologias com base na indexação léxico-ontológica: primeiras investigações. In Anais do 5o Congresso de Iniciação em Desenvolvimento Tecnológico e Inovação da UFSCar (CIDTI), São Carlos, 2013, p.01. pdf
  4. Zacarias, A.C.I.; Di-Felippo, A.; Pardo, T.A.S. (2013) Delineamento conceitual de corpus via indexação léxico-conceitual: primeiros resultados. In the Proceedings of the 3rd Student Workshop on Information and Human Language Technology (TILic), p.1-3. 23 de outubro. pdf
  5. Camargo, R.T.; Di-Felippo, A. (2012) Anotação e descrição de corpus para a investigação de estratégias de Sumarização Humana Multidocumento. In Anais do 1o Colóquio de Linguística para o Processamento Automático de Linguagem Natural (LiPraL), Vitória/ES, 2012. pdf

Technical reports

  1. Sobrevilla Cabezudo, M.A.; Maziero, E.G.; Souza, J.W.C.; Dias, M.S.; Cardoso, P.C.F.; Balage Filho, P.P.; Agostini, V.; Nóbrega, F.A.A.; Barros, C.D.; Di Felippo, A.; Pardo, T.A.S. (2014). Anotação de sentidos de verbos no córpus CSTNews. Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, no. 402. NILC-TR-14-05. São Carlos-SP, Dezembro, 34p. pdf
  2. Chuman, C.; Di-Felippo, A. (2014) Identificação das operações linguísticas nos alinhamentos com especialização do corpus CSTNews. Série de Relatórios Técnicos do Interinstitucional de Linguística Computacional, NILC-TR-14-04, Setembro 2014, 27p. pdf
  3. Delege, M.; Di-Felippo, A. (2014) Identificação das operações linguísticas nos alinhamentos com generalização do corpus CSTNews. Série de Relatórios Técnicos do Interinstitucional de Linguística Computacional, NILC-TR-14-01, Setembro 2014, 27p. pdf
  4. Marcasso, V.; Di-Felippo, A. (2014) Descrição de características lexicais estatísticas dos textos-fonte e sumários do corpus CSTNews. Série de Relatórios Técnicos do Interinstitucional de Linguística Computacional, NILC-TR-14-02, Setembro 2014, 24p. pdf
  5. Santos, V.F.; Di-Felippo, A. (2014) Geração de subsídios linguísticos para a detecção automática de aspectos informacionais. Série de Relatórios Técnicos do Núcleo Interinstitucional de Linguística Computacional, NILC-TR-14-06, Set. 2014, 24p. pdf
  6. Silva, N. L.; Di-Felippo, A. (2014) Primeiras investigações sobre o fenômeno da contradição no corpus CSTNews. Série de Relatórios Técnicos do Núcleo Interinstitucional de Linguística Computacional, NILC-TR-14-03, Set. 2014, 26p. pdf
  7. Rassi, A.P. ; Zacarias, A.C.I.; Maziero, E.G.; Souza, J.W.C.; Dias, M.S.; Castro Jorge, M.L.R.; Cardoso, P.C.F.; Balage Filho, P.P.; Camargo, R.T.; Agostini, V.; Seno, E.R.M.; Rino, L.H.M.; Di-Felippo; Pardo, T.A.S. (2013) Anotação de aspectos textuais em sumários do córpus CSTNews. Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, no. 394. NILC-TR-13-01. São Carlos-SP, Outubro, 59p. NILC-TR-13-01. pdf
  8. Agostini, V.; Camargo, R. T.; Di-Felippo, A.; Pardo, T. A. S. (2012) Alinhamento manual dos sumários humanos e dos textos-fonte do corpus multidocumento CSTNews. Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP), no. 380. São Carlos, São Paulo, Junho, 17p. ISSN 0103-2569. pdf
  9. Cardoso, P.C.F.; Rassi, A.P.; Maziero, E.G.; Nobrega, F.A.A.; Souza, J.W.C.; Dias, M.S.; Castro Jorge, M.L.R.; Balage Filho, P.P.; Camargo, R.T.; Agostini, V.; Di-Felippo, A.; Rino, L.H.M.; Pardo, T.A.S. (2012) Anotação de subtópicos do córpus multidocumento CSTNews. Série de Relatórios Técnicos do ICMC, USP, no. 389. NILC-TR-12-07. São Carlos-SP, Junho, 18p. pdf
  10. Tosta, F.E.S.; Di-Felippo, A.; Pardo, T.A.S. (2012) Aplicação de métodos clássicos de sumarização automática no contexto multidocumento multilíngue: primeiras aproximações. Série de Relatórios Técnicos do NILC. NILC-TR-12-02, São Carlos-SP, 20p. pdf
  11. Zacarias, A.C.I.; Di-Felippo, A.; Pardo, T.A.S. (2012) Em direção ao delineamento conceitual de corpus via indexação léxico-conceitual. Série de Relatórios Técnicos do NILC. NILC-TR-12-04, São Carlos-SP, 27p. pdf
  12. Souza, J. W. C.; Di-Felippo, A.; Pardo, T. A. S. (2012) Investigação do fenômeno da redundância na Sumarização Automática Multidocumento. Série de Relatórios Técnicos do NILC. NILC-TR-12-03. São Carlos-SP, Outubro, 30p. pdf

Thesis and Dissertations

  • Souza, J. W. C. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. 2019. 105f. Tese (Doutorado em Linguística) – Departamento de Letras, UFSCar, São Carlos, 2019. pdf
  • Camargo, I. V.  Sumarização Automática Multidocumento Multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2019. 91f. Dissertação (Mestrado em Linguística) – Departamento de Letras, UFSCar, São Carlos, 2019. pdf
  • De Luca, R. C. Aplicação de conhecimento léxico-conceitual na Sumarização Automática Multidocumento. 2019. 113f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, 2019. pdf
  • Nascimento, D. X. Explorando a avaliação de sumários automáticos multidocumento multilíngues2019. 101f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, 2019. pdf
  • Zacarias, A. I. Investigação de métodos de sumarização automática baseados em hierarquias conceituais. 2016. 126f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, São Carlos, 2015. pdf
  • Chaud, M. R. Investigação de estratégias de Sumarização Automática Multidocumento Multilíngue baseadas em interlíngua. 2015. 157f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, São Carlos, 2015. pdf
  • Souza, J. W. C. Investigação do fenômeno da complementaridade para a Sumarização Automática Multidocumento. 2015. 102f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, São Carlos, 2015. pdf
  • Tosta, F. E. S. Aplicação de conhecimento léxico-conceitual na Sumarização Multidocumento Multilíngue. 2014. 116f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, 2014pdf
  • Camargo, R. T. Investigação de estratégias de sumarização humana multidocumento. 2013. 133f. Dissertação (Mestrado em Linguística) – Departamento de Letras, Universidade Federal de São Carlos, São Carlos, 2013. pdf 

Resources 

CM3News (1.0) is a multilingual multi-document corpus with 10 clusters of news texts - in Portuguese, English, and Spanish - along with their multi-document summaries.
For each cluster inside the corpus , the following information is available:

  • a folder named "Textos-fonte", with the original source texts (in .txt format) and their titles (in _titulos.txt format)  - each file name identifies the numbers of the document and the cluster, the source agency, as well as day, month, year and time information for the news, whenever these data were available during corpus compilation;
  • a folder named "Textos-fonte segmentados", with the original source texts with sentence boundaries delimited by new line characters;
  • a folder named "Textos-fonte traduzidos", with the portuguese version of each original source text in English and Spanish translated by the Google Translate web service.

Besides the folders above, the clusters 2, 6, 7, 8, and 10 also have:

  • a folder named "Sumarios", with the (i) extractive multilingual multi-document summary for the cluster produced by humans based on a keywords summarization method (in _extrato_manual_frequencia_palavras.txt format for each cluster) and (ii) extractive multilingual  multi-document summary for the cluster produced by humans based on the sentence position method (in _extrato_manual_localizacao.txt format for each cluster). These summaries corresponde to 30% of the larger source source text of their correspondent cluster. 

CM2News is a multilingual multi-document corpus with 20 clusters of news texts - in Portuguese and English - along with their multi-document summaries.
For each cluster inside the corpus , the following information is available:

  • a folder named "Textos-fonte", with the original source texts (in .txt format) and their titles (in _titulos.txt format) - each file name identifies the numbers of the document and the cluster, the source agency, as well as day, month, year and time information for the news, whenever these data were available during corpus compilation;
  • a folder named "Textos-fonte anotados", with the source texts with their nouns accompanied by their corresponding Princeton WordNet synset identification numbers; the general XML file for all the source texts in the cluster shows the details of the word sense annotation (as the possible translations of the Portuguese words to English, whether they were manually or automatically translated, the available synsets and the chosen one); this annotation was completely manual, using MulSEN tool
  • a folder named "Sumarios", with the following: 1 reference multi-document summary (abstract); 2 automaticmultilingual multi-document summaries produced by lexical-conceptual extractive methods (in CX_sumario_automatico_metodo1.txt and CX_sumario_automatico_metodo2.txt format for each cluster). These automatic summaries correspond to 30% of the larger source text of their correspondent cluster.