Olimpíada
Brasileira de Linguística Computacional (OLinCom)
Brazilian
Olympiad on Computational Linguistics
9 de Setembro de 2009
Prefácio |
Comitês |
Artigos
Prefácio
A I Olimpíada Brasileira de Linguística
Computacional (I OLinCom) é uma
competição científica vinculada ao Simpósio
Brasileiro de Tecnologia da Informação e da
Linguagem Humana (STIL 2009).
A I OLinCom destinou-se, em especial, aos
graduandos dos cursos de Letras, Linguística,
Ciências da Computação, Engenharia da
Computação, Informática e Ciência da Informação.
Alunos de pós-graduação também participaram, mas
não concorreram à premiação.
Fazem parte dos objetivos da I OLinCom:
despertar e estimular o interesse pela
Linguística Computacional (LC) e pela Ciência em
geral, promover a difusão de conhecimentos
básicos sobre LC de forma lúdica e identificar
os grandes talentos e vocações em Linguística
Computacional de forma a instruir e estimular
esses talentos a seguir carreiras nessa área.
A I OLinCom englobou dois tipos de competição,
denominadas trilhas. A realização de tais
competições antecedeu ao STIL 2009 e os
interessados puderam participar de ambas.
De cunho computacional, a Trilha 1
caracterizou-se por ser uma atividade não
presencial, ou seja, realizada à distância, e em
equipes (de 1 até 3 membros).
Em linhas gerais, para a realização dessa
trilha, o Comitê Organizador da olimpíada
disponibilizou, em data que precedeu ao STIL
2009, um conjunto de perguntas e um conjunto de
documentos. Diante desse material, a tarefa dos
participantes foi o desenvolvimento de um
sistema que respondesse automaticamente às
perguntas dadas. As respostas e o sistema
(código-fonte e executável) de cada equipe foram
enviados à Comissão Organizadora, que avaliou
todo o material com base em um conjunto de
critérios bem delimitado. Ao final da avaliação,
os sistemas submetidos à Trilha 1 foram
classificados em função da exatidão das
respostas.
Especificamente, a Trilha 1 englobou 8 etapas:
a) Registro na Trilha 1: inscrição dos
participantes na I OLinCom (Trilha 1) por meio
do preenchimento do formulário disponível na
página do evento (www.nilc.icmc.usp.br/~arianidf/olincom/registro.html)
e envio do mesmo à Comissão Organizadora;
b) Disponibilização de dados (de saída e
entrada) ilustrativos: disponibilização,
por parte do Comitê de Organização, de uma
pequena coleção de dados de entrada (ou seja,
coleção de documentos e de perguntas) e de saída
(ou seja, coleção de respostas) para treinamento
e design dos sistemas; os dados foram
disponibilizados na página do evento (http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha1.html);
c) Disponibilização dos dados para avaliação/
teste dos sistemas: disponibilização, por
parte do Comitê de Organização, da coleção de
documentos e do conjunto de perguntas; os dados
disponibilizados nesta fase foram distintos dos
dados ilustrativos e foram utilizados para
avaliar os sistemas submetidos ao evento; assim
como os dados ilustrativos, os dados para teste
foram disponibilizados na página da OLinCom (os
dados foram disponibilizados na página do evento
(http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha1.html));
d) Submissão eletrônica dos resultados (sistema
e respostas): envio eletrônico, ao Comitê
de Organização, do sistema de perguntas e
respostas (arquivo executável e código fonte) e
do conjunto de respostas;
e) Avaliação das respostas e dos sistemas:
análise, por parte da Comissão de Organização,
das respostas e dos sistemas submetidos ao
evento; todo sistema foi executado e verificado
cuidadosamente; além disso, com base em um
conjunto de critérios (cf. 1.1.6), as respostas
obtidas pelos sistemas foram pontuadas;
f) Envio eletrônico das avaliações: envio
eletrônico da avaliação completa das respostas
aos participantes; os participantes receberam
apenas a avaliação de suas próprias respostas;
g) Divulgação dos resultados: divulgação
da classificação final dos sistemas na página da
I OLinCom;
h) Submissão eletrônica do artigo: envio,
pelos participantes que obtiveram as maiores
pontuações na trilha, de um artigo de até 5
páginas para a Comissão de Organização; tais
artigos estão relacionados no final deste
documento.
Para a inscrição na I OLinCom, foram
disponibilizados na página do evento dois
formulários de registro, um para cada trilha.
Para a o preenchimento do formulário da Trilha 1
(Quadro 1), os participantes seguiram as
seguintes instruções:
a) Um
time ou equipe pode ser formado por apenas um
participante (participação individual) ou por
vários (participação em grupo; no máximo, três
participantes);
b) O
nome do time deve ser preenchido no caso de
participação individual ou em grupo;
c) No
caso de participação em grupo, os dados para
contato devem ser os do “líder” da equipe;
d) No
caso de participação em grupo, o perfil do
participante deve ser o do “líder” da equipe;
e) Se
houver membros de um grupo com perfis diferentes
de o do “líder”, tais perfis têm de ser
especificados no campo “Observações – Quanto aos
participantes” seguindo a classificação feita no
campo “Perfil do participante”; por exemplo:
Participante 2: Graduação sem iniciação
científica (IC) em LC; etc.
|
Identificação |
Nome do time: |
|
Nome dos membros da
equipe: |
|
|
Dados para contato
(líder/ participante 1) |
Nome: |
|
Endereço: |
|
Telefone: |
|
E-mail: |
|
Instituição de
origem: |
|
|
Perfil do
participante
(líder/ participante 1) |
Experiência em
Linguística Computacional (LC) |
( ) Graduação com
iniciação científica (IC) em LC
( ) Graduação sem
IC em LC
( ) Outros.
Especifique.
--------------------------------------------------------------- |
|
Observações |
Quanto aos
participantes |
|
Quadro 1. Formulário de inscrição na Trilha 1
O conjunto de textos ou documentos processado
foi disponibilizado na página principal do
evento. Tal conjunto engloba 20 textos que se
caracterizam por serem do tipo “notícia”, do
gênero “informativo” (subgênero jornalístico) e
tratar do domínio “esporte”. Essa coleção de
textos foi extraída da Web. Para cada texto da
coleção, há um arquivo específico no formato txt.
Esses arquivos recebem a seguinte nomeação:
texto1.txt, texto2.txt, [...], texto20.txt. A
nomeação do arquivo (sem a extensão, p.ex.:
texto1) deve ser o ID do texto/documento para o
sistema.
O conjunto de perguntas foi disponibilizado na
página principal do evento. Tal conjunto engloba
30 questões. Para cada pergunta do conjunto, há
um arquivo no formato txt correspondente. Tais
arquivos são nomeados de forma similar aos
arquivos da coleção de documentos: pergunta1,
pergunta2, [...], pergunta30. As questões da
coleção são do tipo “rígido” ou “fechado”, ou
seja, perguntas do tipo qu (quem, que, qual(is),
quando) (em inglês, wh-questions). Por exemplo,
para a pergunta, “Qual é o nome do estádio que
sedia o amistoso entre Brasil e Itália em
fevereiro de 2008”?, a resposta seria “Emirates
Stadium”.
Quanto às linguagens de programação, ressalta-se
que o sistema de perguntas e respostas deve ser
escrito em uma linguagem de programação que não
seja proprietária.
Para cada pergunta, o sistema deve retornar um
par ordenado [resposta-string;docid]. Por
exemplo, para a pergunta ilustrativa, que
estaria contida no arquivo pergunta1.txt e cuja
resposta estaria no documento armazenado no
arquivo texto22.txt, tem-se o par [emirates_stadium;texto22].
Cada par [resposta-string,docid] deve consistir
em um arquivo de saída no formato txt com a
seguinte nomeação: resposta_pergunta1.txt,
resposta_pergunta2.txt, [...],
resposta_pergunta30.txt. No caso da resposta à
pergunta ilustrativa, tem-se o arquivo
resposta_pergunta1.txt, cujo conteúdo seria o
par [emirates_stadium;texto22].
Caso a resposta seja uma lista, os elementos da
mesma devem ser separados por vírgula, p.ex.: [emirates_stadium,maracanã;texto33],
e colocados na mesma ordem em que ocorrem no
texto (no caso, Emirates Stadium ocorre primeiro
que Maracanã).
A sensitividade à caixa não será considerada.
Assim, os padrões [emirates_stadium,maracanã;texto33]
e [Emirates_Stadium,Maracanã;texto33] são
válidos. Além disso, nos casos em que houver
duas respostas válidas para uma mesma pergunta,
o padrão da resposta deve ser [resposta-string;docid][resposta-string;docid],
sendo que a ordem das respostas-string deve
seguir a ordem crescente de numeração dos
textos. Por exemplo, suponha que, para a
pergunta ilustrativa "Quantos pontos fez o
jogador de basquete Oscar?", haja duas respostas
possíveis na coleção de textos, uma delas
localizada no texto do arquivo texto1.txt
(p.ex.: 25 pontos) e a outra no texto do arquivo
texto.29 (p.ex.: 35 pontos). Nesse caso, o
padrão para a resposta seria
[25;texto1][35;texto29].
A exatidão das respostas obtidas pelos sistemas
submetidos ao evento foi avaliada por um juiz
humano, membro do Comitê de Organização, que
atribuiu uma nota a cada resposta-string. A nota
variou de 1 a 4, como especificado no Quadro 2.
Nota |
Descrição |
1 |
A resposta-string não
contém a resposta correta, ou seja, a
palavra ou o conjunto de palavras
correto. |
2 |
A resposta-string contém
a resposta correta, mas o documento
retornado não sustenta tal resposta. |
3 |
A resposta-string contém
a resposta correta e o documento
retornado suporta tal resposta; no
entanto, a resposta-string possui mais
elementos do que a palavra ou o conjunto
de palavras correto.
A resposta-string
apresenta parte da resposta correta.
A resposta-string
apresenta os elementos da resposta
correta em outra ordem. |
4 |
A resposta-string possui
exatamente a resposta correta, que é
suportada pelo documento retornado. |
Quadro 2. Critérios para a avaliação das
respostas dos sistemas
As equipes foram classificadas em função da
pontuação obtida na soma das notas dadas a cada
uma das 30 respostas. Nesse caso, a equipe que
obteve a maior pontuação nessa soma foi
declarada ganhadora da Trilha 1 da I OLinCom.
Cada equipe recebeu por meio de correio
eletrônico apenas a informação sobre sua
classificação final na trilha 1 da I OLinCom e o
quadro de avaliação de suas respostas. Os nomes
dos participantes e seus dados não foram
divulgados publicamente. Na página do evento,
foram divulgados apenas o nome das equipes e sua
respectiva classificação.
No Quadro 3 consta uma pequena amostra do quadro
de avaliação enviado aos participantes. Tal
quadro é composto por 5 colunas. Na primeira
coluna, está indicado o número da pergunta; na
segunda, consta a pergunta propriamente dita; na
terceira, está descrita a resposta correta, no
formato [resposta-string,docid]; na quarta
coluna, consta a resposta obtida pelo sistema
submetido à trilha; na quinta, está especificada
a pontuação da resposta do sistema.
No. |
Pergunta |
[Resposta-string,docid] |
[Resposta-string,docid]
do sistema |
Pts |
1 |
Quantas vezes o Lakers
venceu no campeonato? |
[42,texto2] |
[42,texto2] |
4 |
2 |
Quem ficou no banco
durante o primeiro tempo do jogo contra
o Palmeiras? |
[Roni,texto7] |
[Roni,texto7] |
4 |
Quadro 3. Exemplo do quadro de avaliação das
respostas
De cunho linguístico-computacional, a Trilha 2
foi uma competição científica que se
caracterizou por ser presencial e individual. A
realização dessa trilha também antecedeu ao STIL
2009.
Os participantes fizeram uma “prova” com duração
de 4 horas que englobou problemas interessantes
e criativos em linguística e linguística
computacional, baseada em prova semelhante da
The Third Annual North American Computational
Linguistics Olympiad (http://www.naclo.cs.cmu.edu/).
Não foi necessário nenhum conhecimento prévio de
linguística, linguagens ou computação, pois a
resolução dos problemas exigiu apenas raciocínio
analítico. Tais problemas serviram como uma
introdução divertida ao campo da linguística
computacional, que muitos nunca tinham tido a
oportunidade de conhecer.
Especificamente, a Trilha 2 englobou 4 etapas:
a) Registro na Trilha 2: inscrição dos
participantes na I OLinCom (Trilha 2) por meio
do preenchimento do formulário disponível na
página do evento (www.nilc.icmc.usp.br/~arianidf/olincom/registro.html)
e do envio do mesmo à Comissão Organizadora;
b) Realização da prova nas instituições-sede:
aplicação das provas nas instituições
estabelecidas como “sede”; para a aplicação das
provas, cada responsável pela aplicação recebeu
antecipadamente, via e-mail e correio, um
conjunto de documentos formado por: (i) o
formulário de inscrição dos participantes (da
instituição em questão), (ii) um conjunto de
cópias da prova (adequado ao número de
participantes na instituição), (iv) um documento
contendo instruções aos participantes e aos
responsáveis e (v) uma cópia extra da prova para
o próprio responsável;
c) Correção das provas: correção da prova pelos
membros do Comitê de Organização e por um membro
do Comitê Científico;
d) Divulgação do desempenho dos participantes:
envio, por e-mail, do desempenho de cada
participante na Trilha 2; cada participante foi
informado exclusivamente de seu próprio
desempenho;
e) Divulgação da classificação final e do
gabarito: divulgação na página do evento dos 3
primeiros colocadas na Trilha 2 e do gabarito da
prova.
Para a participação na Trilha 2, os interessados
preencheram um formulário de registro disponível
na página do evento, como o apresentado no
Quadro 4, e o enviaram à Comissão de
Organização.
|
Identificação |
Nome: |
|
Endereço: |
|
Telefone: |
|
E-mail: |
|
Instituição de
origem: |
|
|
Perfil do
participante |
Experiência com
Lingüística Computacional (LC) |
( ) Graduação com
iniciação científica (IC) em LC
( ) Graduação sem
IC em LC
( ) Outros.
Especifique.
------------------------------------------------------------------ |
Quadro 4. Formulário de inscrição na Trilha 2
A prova da Trilha 2 englobou 6 questões. Cada
questão teve um valor específico, totalizando um
total de 100 pontos. Aproximadamente, metade dos
pontos correspondeu a questões “práticas,” isto
é, às respostas corretas. O resto dos pontos foi
dado para questões “teóricas”, isto é, pela
qualidade da descrição correta de como o
problema foi resolvido.
A correção da prova foi realizada pelos membros
da Comissão de Organização e por um membro do
Comitê Científico. O aluno que obteve a maior
pontuação foi declarado vencedor da Trilha 2.
A Trilha 2 foi realizada nas dependências de
algumas instituições “sede”. Entende-se por
instituição-sede a instituição de origem do
aluno inscrito ou uma instituição próxima a ele.
Em cada instituição, a aplicação da prova foi
supervisionada por, ao menos, um responsável.
No Quadro 5, são listadas as instituições-sede e
seus respectivos responsáveis e número de
participantes.
Instituições |
Responsáveis |
Participantes |
Instituto de Ciências
Matemáticas e de Computação (ICMC/USP-São
Carlos) |
Profa. Dra. Ariani Di
Felippo
Prof. Dr. João Luis Garcia Rosa |
7 |
Empresa Brasileira de
Pesquisa Agropecuária (Embrapa-Campinas) |
MSc. Leandro H. M. de
Oliveira |
1 |
Pontifícia Universidade
Católica do Rio de Janeiro (PUC-Rio) |
Profa. Dra. Violeta
Quental |
1 |
Universidade Federal de
Minas Gerais (UFMG) |
Profa. Dra. Thaïs
Cristófaro Silva |
1 |
Universidade Federal do
Paraná (UFPR) |
Prof. Dr. Alexandre
Ibrahim Direne |
1 |
Universidade Federal do
Rio Grande do Sul (UFRGS) |
MSc. Mario L. M. Machado |
1 |
Quadro 5. Instituições-sede e seus respectivos
responsáveis e participantes
Cada participante recebeu unicamente, por
correio eletrônico, a notificação de seu
desempenho na Trilha 2. A classificação final
foi divulgada na página do evento:
http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha2.html.
No Quadro 6, apresentamos alguns números sobre a
Trilha 1 da I OLinCom.
Informações |
Quantidade |
Número de equipes
inscritas |
13 |
Número total de
inscritos |
26 |
Número de equipes
participantes (que submeteram o
sistema) |
4 (30% de 13) |
Número de
participantes |
8 |
Quadro 6. Números de inscritos e de
participantes efetivos da Trilha 1
Além dos dados do Quadro 6, seguem outras
estatísticas da Trilha 1, quanto aos inscritos e
participantes efetivos (já que alguns inscritos
não compareceram para participar).

Gráfico 1. Inscritos na Trilha 1: formação

Gráfico 2. Inscritos na Trilha 1: nível de
escolaridade

Gráfico 3. Inscritos na Trilha 1: familiaridade
com a LC

Gráfico 4. Inscritos na Trilha 1: região de
origem

Gráfico 5. Inscritos na Trilha 1: instituição de
origem

Gráfico 6. Participantes da Trilha
1: formação

Gráfico 7. Participantes da Trilha 1: nível de
escolaridade

Gráfico 8. Participantes da Trilha 1:
familiaridade com a LC

Gráfico 9. Participantes da Trilha 1: região de
origem

Gráfico 10. Participantes da Trilha 1:
instituição de origem
No Quadro 7, apresentamos algumas estatísticas
sobre a Trilha 1 da I OLinCom.
Informações |
Quantidade |
Número de inscritos |
20 |
Número de
participantes |
12 |
Quadro 7. Números de inscritos e de
participantes efetivos da Trilha 2
Além dos dados do Quadro 7, seguem outras
estatísticas da Trilha 2, quanto aos inscritos e
participantes efetivos (já que alguns inscritos
não compareceram para participar).

Gráfico 11. Inscritos na Trilha 2: formação

Gráfico
12. Inscritos na Trilha 2: nível de
escolaridade

Gráfico 13. Inscritos na Trilha 2: familiaridade
com a LC

Gráfico 14. Inscritos na Trilha 2: região de
origem

Gráfico 15. Inscritos na Trilha 2: instituição
de origem

Gráfico 16. Participantes da Trilha 2: formação

Gráfico
17. Participantes da Trilha 2: nível de
escolaridade

Gráfico 18. Participantes da Trilha
2:familiaridade com a LC

Gráfico 19. Participantes da Trilha 2:região de
origem

Gráfico 20. Participantes da Trilha
2:instituição de origem
No Quadro 8, consta a classificação geral das
equipes participantes do evento.
O primeiro colocado, por ser aluno de
pós-graduação, não concorreu à premiação, mas
foi reconhecido como o “vencedor” da Trilha da I
OLinCom por meio da entrega de um certificado em
cerimônia realizada durante o STIL 2009.
Dessa forma, as equipes que se classificam, no
geral, em 2º, 3º e 4º lugares foram premiadas,
respectivamente, como 1º, 2º e 3º colocados na
Trilha 1, já que seus membros (ou a maioria)
eram graduandos. Em outras palavras, podemos
dizer que a classificação final das equipes
formadas em sua maioria por alunos de graduação
foi a apresentada no Quadro 9.
Classificação geral |
Nome das equipes |
Membros |
Instituição de origem |
1º
lugar |
Guamá |
William Augusto
Rodrigues de Souza (doutorando) |
UFRJ |
2º lugar |
SODQ |
Daniel Feitosa
(graduando)
Vinícius Rodrigues
Uzêda (graduando) |
ICMC/USP |
3º lugar |
InformationLoss |
Danilo Machado Junior
(graduando)
Juliano Henrique
Foleiss (graduando)
Vinícius Mourão Alves
de Souza (mestrando) |
UEM |
4º lugar |
Nilconlin |
Erick Galani Maziero
(graduando)
Felipe Gomes
(graduando) |
ICMC/USP |
Quadro 8. Classificação final da Trilha 1 da I
OLinCom
Classificação dos
participantes graduandos |
Nome das equipes |
1º lugar |
SODQ |
2º lugar |
InformationLoss |
3º lugar |
Nilconlin |
Quadro 9. Classificação dos participantes
graduandos da Trilha 1 da I OLinCom
A seguir, no Quadro 10, apresentamos a
classificação final dos participantes da Trilha
2.
Colocação |
Participantes |
Instituição |
Formação |
Pontos |
1 |
Kauê Silveira |
UFRGS |
Ciência da Computação |
87.2 |
2 |
Diego Zanchi |
ICMC-USP |
Ciência da Computação |
82.9 |
3 |
Erick G. Maziero |
ICMC-USP |
Ciência da Computação |
73.8 |
4 |
Janaina O. Rodrigues |
UNESP/ Ar. |
Letras |
60.5 |
5 |
Gustavo A. de M.
Almeida |
UFMG |
Letras |
59.8 |
6 |
Marcus Túlio |
USP-SC |
Ciência da Computação |
55.9 |
7 |
Adriano Velasco Nunes |
PUC-PR |
Ciência da Computação |
50.3 |
8 |
Israel Aono Nunes |
UFSCar |
Ciência da Computação |
45.6 |
9 |
Murilo Giacometti
Rocha |
ICMC-USP |
Ciência da Computação |
41.2 |
10 |
Lívia Cucatto |
UFSCar |
Letras |
36.0 |
11 |
William A. R. de
Souza |
UFRJ |
Ciência da Computação |
30.2 |
12 |
Sandra M. do
Nascimento |
UFSCar |
Letras |
14.8 |
Quadro 10. Classificação final da Trilha 2 da I
OLinCom
Os autores os todos os sistemas submetidos à
Trilha 1 foram convidados a elaborar um artigo
de, no máximo, 5 páginas. Tais artigos foram
elaborados com base no modelo da SBC, o qual foi
seguido pelo evento principal, o STIL.
A I OLinCom contou com o patrocínio da North
American Chapter of the Association for
Computational Linguistics (NAACL) (http://naacl.org)
e da Fundação de Amparo à Pesquisa do Estado de
São Paulo (FAPESP) (http://www.fapesp.br/).
Comitê de
Organização
João Luís Garcia Rosa (ICMC-USP)
Ariani Di Felippo (UFSCar)
Comitê de Programa
MSc. Ana Elisa Barbosa de Oliveira (UNESP/Ar.)
Dra. Andréia Gentil Bonfante (UFMT)
Dra. Caroline Gasperin (ICMC-USP)
MSc. Eloise Rossi Seno (ICMC-USP)
Dra. Lucia Helena Machado Rino (DC-UFSCar)
Dr. Hélio Roberto de Moraes (FATEC-Mococa)
Dra. Mirna Fernanda de Oliveira (UNIOSESTE)
MSc. Silvia Maria Wanderley Moraes (PUC-RS)
Dra. Valéria Delisandra Feltrim (DIN-UEM)
Comitê de Apoio
Profa. Dra. Violeta De Sant T. D. B. Quental (PUC-Rio)
Profa. Dra. Thaïs Cristófaro Silva (UFMG)
Prof. Dr. Alexandre Ibrahim Direne (UFPR)
MSc. Mario Lúcio Mesquita Machado (UFRGS)
MSc. Leandro H. M. de Oliveira
(Empresa Brasileira de Pesquisa Agropecuária/
Embrapa-Campinas).
Gostaríamos, aliás, de agradecer imensamente aos
membros do Comitê de Apoio, que foram peças
fundamentais para a realização da Trilha 2 da I
OLinCom.
Artigos
Apresentamos abaixo a lista dos artigos
referentes aos sistemas submetidos à Trilha 1.
Prefácio |
Comitês |
Artigos |