Primera aproximación para la extracción automática de Entidades Nombradas en corpus de documentos medievales castellanos

Mª Eugenia Iglesias Moreno

Depart. Biblioteconomía y Documentación, Depart. Informática, Universidad Carlos III de Madrid (España)
meugenia.iglesias@uc3m.es

Pilar Azcárate Aguilar-Amat

Depart. Biblioteconomía y Documentación, Depart. Informática, Universidad Carlos III de Madrid (España)
pilar.azcarate@uc3m.es

Sonia Sánchez Cuadrado

Depart. Biblioteconomía y Documentación, Depart. Informática, Universidad Carlos III de Madrid (España)
sonia.sanchez.cuadrado@uc3m.es
Janus. Anexo 1 (2014)
Fecha de publicación: 11/04/2014
[Cómo citar]
<URL: http://www.janusdigital.es/anexos/contribucion.htm?id=21>
Descargar PDF
Resumen

En este artículo presentamos los resultados de una evaluación de la anotación de nombres propios de forma automática en un corpus de documentación medieval castellana. Dicha evaluación se ha realizado sobre el etiquetado obtenido con la herramienta de procesamiento de lenguaje natural, Freeling, en dos iteraciones. La primera, con la versión para español estándar y antiguo facilitadas y la segunda con una adaptación propuesta, basada en la solución de los problemas de anotación debidos a las características y variantes que presentan los nombres propios de personas y lugares en español antiguo. Para ambas iteraciones, se ha seleccionado un corpus de anotación de los documentos que componen el Libro Becerro de las Behetrías de Castilla (LBB), del siglo XIV. El nivel de acierto obtenido en la anotación automática de nombres propios con la adaptación propuesta ha sido de 98,23% para el español antiguo, que puede considerarse aceptable para repetir, en un trabajo futuro, el método en el corpus completo.

Palabras clave: Lingüística de Corpus, Anotación de corpus, Documentación medieval, Reconocimiento y Clasificación de Entidades Nombradas


Abstract

Lingüística de Corpus, Anotación de corpus, Documentación medieval, Reconocimiento y Clasificación de Entidades NombradasThis paper presents the results of evaluating the automatic recognition and annotation of proper names in a corpus of Castilian medieval documents. The evaluation has been done by adapting Feeling, an existing tool for natural language processing. This paper describes the two iterations of this evaluation: the first iteration, using the version for standard and old Spanish, and the second iteration, using an adaptation that has been created based on the problems found in the first iteration. Such problems were mainly caused by the inherent characteristics and variants of proper names and names of places in old Spanish. For that purpose, a corpus of 14th century documents of the Libro Becerro de las Behetrías de Castilla (LBB) was used. The proposed adaptation for old Spanish leads to a 98.23% level of success, which indicates that it can be used in the future evaluation of the entire corpus.

Keywords: Natural Language Processing, Medieval Documents, Corpus Annotation, Named Entity Recognition and Classification