La detección de mensajes salientes de papers sobre investigación en ciencias sociales y su aplicación en búsqueda de documentos
Abstract
El procesamiento del lenguaje natural proporciona instrumentos eficaces para ayudar a investigadores a enfrentarse con el cuerpo creciente de literatura científica. Uno de los usos más acertados y bien establecidos es la extracción de la información, por ejemplo, la extracción de entidades y hechos. Esta aplicación, sin embargo, no es del todo aplicable a las ciencias sociales, ya que los mensajes principales de las publicaciones no son hechos sino argumentos. En este artículo proponemos una metodología de procesamiento del lenguaje natural destinado a detectar oraciones que comunican mensajes salientes en trabajos de investigación pertenecientes a las ciencias sociales. Consideramos dos tipos de oraciones que contienen mensajes salientes: oraciones que resumen el artículo en su totalidad o partes del artículo y las oraciones que comunican cuestiones de investigación. Tales oraciones son detectadas usando un analizador gramatical de dependencia y reglas especiales de “unión de conceptos”. En un experimento de prueba-de-concepto hemos mostrado la eficacia de nuestra proposición: buscando artículos en la base de documentos de ciencia educativa construida por el proyecto EERQI hemos descubierto que la presencia de la(s) palabra(s) de pregunta en las oraciones salientes detectadas por nuestro instrumento es un indicador importante de la importancia del artículo. Hemos comparado la importancia de los artículos recuperados con nuestro método con aquellos recuperados por el motor de búsqueda Lucene como configurado para la base de contenido de EERQI, con el ranking de importancia de omisión, que está basado en medidas de frecuencia de palabras. Los resultados son complementarios, lo cual señala la utilidad de la integración de nuestro instrumento en el Lucene. Natural language processing provides effective tools to help researchers cope with the growing body of scientific literature. One of the most successful and well-established applications is information extraction, i.e. the extraction of named entities and facts. This application, however, is not well suited to social sciences, since the main messages of the publications are not facts, but rather arguments. In this article we propose a natural language processing methodology in order to detect sentences that convey salient messages in social science research papers. We consider two sentence types that bear salient messages: sentences that sum up the entire article or parts of the article and sentences that convey research issues. Such sentences are detected using a dependency parser and special “concept-matching” rules. In a proof-of-concept experiment we have shown the effectiveness of our proposition: searching for articles in the educational science document base built by the EERQI project we have found that the presence of the query word(s) in the salient sentences detected by our tool is an important indicator of the relevance of the article. We have compared the relevance of the articles retrieved with our method with those retrieved by the Lucene search engine as configured for the EERQI content base with the default relevance ranking which is based on word frequency measures. The results are complementary, which points to the utility of the integration of our tool into Lucene.