Procesamiento de Lenguaje Natural para el Análisis de Lenguaje Subjetivo
Resumen
Describimos la aplicación de la tecnología de procesamiento de lenguaje natural (NLP) al análisis del lenguaje subjetivo. En particular, nos concentramos en la problemática de la clasificación de opinión de material textual extraído de fuentes de datos relacionados con negocios. Estudiamos la derivación de los valores de opiniones de palabras a partir del recurso léxico SentiWordNet y utilizamos estos valores para la interpretación de texto con el objetivo de obtener la valoración de una opinión a partir de sus palabras y frases. Utilizamos características de las palabras para inducir un clasificador basado en el uso de Máquinas de Vectores de Soporte que alcanzan resultados acordes con el estado del arte. También mostramos experimentos preliminares en los que el uso de resúmenes de opiniones ofrece ventaja competitiva para el problema de clasificación respecto del uso de documentos completos cuando los documentos son extensos y contienen material tanto subjetivo como no-subjetivo. We describe the application of natural language processing (NLP) technology to the analysis of subjective language. In particular we concentrate on the problem of opinion classification of textual material extracted from business-related data-sources.
We study the derivation of sentiment values for words from the SentiWordNet lexical resource and use them for text interpretation to produce word, sentence, and text based sentiment features for opinion classification. We use word-based and sentiment based features to induce a classifier based on the use of Support Vector Machines achieving state of the art results. We also show preliminary experiments where the use of summaries before opinion classification provides competitive advantage over the use of full documents when the documents are long and contain both subjective and non-subjective material.