Mi DSpace

Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios

pepe

Manakin: DSpace XMLUI Project v2

Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios

Mostrar el registro sencillo del ítem

dc.contributor.author Alonso Alemany, Laura
dc.date.accessioned 2011-02-04T14:30:29Z
dc.date.available 2011-02-04T14:30:29Z
dc.date.issued 2010-12
dc.identifier.citation Alonso Alemany, L. (2010). Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios. Subjetividad y procesos cognitivos, 14(2), 20-31. es
dc.identifier.issn 1666-244X
dc.identifier.uri http://dspace.uces.edu.ar:8180/xmlui/handle/123456789/966
dc.description.abstract Presentamos trabajo en progreso acerca de la normalización de palabras para contenidos generados por usuarios. El enfoque es simple y ayuda a reducir el volumen de anotaciones manuales características de enfoques más clásicos. Primero, agrupamos las variantes ortográficas de una palabra, mayormente las abreviaturas. De estos ejemplos agrupados manualmente aprendemos un clasificador automático que, dada una palabra no vista anteriormente, determina si es una variación ortográfica de una palabra conocida o si es una palabra totalmente nueva. Para lograr eso, calculamos la similitud entre la palabra no vista y todas las palabras conocidas, y clasificamos la nueva palabra como una variante ortográfica de su palabra más similar. El clasificador aplica una medida de similitud de secuencia de caracteres basada en la distancia de edición Levenshtein. Para mejorar la exactitud de esta medida, le asignamos a las operaciones de edición un costo basado en el error. Este esquema de asignación de costos apunta a maximizar la distancia entre secuencias similares que son variantes de diferentes palabras. Esta medida establecida de similitud alcanza una exactitud de .68, una importante mejoría si la comparamos con el .54 obtenido por la distancia Levenshtein. es
dc.description.abstract We present work in progress on word normalization for user-generated content. The approach is simple and helps in reducing the amount of manual annotation characteristic of more classical approaches. First, orthographic variants of a word, mostly abbreviations, are grouped together. From these manually grouped examples, we learn an automated classifier that, given a previously unseen word, determines whether it is an orthographic variant of a known word or an entirely new word. To do that, we calculate the similarity between the unseen word and all known words, and classify the new word as an orthographic variant of its most similar word. The classifier applies a string similarity measure based on the Levenshtein edit distance. To improve the accuracy of this measure, we assign edit operations an error-based cost. This scheme of cost assigning aims to maximize the distance between similar strings that are variants of different words. This custom similarity measure achieves an accuracy of .68, an important improvement if we compare it with the .54 obtained by the Levenshtein distance. en
dc.format.mimetype application/pdf es
dc.language.iso es es
dc.publisher Universidad de Ciencias Empresariales y Sociales (UCES) es
dc.rights Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivadas 2.5 Argentina es
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/2.5/ar/deed.es_AR es
dc.source Subjetividad y procesos cognitivos, 14(2), 20-31 (2010) es
dc.subject Psicología es
dc.subject Subjetividad es
dc.subject Normalización es
dc.subject Palabra es
dc.subject Ortografía es
dc.subject Usuario es
dc.title Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios es
dc.title.alternative Linguistic Insights on the Lexical Normalization of user-generated content en
dc.type Article es


Ficheros en el ítem

Ficheros Tamaño Formato Ver
Insights_Alonso_Alemany.pdf 311.0Kb PDF Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivadas 2.5 Argentina Excepto si se señala otra cosa, la licencia del ítem se describe como Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivadas 2.5 Argentina

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta