Implementación de un método de clasificación autónomo de datos extraídos desde twitter para el apoyo en la toma de decisiones
Autor
Rivas Vergara, Felipe
Profesor Guía
Urrutia Sepúlveda, AngélicaFecha
2014Resumen
En el presente trabajo, se realiza una investigación guiada por la Dra. Angélica Urrutia y parte del Grupo Tricahue, para optar al título de Ingeniero Civil Informático de la Universidad Católica del Maule. Su finalidad es brindar una propuesta para el análisis de la información en sistemas de toma de decisión en la web. De esta manera, se apoya el estudio de nuevas propuestas de análisis de datos no organizados, que facilitan la construcción de sistemas de recomendación, aportando así al desarrollo de futuras investigaciones, que profundicen el estudio en temáticas como la extracción de datos relevantes de los comentarios que realizan usuarios de un servicio específico.
El objetivo de esta investigación es enfocarse en la tarea de la clasificación de opiniones no categorizadas, específicamente codificando la polaridad de opiniones es decir, diferenciar aquellas opiniones que expresan algo a favor de aquellas que expresan algo en contra. De esta forma, a nivel de oración se codifican los datos, a través de un algoritmo, que utiliza las características léxicas, entregadas por los usuarios que evalúan diversas temáticas de una empresa. Cabe mencionar, que una de las contribuciones de este trabajo es la caracterización de opiniones, necesaria para su clasificación automática. Además, en la actualidad, no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de aprendizaje. Es por ello, que en este trabajo se da un aporte para la creación de este corpus. Específicamente, se propone un enfoque de aprendizaje semi-supervisado de clasificación de textos de opinión, disminuyendo la necesidad de un gran corpus ya etiquetado.
En esta investigación, se aplica la metodología KDD (Descubrimiento de Conocimiento en Bases de Datos), esta consiste en un proceso no-trivial de descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en algún repositorio de información. No es un proceso automático, es un proceso iterativo que exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. A través de las etapas de la metodología KDD, se describe el análisis de la problemática, seguido de un diseño de arquitectura de trabajo. De esta manera, se procede al análisis de la información obteniendo la polaridad de los comentarios, lo cual se conoce como análisis de sentimiento. Para terminar se unifica la información adquirida y se dan a conocer los resultados.
Tesis para optar al título de Ingeniero Civil Informático
Link de Acceso
Click aquí para ver el documentoAnexo Tesis
Click aquí para ver AnexoColecciones
La publicación tiene asociados los siguientes ficheros de licencia: