Implementación de un método de clasificación autónomo de datos extraídos desde twitter para el apoyo en la toma de decisiones

Rivas Vergara, Felipe

Autor

Rivas Vergara, Felipe

Profesor Guía

Urrutia Sepúlveda, Angélica

Fecha

2014

Metadatos

Mostrar el registro completo de la publicación

Resumen

En el presente trabajo, se realiza una investigación guiada por la Dra. Angélica Urrutia y parte del Grupo Tricahue, para optar al título de Ingeniero Civil Informático de la Universidad Católica del Maule. Su finalidad es brindar una propuesta para el análisis de la información en sistemas de toma de decisión en la web. De esta manera, se apoya el estudio de nuevas propuestas de análisis de datos no organizados, que facilitan la construcción de sistemas de recomendación, aportando así al desarrollo de futuras investigaciones, que profundicen el estudio en temáticas como la extracción de datos relevantes de los comentarios que realizan usuarios de un servicio específico. El objetivo de esta investigación es enfocarse en la tarea de la clasificación de opiniones no categorizadas, específicamente codificando la polaridad de opiniones es decir, diferenciar aquellas opiniones que expresan algo a favor de aquellas que expresan algo en contra. De esta forma, a nivel de oración se codifican los datos, a través de un algoritmo, que utiliza las características léxicas, entregadas por los usuarios que evalúan diversas temáticas de una empresa. Cabe mencionar, que una de las contribuciones de este trabajo es la caracterización de opiniones, necesaria para su clasificación automática. Además, en la actualidad, no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de aprendizaje. Es por ello, que en este trabajo se da un aporte para la creación de este corpus. Específicamente, se propone un enfoque de aprendizaje semi-supervisado de clasificación de textos de opinión, disminuyendo la necesidad de un gran corpus ya etiquetado. En esta investigación, se aplica la metodología KDD (Descubrimiento de Conocimiento en Bases de Datos), esta consiste en un proceso no-trivial de descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en algún repositorio de información. No es un proceso automático, es un proceso iterativo que exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. A través de las etapas de la metodología KDD, se describe el análisis de la problemática, seguido de un diseño de arquitectura de trabajo. De esta manera, se procede al análisis de la información obteniendo la polaridad de los comentarios, lo cual se conoce como análisis de sentimiento. Para terminar se unifica la información adquirida y se dan a conocer los resultados.

Tesis para optar al título de Ingeniero Civil Informático

La publicación tiene asociados los siguientes ficheros de licencia:

Creative Commons

Excepto si se señala otra cosa, la licencia de la publicación se describe como Atribución-NoComercial-SinDerivadas 3.0 Chile

Listar

Mi cuenta