Incorporación de etiquetas lingüísticas a la entrada y salida del algoritmo C4.5 de minería de datos para análisis de información en B.I.: un caso Open Source
Autor
Ortiz González, Christian
Profesor Guía
Urrutia Sepúlveda, AngélicaFecha
2012Resumen
La información ha tomado gran relevancia en las organizaciones actualmente, siendo los datos que se encuentran en las bases de datos OLTP quienes posean todo el conocimiento necesario para poder realizar un análisis óptimo que permita dar un valor agregado a la gestión de la información en las organizaciones. Es por esto que surge un nuevo concepto que permite realizar un análisis exhaustivo y a tiempo denominado Inteligencia de Negocios. La Inteligencia de Negocios es una herramienta de indicadores de gestión que permite realizar nuevos análisis, aplicar nuevas técnicas y perfeccionar front ends, a diferencia de las antiguas planillas de datos o consultas, permitiendo a las organizaciones proyectarse en un mercado cada vez más incierto.
Si bien es cierto, la Inteligencia de Negocios clásica con indicadores de gestión cuantitativos proporciona un valor agregado a las organizaciones, ésta necesita del uso de modelos que permitan clasificar o proyectar la información oculta que se encuentra en los datos, creando una nueva problemática y dango lugar a nuevas técnicas que permitan el descubrimiento de información que se encuentra oculta en los datos a lo que llamamos “Minería de Datos”. La Minería de Datos permite el descubrimiento de información que es imperceptible a simple vista en bases de datos, siendo un proceso enriquecedor, debido a su poder de proyección y análisis de datos cualitativos.
Todo lo antes señalado posee un nivel de comprensión mayor si se logra llevar las estructuras rígidas de indicadores de gestión o modelos creados por la minería de datos a un lenguaje natural utilizado por seres humanos. Como respuesta a esto se puede utilizar la lógica difusa, la cual proporciona una holgura mediante grados asociados a etiquetas lingüísticas en los datos que son de tipo numérico y que son utilizados por las organizaciones, extendiendo un algoritmo de Minería de Datos. Este trabajo de tesis tiene como objetivo incorporar etiquetas lingüísticas en una capa de la arquitectura clásica de Inteligencia de Negocios para Minería de Datos, de manera que sea posible realizar un análisis completo de los resultados obtenidos tales como los porcentajes de instancias clasificadas, además de las matrices de confusión y errores estimados.
La metodología utilizada en este trabajo de tesis comienza con la evaluación de la problemática expuesta, seguida de un diseño de arquitectura de Inteligencia de Negocios para Minería de Datos que da solución a la clasificación y predicción de indicadores cuantitativos de gestión. Luego se adquirió la técnica de la etiquetación de datos mediante la lógica difusa, cual utiliza una función trapezoidal para dar grados de pertenencia a los datos. Por consiguiente, una vez tenida todas las problemáticas y variables resueltas, se implementa la solución mediante el proceso de extracción de conocimiento conocido como KDD. Ya una vez finalizado el proceso fue necesario dar validez a la utilización del algoritmo C4.5 y la lógica difusa por lo cual se decide implementar lógica clásica para etiquetación de datos con los cuales se realiza una comparación. Finalmente como conclusiones se estimo que seleccionar una arquitectura de Inteligencia de Negocios para Minería de Datos no es fácil, puesto que se deben analizar las diferentes variables que posee la organización en hardware y software e inclusive la inversión económica que potenciara el área que se desea analizar.
Ya con los resultados obtenidos, se realizo una comparativa con base en los datos y modelos entregados por el algoritmo C4.5 tras la implementación de la lógica difusa y clásica. Para ésta se utilizaron las instancias clasificadas correctamente, con un total de 82.8% para la lógica difusa versus un 76.9% que presento la clásica y el mismo caso para las clasificadas incorrectamente, la lógica difusa presenta un total de 17.19% frente a la lógica clásica que presenta un total de 23.09%. Las matrices de confusión corroboran al método de evaluación por clasificación de instancias, puesto que el algoritmo clasifica mejor los datos etiquetados por la lógica difusa. Por último los errores presentados por la lógica difusa son menores que la lógica clásica y a la vez aceptables al modelo creado.
Tesis para optar al título de Ingeniero Civil Informático
Link de Acceso
Click aquí para ver el documentoColecciones
La publicación tiene asociados los siguientes ficheros de licencia: