Implementación de los algoritmos de minería de datos Kmeans y Fuzzy C-Means para el análisis de información de gestión: un caso Open Source
Autor
Valdés Amaro, Héctor
Profesor Guía
Urrutia Sepúlveda, AngélicaFecha
2012Resumen
El trabajo se enmarca dentro del grupo de investigación Tricahue, dirigido por la Dra. Angélica Urrutia, y tiene como objetivo aportar conocimiento, en el área del Business Intelligence, abarcando temas como la lógica difusa, las técnicas de Minería de Datos, herramientas privativas y Open Source, ETL, entre otros. Como la información cumple un rol fundamental en las organizaciones actuales, es necesario disponer de procesos y herramientas que permitan analizar de manera rápida y efectiva la información de las distintas fuentes de datos, con el fin de generar conocimiento para una mejor toma de decisiones. Business Intelligence presenta conceptos y herramientas, que permiten organizar los datos, desde los distintos sistemas transaccionales (OLTP), en almacenes orientados al análisis de indicadores, poder extraer información relevante y certera. La Minería de Datos permite la extracción de patrones y modelos no triviales desde grandes volúmenes de datos, este proceso tiene gran proyección dentro de las organizaciones, ya que permite tomar decisiones a largo plazo.
Esta tesis tiene como propósito general el análisis de datos, especialmente con técnicas de Minería de Datos, como los son los algoritmos de Clustering. Para esto se utilizará herramientas Open Source, además de la creación de una aplicación que permita realizar particionalmente tanto clásico como difuso. Además tiene como objetivo la propuesta de una arquitectura y una metodología que permita el desarrollo de proyecto de Data Mining. La metodología utilizada para este trabajo de tesis, comienza con un análisis de la problemática, seguida de una selección e implementación de la arquitectura y metodología. Luego se crearon los indicadores (KPI), que permitieron crear el modelo del Data Warehouse que permite la organización de los datos para una mejor toma de decisiones. Continuando con la selección de la técnica de Data Mining y seguido de comprensión de los algoritmos, K-Means y Fuzzy C-Means, para una implementación. Finalizando con caso real para validar los resultados.
Como resultados se tiene la aplicación de arquitectura y la metodología. Además de una aplicación que permite el análisis de información tanto clásica como difusa, mediante los algoritmos K-Means y Fuzzy C-Means. Podemos concluir que la incorporación de lógica difusa presenta ventajas, ya que los datos pueden pertenecer a varias clases en grados diferentes, más flexible y útil en aplicaciones prácticas. Las herramientas Open Source, tienen grandes ventajas comparativas frente a las privativas, como lo son la adaptabilidad a los requerimientos de la empresa, nuevas versiones de los software más rápido y mejor, la reducción de costos, la seguridad, y entornos de desarrollo flexibles, descentralizados y transparentes.
Tesis para optar al título de Ingeniero Civil Informático
Link de Acceso
Click aquí para ver el documentoColecciones
La publicación tiene asociados los siguientes ficheros de licencia: