Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos (Overlapping clustering incremental algorithm for large data collections processing)

Lázaro Janier González-Soler; Airel Pérez-Suárez; Leonardo Chang-Fernández

Autores/as

Lázaro Janier González-Soler Centro de Aplicaciones de Tecnologías de Avanzada
Airel Pérez-Suárez Centro de Aplicaciones de Tecnologías de Avanzada
Leonardo Chang-Fernández Centro de Aplicaciones de Tecnologías de Avanzada

Palabras clave:

Agrupamiento, Agrupamiento con traslape, Computación en GPU, Minería de Datos, Clustering, Overlapping Clustering, GPU Computing, Data Mining

Resumen

Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA-DClus en términos de eficiencia y consumo de memoria.

English abstract

There are several problems in Pattern Recognition and Data Mining that, by its inherent nature, consider that the objects can belong to more than a class or cluster. DClustR is a dynamic overlapping clustering algorithm that has shown, in document clustering tasks, the best trade-off between cluster’s quality and efficiency among existing dynamic overlapping clustering algorithms. However, DClustR could be less useful when working in applications that deal with large data collections, due to its computational complexity and memory demanded for processing them. In this paper, a GPU-based parallel algorithm of DClustR, named CUDA-DClus is suggested to enhance DClustR efficiency in applications dealing with large data collections. The experimental phase conducted over various standard data collections showed that CUDA-Dclus provides good performance in terms of efficiency and memory consumption.

Descargas

Los datos de descargas todavía no están disponibles.

Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos (Overlapping clustering incremental algorithm for large data collections processing)

Autores/as

Palabras clave:

Resumen

Descargas

Descargas

Publicado

Cómo citar

Número

Sección

Información