Análisis comparativo de algoritmos de clasificación de imágenes basados en aprendizaje automático tradicional y aprendizaje profundo

Análisis comparativo de algoritmos de clasificación de imágenes basados en aprendizaje automático tradicional y aprendizaje profundo

Balam García Morgado
 

Texto completo de la Tesis    

 

 


Resumen

Este trabajo presenta un análisis comparativo entre algoritmos de aprendizaje automático tradicional y aprendizaje profundo para la clasificación de imágenes. Uno de los problemas frecuentes en la literatura es la omisión de parámetros y arquitecturas de los algoritmos utilizados, lo que dificulta la replicación de resultados. Por ello, este estudio se enfoca en documentar todos los parámetros utilizados durante la fase experimental. Para la experimentación, se generó una base de datos compuesta por 480 imágenes de ocho figuras distintas, es decir, ocho clases. Se emplearon los métodos de extracción de características Momentos de Hu y Histograma de Gradientes Orientados (HOG). En particular, se experimentó con HOG para encontrar una fórmula que calcule el número de características que extraerá de cada imagen, basado en los parámetros del descriptor. Los algoritmos de aprendizaje automático tradicional seleccionados fueron: Bayes ingenuo, Máquina de Vectores de Soporte (MVS), redes neuronales directas y redes neuronales de estado eco. Para los algoritmos de aprendizaje profundo, se eligieron arquitecturas de redes neuronales convolucionales preentrenadas disponibles en el sitio de Pytorch, seleccionando aquellas con menos de 10 millones de parámetros. Posteriormente, se modificaron estas arquitecturas utilizando únicamente las primeras capas convolucionales y transfiriendo los pesos y sesgos de la red original a la nueva, aplicando así la técnica de transferencia de aprendizaje. Estas redes neuronales convolucionales modificadas se utilizaron para clasificar la base de datos original (BDO). Debido al limitado número de imágenes, los modelos mostraron un evidente sobreajuste, lo que hizo necesario aplicar la técnica de aumento de datos para incrementar el tamaño del conjunto de entrenamiento y evaluación. Los modelos que lograron clasificar correctamente todas las imágenes de la base de datos se emplearon para la clasificación del conjunto de datos MNIST, que contiene manuscritos de números del 0 al 9, y se documento exactitud y tiempo de entrenamiento de los modelos. Finalmente, tomando como referencia el artículo Automatic Classification of Melanoma Skin Cancer with Deep Convolutional Neural Networks de Aljohani et al (2022), se utilizaron cuatro de nuestras redes neuronales modificadas para desarrollar un clasificador binario de imágenes de melanomas y lesiones benignas de queratosis, utilizando la base de datos ISIC 2019 y se reporta la exactitud y tiempo de entrenamiento.

 

Abstract

This work presents a comparative analysis between traditional machine learning algorithms and deep learning for image classification. A common issue in the literature is the omission of parameters and architectures used in the algorithms, which makes it difficult to replicate results. Therefore, this study focuses on documenting all the parameters used during the experimental phase. For the experimentation, a database composed of 480 images of eight different shapes, that is, eight classes, was generated. The feature extraction methods used were Hu Moments and Histogram of Oriented Gradients (HOG). Specifically, experiments were conducted with HOG to find a formula that calculates the number of features to be extracted from each image based on the descriptor’s parameters. The selected traditional machine learning algorithms were: Naive Bayes, Support Vector Machine (SVM), feedforward neural networks, and echo state networks. For deep learning algorithms, pre-trained convolutional neural network architectures available on the Pytorch site were chosen, selecting those with less than 10 million parameters. These architectures were then modified by using only the first convolutional layers and transferring the weights and biases from the original network to the new one, thus applying the transfer learning technique. These modified convolutional neural networks were used to classify the original database. Due to the limited number of images, the models showed evident overfitting, making it necessary to apply data augmentation techniques to increase the size of the training and evaluation set. The models that correctly classified all the images in the database were then used to classify the MNIST dataset, which contains handwritten digits from 0 to 9, and the accuracy and training time of the models were documented. Finally, taking the article Automatic Classification of Melanoma Skin Cancer with Deep Convolutional Neural Networksby Aljohani et al. (2022) as a reference, four of our modified neural networks were used to develop a binary classifier for melanoma and benign keratosis lesion images, using the ISIC 2019 database, and the accuracy and training time were reported.