Texto completo de la Tesis
Resumen Actualmente, las redes neuronales convolucionales se han vuelto más populares con la introducción de bibliotecas que facilitan el uso de los modelos, así como su implementación y entrenamiento sobre unidades de procesamiento gráfico (GPU). Gracias a esto, estos modelos han adquirido una mayor complejidad y han sido aplicados en diferentes ámbitos en dentro del campo de la visión por computadora, como lo es la clasificación, detección y segmentación de imágenes. Es por eso que es importante estudiar formas de aprovechar el conocimiento de los modelos preentrenados que son útiles para adaptar una red a nuevos problemas y aplicaciones. En este trabajo realiza una revisión de los modelos de redes neuronales convolucionales más comunes, (Single Shot Multibox Detector) y (You Only Look Once version 5), para la tarea de detección de objetos. Se realizan pruebas y entrenamientos de ambos modelos con un conjunto de datos personalizado con marcadores de tipo de orden. Este conjunto de datos se formó únicamente utilizando imágenes sintéticas que en conjunto con el modelo de la cámara oscura y de ruido tipo Perlin como fondo, facilita la creación de grandes cantidades de datos de entrenamiento y de prueba para entrenar los modelos de las dos redes profundas seleccionadas. De igual forma se utilizaron técnicas de transferencia de aprendizaje, comenzando por los modelos preentrenados de ambas arquitecturas con el conjunto de datos COCO. Se determinó que parte de estas redes se pueden congelar los pesos y el sesgo de diferentes capas para el reentrenamiento de los modelos, con el fin de ahorrar tiempos de entrenamiento aprovechando el conocimiento adquirido previamente y sin inicializar los pesos de las redes profundas con valores aleatorios. Fue posible entrenar la red YOLOv5 para detectar correctamente uno, dos y ocho marcadores diferentes.
Abstract Currently, the convolutional neural networks have become increasingly popular with the introduction of computational libraries that facilitate the use of models, as well as their implementation and training on graphical processing units (GPU). Because of this, these models have increased their complexity and have been applied in different areas within the field of computer vision, such as image classification, detection and segmentation. That is why it is important to study ways to find ways to take advantage of the knowledge of the pre-trained models that are provided and adapt to new problems and applications. In this work, a review is made of the most common convolutional neural network models Single (Shot Multibox Detector) and (You Only Look Once (YOLO) version 5), for the task of object detection. We test both models with a custom dataset with fiducial markers. This dataset was created using only synthetic images with the pinhole camera model and Perlin noise as background. This facilitates the creation of large amounts of training and test data for the Single Shot Multibox Detector and for the You Only Look Once version 5 models. Likewise, transfer learning techniques were used, starting by the use of the pre-trained models of both architectures with the COCO dataset. It was studied. Through several trainings, we were able to show that the weights and bias of different layers can be frozen for saving training time by taking advantage of the knowledge previously acquired instead of just initializing all deep network weights with random values. It was possible to train the YOLOv5 network to detect one, two and eight different fiducial markers successfully.
|
||||

