Vision Transformers: Transformers aplicados a imágenes
Cada token codifica una parte de la imagen, pero al obtenerse estos tras aplanar la imagen original, se pierde información sobre la jerarquía visual de la imagen, es decir, qué porción de imagen va antes o después de otra parte. Por ello, a estos vectores se les añade información sobre el orden en el que se presentaban en la imagen, el llamado embedding posicional.
En esta fase, gracias a la auto-atención, no se analiza cada parche de la imagen por separado de forma aislada, sino que el propio modelo evalúa la importancia relativa de cada parche en relación con los demás, lo que permite que los ViT capten relaciones a largo alcance entre diferentes partes de la imagen.
Aplicaciones ViT
Como se ha comentado, un Vision Transformer es aplicable para problemas relacionados con imágenes. Por ejemplo, una tarea de clasificación, como en nuestro DeepFakeDetector (DFD) , donde entrenamos un ViT para detectar Deepfakes, mostrando un gran rendimiento sobre el conjunto de datos utilizado para entrenar, mejorando a la Red Convolucional que previamente se había entrenado.
Diferencias entre los ViT y las CNN
Los autores del artículo Comparing Vision Transformers and Convolutional Neural Networks for Image Classification, publicado este mismo año, afirman que los Vision Transformers son más robustos frente a ruido en las imágenes y son capaces de capturar mejor la información global de la imagen completa gracias a la auto-atención, con la que el modelo aprende a centrarse en los detalles más importantes de las imágenes y capturar relaciones de largo alcance entre las diferentes partes de la imagen, como se ha comentado.
Conclusiones
Los Transformers no son solo aplicables a problemas con texto, donde encontramos los modelos de lenguaje como GPT-3.5, sino que también se pueden utilizar para otras áreas como tareas con imágenes, como se hace en los denominados modelos multimodales como GPT-4. Los Vision Transformers suponen una alta rivalidad a las tan usadas Redes Neuronales Convolucionales, que han sido el estado del arte en problemas con imágenes durante mucho tiempo.
Un saludo,
Powered by WPeMatico