Blanqueado adaptativo de escalas espacio-temporales como mecanismo computacional de atención visual dinámica

  1. Leborán Alvarez, Víctor
unter der Leitung von:
  1. José Ramón Fernández Vidal Co-Doktorvater
  2. Xosé Manuel Pardo López Co-Doktorvater

Universität der Verteidigung: Universidade de Santiago de Compostela

Fecha de defensa: 22 von Januar von 2016

Gericht:
  1. José Luis Alba Castro Präsident/in
  2. Pablo García Tahoces Sekretär
  3. Manuel Francisco González Penedo Vocal
  4. Fernando Vilariño Freire Vocal
  5. David Olivieri Vocal
Fachbereiche:
  1. Departamento de Física Aplicada

Art: Dissertation

Zusammenfassung

Prácticamente todos los individuos del reino animal que poseen sistemas visuales evolucionados, controlan la dirección de su mirada mediante los movimientos de la cabeza, los ojos y el cuerpo. Debido al aumento de las prestaciones de los actuales sistemas de seguimiento oculares podemos acceder a la información de la dirección de la mirada, lo cual nos ofrece una ventana hacia la comprensión del sistema interno de control de la atención. Con el fin de dotar a los sistemas artficiales de una habilidad semejante a la atención visual selectiva de los humanos, en la última década, se han dedicado múltiples esfuerzos al desarrollo de modelos computacionales de saliencia, que han sido destinados principalmente a simplficar el coste computacional de las aplicaciones de visión artficial. La obtención de un sistema artficial capaz de simular los mecanismos de atención presentes en los humanos, presenta un enorme potencial ya que las tareas de atención visual son aplicables a campos muy diversos. A lo largo de este trabajo se presenta un modelo computacional de atención visual selectiva cuya metodología se enmarca dentro de las técnicas bottom-up. Este modelo, al que hemos denominado AWSD, es capaz de detectar la saliencia tanto sobre imágenes estáticas como en vídeo. La idea básica sobre la que se sustenta el modelo AWSD es que la saliencia, tanto estática como dinámica, se produce en aquellos puntos donde la energía local espacio-tiempo posee la máxima desviación respecto a la distribución media de esta característica en un espacio multiescala. La energía local constituye un estadístico de alto orden que concentra gran cantidad de la información perceptualmente relevante. Para acceder a ella, el modelo utiliza el blanqueado como un mecanismo muy simple que condensa parte de las implicaciones de la hipótesis de Barlow. Utilizamos el modelo para predecir las fijaciones de observadores humanos sobre seis bases de datos de vídeos públicas, así como su capacidad para reproducir el comportamiento humano en experimentos psicofísicos (pop-out dinámicos). Los resultados demuestran la superioridad del AWS-D frente a varios modelos del estado del arte en saliencia dinámica y apuntan a que el modelo puede contener las bases de mecanismos clave en la saliencia visual. En la evaluación experimental, se adaptó la metodología más aceptada para imágenes estáticas a vídeo, combinándola con un test de permutación para obtener información adicional sobre la signficación estadística de las medidas en cada instante temporal