Change-point detection methods for behavioral shift recognition in mental healthcare

Romero Medrano, Lorena

Change-point detection methods for behavioral shift recognition in mental healthcare

Romero Medrano, Lorena

unter der Leitung von:

Antonio Artés Rodríguez Doktorvater/Doktormutter
Pablo Martínez Olmos Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad Carlos III de Madrid

Fecha de defensa: 20 von Januar von 2023

Gericht:

Fernando Pérez Cruz Präsident/in
Jorge López Castromán Sekretär
Vanessa Gómez Verdejo Vocal

Art: Dissertation

Teseo: 777514 DIALNET e-Archivo editor

Zusammenfassung

El análisis del comportamiento humano se ha abordado a lo largo del tiempo desde distintas perspectivas. En los últimos años, el auge de las nuevas tecnologías y los avances en digitalización se han presentado como una herramienta alternativa para la caracterización de éste, así como para la detección de cambios a lo largo del tiempo. En particular, el uso extendido de smartphones y dispositivos electrónicos, que recogen datos de manera continua del usuario, proporcionan una representación diaria del comportamiento en distintos ámbitos de la vida de una persona como son la movilidad, la actividad física o las interacciones sociales. Además, permiten la monitorización pasiva, es decir, sin necesidad de que el usuario interactúe directamente con el dispositivo, recogiendo información de manera no intrusiva y sin alterar por tanto su rutina diaria. Esta metodología supone, entre otras ventajas, que el usuario no influya subjetivamente en la información recogida, obteniendo representaciones objetivas de su comportamiento. Esta aproximación para la caracterización y análisis de comportamiento y cambios en el mismo tiene muchas aplicaciones, notablemente en medicina. En este trabajo nos centramos en concreto en el campo de la salud mental, donde la caracterización y detección temprana de cambios de comportamiento es importante de cara a prevenir recaídas en pacientes psiquiátricos y, en particular, en aquellos con antecedentes de comportamientos suicidas para intentar prevenir posibles intentos de suicidio o ingresos en urgencias psiquiátricas. Nuestro enfoque se basa en el desarrollo y aplicación de modelos matemáticos y estadísticos que puedan ayudarnos a detectar estos cambios a partir de datos tomados de manera pasiva. Sin embargo, a pesar de las ventajas mencionadas, trabajar con datos recogidos a través de dispositivos electrónicos y, específicamente en el ámbito clínico, supone un reto debido a sus características. Se trata de datos con estructura muy compleja ya que, en primero lugar, son irregulares en tiempo (las muestras pueden guardarse cada 5 minutos, cuando se desarrolla una actividad concreta o cada día). En segundo lugar, cada observación puede ser heterogénea, donde con heterogénea nos referimos a que se compone de varias fuentes de distinto tipo estadístico (continuo, discreto) o del mismo tipo pero, estadísticamente, con distintas distribuciones marginales. Además, la existencia de varias fuentes y la frecuencia de las muestras, hace que cada día esté representado por un vector que puede ser de una dimensión muy alta, poniendo el foco en la necesidad de algoritmos escalables. Por último, se trata de secuencias de datos con muchos valores perdidos y con patrones muy diversos debido, por ejemplo, a la falta de permisos en el teléfono, intervalos de desconexión o, simplemente, la irregularidad temporal ya comentada. El preprocesado de datos con estas características requiere de un enorme esfuerzo y cantidad de tiempo que no es viable cuando lidiamos con un objetivo tan exigente como es la predicción y prevención de intentos de suicidio, ya que la información debe ser tratada a tiempo real y cada minuto cuenta. Por tanto, necesitamos métodos que sean rápidos, eficientes, precisos y adaptados a la complejidad de los datos con los que trabajamos. Por eso, en vez de centrar nuestro esfuerzo en la explotación de datos, que generalmente está condicionada a una hipótesis inicial concreta y dificulta la reproducibilidad, trabajamos en métodos que sean capaces de manejar las secuencias de datos con las características que se han comentado previamente, y hacerlo de manera online. Es decir, algoritmos capaces de procesar las muestras a medida que van siendo registradas. En esta tesis, nos centramos en el desarrollo de modelos probabilísticos de detección de cambios de comportamiento, proponiendo algoritmos que puedan trabajar sobre datos secuenciales heterogéneos, de múltiples fuentes y de alta dimensión con valores perdidos. En nuestro escenario, asumimos que la distribución conjunta de los datos cambia en un momento dado, segmentando la secuencia, y siendo nuestro objetivo detectar ese cambio y hacerlo con el menor retraso temporal posible. Comenzamos describiendo los beneficios del uso de fenotipo digital para la caracterización del cambio de comportamiento humano, e introducimos un ejemplo de sistema e-health de monitorización concreto con el que se ha trabajado. Presentamos dos trabajos de explotación de datos en medicina a través de modelado de fenotipo digital: la predicción de funcionalidad en los distintos dominios de la vida diaria y el análisis de relaciones causales entre variables de cara a detectar efectos negativos causados por el aislamiento durante la pandemia del Covid-19 en pacientes psiquiátricos. En los siguientes capítulos, de corte más técnico, vamos un paso más allá, y cambiamos el foco: de adaptar nuestros datos totalmente a los métodos existentes, a proponer algoritmos que sean específicos para datos secuenciales heterogéneos, de múltiples fuentes y de alta dimensión con valores perdidos. Nos centramos en el desarrollo de algoritmos de detección de puntos de cambio (CPD) y presentamos los beneficios de utilizar modelos generativos de variable latente para lidiar con el problema de data sets de alta dimensionalidad y proporcionar métodos capaces de integrar datos de distinto tipo estadístico. Presentamos también un modelo de CPD flexible que trabaja sobre modelos de observación locales (LOMs) definidos en base al tipo estadístico, fuente o conocimiento previo de los datos iniciales, generados a partir de modelos discretos de variable latente locales. De esta forma, la información es transformada a espacios homogéneos de baja dimensionalidad, manteniendo los beneficios de los algoritmos previamente propuestos pero permitiendo además un tratamiento equivalente de todos las representaciones locales, solucionando así el problema inicial de heterogeneidad. Además, se definen y adaptan distintos modelos de factorización de CPD que ponderan la contribución de cada representación local al la detección global de distinta manera, siendo válidos para cualquiera de los modelos de observación local previamente propuestos, y agregando explicabilidad sobre el grado de contribución de cada representación local a la detección conjunta. Evaluamos y probamos los modelos propuestos en datos sintéticos, demostrando una mejora en la precisión y la reducción en el retraso de detección de puntos de cambio, mostrando ser robustos ante la presencia de datos perdidos. Finalmente, aplicamos algunos de estos métodos a datos reales en un estudio de caracterización de cambios de comportamiento en pacientes psiquiátricos con antecedentes suicidas. Presentamos modelos individualizados de detección de cambio sobre datos recogidos de manera pasiva a través del smartphone y usamos los intentos de suicidio e ingresos en urgencias psiquiátricas como etiquetas reales con el objetivo de predecirlos con una semana de antelación.