raygbutler
- 6 min read

Biomedicina y Datos Complejos

La mayoría de estudios de investigación clínica y biomédica no tienen un problema de big data, sino un problema de complex data. En este artículo conocerás las claves para comprender este concepto y herramientas analíticas que ayudan a automatizar la exploración de los datos complejos en proyectos de investigación biomédica. ¿Me acompañas?

Imagen del artículo original en PharmaTech

Más de 20 años de big data

Parece que fue ayer pero ciertamente llevamos más de veinte años utilizando el término big data para referirnos, de forma generalizada, a un tipo de proyecto caracterizado por involucrar un gran volumen de información, generada a una velocidad de vértigo desde multitud de orígenes, con una calidad que debemos controlar bien y de la que esperamos sacar el máximo valor.

En el ámbito de la investigación clínica y biomédica, la implementación de estudios big data se focaliza casi en exclusiva en las –ómicas (genómica, proteómica, metabolómica, transcriptómica, etc.).

La experiencia en el sector nos hace apuntar a una causa como la principal para que esto haya sido así y es que, ni más ni menos...

la inmensa mayoría de estudios de investigación clínica y biomédica no tienen un problema de tipo big data, sino un problema de tipo complex data.

Me explico.

¿Datos complejos?

Como he descrito anteriormente, los estudios big data presentan un número de retos entrelazados que impactan especialmente en el elevado coste de la infraestructura tecnológica y de los recursos humanos involucrados, algo que es difícilmente justificable en otras condiciones.

En términos generales, los estudios complex data podrían considerarse como un caso especial de los anteriores y se caracterizan por dos elementos fundamentales:

1. Foco en una muestra relevante: el número de muestras o individuos participantes en el estudio (la famosa n estadística) es manejable, en el mejor de los casos en torno a las decenas de miles pero mayoritariamente en el rango de varios cientos. Estos individuos, además, son seleccionados habitualmente con unos criterios pre-definidos. Esto permite, a su vez, que la calidad de los datos sea sensiblemente superior a otros tipos de estudio.

2. Integración de datos: cada uno de esos individuos del estudio está representado por una gran variedad de grupos de información (demografía, diagnóstico, pronóstico, biomarcadores, hábitos de vida, etc.) que proceden de diferentes fuentes y que deben ser convenientemente integrados para poder tener una visión completa.

Podríamos resumir, entonces, que los estudios complex data tienen la propiedad de que el número de variables involucradas es muy elevado (multivariabilidad), aunque el tamaño de la muestra no lo sea tanto.

Estos elementos combinados dan lugar a un contexto de datos muy peculiar que presenta una serie de retos específicos, diferentes a los de estudios big data generales.

Por un lado, la formulación de los objetivos del estudio debe incorporar una visión más abierta, facilitando la búsqueda de resultados dentro de un espacio de posibilidades aún por explorar pero con fundamento lógico (clínico), y no focalizado a un contraste de hipótesis específico. Lo que en Butler Scientifics denominamos preguntas exploratorias.

Por el otro, este espacio de posibilidades es muy extenso, motivado por la mencionada multivariabilidad y por la existencia de gran cantidad de subgrupos de individuos (o estratos), con propiedades particulares, que pueden y deben ser estudiados tanto de forma individual como global.

A todo este contexto de trabajo es a lo que denomino complex data.

La exploración de datos

Así pues, un punto de partida tan sumamente complejo se hace imposible de abordar con herramientas clásicas que requieran concretar en exceso el objetivo (ej. análisis dirigido por hipótesis) y, ni mucho menos, cubrir el espacio combinatorio de posibilidades de forma manual (ej. herramientas de visualización de asociaciones entre variables).

Sin embargo, cabe remarcar que el tamaño muestral más reducido de este tipo de estudios permite que la tecnología y recursos que se deben involucrar tenga un coste varios órdenes de magnitud inferior al de las infraestructuras big data.

Para hacer frente a este nuevo escenario existen otras estrategias mucho más apropiadas entre las que destacaría, sin duda alguna, la exploración de datos (EDA, acrónimo de Exploratory Data Analysis).

EDA es un término acuñado originalmente por John Wilder Tukey, estadístico estadounidense, quien presentó el concepto y la metodología en su famoso libro con el mismo título “Exploratory Data Analysis” en 1977 (1).

En contraste a la estrategia confirmatoria (o CDA), la exploración de datos se aplica en aquella fase del estudio cuyo objetivo es el de conectar ideas para identificar posibles “por qué” de las asociaciones causa/efecto o, dicho de una forma más llana, cuando el investigador quiere conocer mejor qué es lo que tiene entre manos.

La exploración de datos es pues una manera de hacer, una actitud que se aplica sobre el proceso de análisis de datos y que, en última instancia, busca que el investigador genere nuevas hipótesis de mayor impacto científico.

La exploración de datos se muestra muy útil en diferentes tareas como, por ejemplo:

La simplificación del problema original
La identificación de líneas de trabajo de máximo potencial
La correcta elección de los métodos estadísticos para el análisis
El refuerzo a posteriori de resultados obtenidos en estudios anteriores

Exploración y confirmación: una pareja perfecta

Llegados a este punto, es importante remarcar que la estrategia exploratoria no es, ni de lejos, una sustituta del estudio dirigido por hipótesis (o estrategia confirmatoria). De hecho, tal y como el propio Tukey sugiere (y ya explicamos hace tiempo en este artículo), ubicados en secuencia en el proceso científico son un complemento ideal:

La fase exploratoria nos permite proponer candidatos óptimos minimizando el error tipo II (falsos negativos), mientras que la fase confirmatoria nos permitirá testear el candidato minimizando el error tipo I (falsos positivos).

Al mismo tiempo, el conocimiento obtenido de la fase confirmatoria nos permite realimentar el proceso para futuras exploraciones en profundidad.

Exploración automatizada de datos complejos

Si bien EDA se presenta como una de las estrategias a seguir cuando nos enfrentamos a un problema de complejidad de datos, por sí misma no da respuesta a los retos mencionados anteriormente: ¿qué tipo de objetivos hemos de formular en un estudio exploratorio eficiente? ¿cómo abordamos el inmenso espacio de combinaciones posibles que hemos de afrontar si queremos explorar exhaustivamente?

La respuesta a estas preguntas surge de una evolución natural de EDA: se trata de la exploración automatizada de datos (automated EDA), una técnica que combina conceptos base de la automatización de la ciencia de datos (automated data science) con la experiencia de cientos de proyectos reales que han permitido identificar las características funcionales clave y, por extensión, automatizar en gran medida todo el proceso.

¿Automatizar la exploración de datos?

Ciertamente, la exploración de datos es un proceso intelectualmente muy intensivo que requiere una atención permanente y un conocimiento del ámbito del estudio muy elevado.

Plantearse pues la automatización (siquiera parcial) de ese proceso implica que gran parte de ese conocimiento haya sido digitalizado o, si me lo permiten, “algoritmizado”.

Por tanto, cualquier herramienta que pretenda automatizar el proceso de exploración debería incorporar los elementos fundamentales del “negocio” en el cual se va a desenvolver. Así, por ejemplo, en el ámbito de la investigación clínica y biomédica se hacen imprescindibles características como:

La integración efectiva de datos de diferente naturaleza obtenidos de los individuos del estudio.
El ajuste del espacio de combinaciones que se desea explorar en función de los objetivos científicos.
La definición de una tipología de resultados clave y suficientemente genérica pero a la vez práctica. En el caso de estos estudios clínicos / biomédicos, la mayor parte de los resultados se expresan en forma de asociaciones estadísticas entre las variables de interés (tratamiento-respuesta, grupo-característica, etc.) o en forma de patrones de comportamiento (ej. secuencias de eventos relevantes).
La elección adecuada e inteligente de los métodos estadísticos para cada caso, siempre dentro del ámbito clínico (ej. análisis de normalidad y varianzas, correlaciones numéricas, curvas de supervivencia de Kaplan-Meier, modelos avanzados de clasificación de pacientes, entre otros muchos)
La estratificación exhaustiva de nuestra muestra, para explorar de forma individualizada cada uno de los posibles subgrupos de interés en nuestro estudio y, al mismo tiempo, comparar estos análisis individuales.
La priorización de los resultados obtenidos que combinen de forma efectiva relevancia clínica, tamaños de efecto y significación estadística ajustada, y permita focalizar los recursos en los resultados más valiosos.
La trazabilidad de los resultados obtenidos, permitiendo obtener una explicación transparente (caja blanca) y la replicabilidad de cada uno de ellos.

Algunos ejemplos reales

Seguramente ya sabrás que ...

en Butler Scientifics somos exploradores de datos

Nos dedicamos a automatizar este proceso desde hace muchos años y por eso podemos compartir contigo varios casos reales en diferentes patologías del mundo de la biomedicina.

¡Ah! Y también nos atrevemos con otras áreas, como la medicina deportiva... Aquí tienes un ejemplo.

Conclusiones

En resumen, frente a otras alternativas como la estadística confirmatoria o la visualización de datos, ...

la exploración automatizada de datos se presenta como una alternativa efectiva para afrontar el contexto de complejidad al que nos enfrentamos cuando abordamos un análisis de datos en el ámbito de la investigación biomédica y clínica.