Proyecto DATOS-CAT: integración y análisis de bases de datos biomédicos

La acción colaborativa DATOS-CAT tiene como objetivo potenciar la visibilidad y el impacto científico de las cohortes de base poblacional creadas en Cataluña. Además, busca enriquecer los procedimientos utilizados en estas cohortes, promoviendo su aplicabilidad en otros contextos similares. Para lograrlo, se enfoca en mejorar la interoperabilidad de los datos, facilitando así su explotación y uso en investigaciones científicas.

En el contexto de la medicina personalizada y de precisión, la recogida de datos a largo plazo permite a los investigadores seguir la evolución de las enfermedades a lo largo del tiempo, identificar patrones de riesgo ambiental y genético, y evaluar el impacto de diferentes estrategias de tratamiento. Sin embargo, no existe actualmente un sistema estandarizado que permita a los investigadores y entidades hospitalarias recolectar, almacenar y compartir sus datos de forma sencilla, segura y que permita una interoperabilidad entre ellos.

Dentro de ese contexto nace el proyecto DATOS-CAT, una acción colaborativa que pretende aumentar la visibilidad y el impacto científico de la cohorte poblacional GCAT,  proyecto estratégico del Instituto de Investigación Germans Trias i Pujol (IGTP) GCAT|Genomes for life y de su subcohorte focalizada en la COVID-19, COVICAT-CONTENT. Además, pretende contribuir al desarrollo de procedimientos aplicables a otras cohortes, mejorando el nivel de interoperabilidad de sus datos en el contexto del ecosistema de datos de los principios FAIR (del inglés Findable, Accessible, Interoperable, Reusable) para facilitar su explotación y uso científico. Concretamente, el proyecto se centrará en la base de datos poblacional catalana que desde 2012 hace un seguimiento exhaustivo a cerca de 20.000 personas de las que se recogen datos clínicos, de estilo de vida y ambientales  entre otros, , y de los que se ha generado una base de datos genéticos poblacional.

DATOS-CAT es un ambicioso proyecto del Plan Complementario de Biotecnología Aplicada a la Salud que cuenta con la colaboración de 6 entidades de Cataluña: Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) como coordinadora científica, Centro de Regulación Genómica (CRG), Centro Nacional de Análisis Genómico (CNAG), Instituto de Investigación Germans Trias i Pujol (IGTP), Hospital Clínic de Barcelona, y el Instituto de Salud Global de Barcelona (ISGlobal), centro impulsado por la Fundación “la Caixa”.

Cada una de ellas contribuye con su experiencia y recursos únicos, por lo que el hecho de trabajar juntas puede considerarse un éxito en sí mismo. En este sentido, el BSC contribuye con la experiencia alrededor de la estandarización de los datos a Observational Medical Outcomes Partnership (OMOP), el CRG con su experiencia con el repositorio de datos EGA, CNAG con su experiencia en la integración y análisis de datos fenoclínicos y genómicos, IGTP con su conocimiento de los datos de la cohorte, Hospital Clínic con el desarrollo de Ontobridge e ISGlobal con el desarrollo de las herramientas relacionadas con DataSHIELD. El éxito alcanzado hasta el momento en el proyecto DATOS-CAT ha sido el resultado de una colaboración sólida y coordinada entre todas las entidades participantes.

Avances del proyecto DATOS-CAT

El proyecto DATOS-CAT ha alcanzado con éxito su hito intermedio al desarrollar y publicar las herramientas necesarias para la caracterización y estandarización de los datos. Así, se ha completado la implementación de un conjunto de software que incluye tres grandes grupos: (i) Implementación de un catálogo de datos, (ii) Transformación de datos y (iii) otras herramientas de desarrollo.

Este hito representa avances significativos tanto para el proyecto en sí como para la situación actual de la cohorte GCAT. La finalización del primer prototipo de software proporciona una base sólida para el desarrollo continuo del proyecto DATOS-CAT, permitiendo la implementación de herramientas y sistemas para catalogar datos, estandarizarlos a un modelo de datos común y facilitar el análisis federado. Esta herramienta es un componente fundamental que facilita la transferencia de datos y la interoperabilidad entre sistemas, contribuyendo así a la consolidación de la base de datos de la población catalana.

Estas herramientas se han publicado de manera abierta con licencias libres en https://github.com/DATOS-CAT. En este repositorio se pueden encontrar las herramientas utilizadas para la catalogación. La plataforma seleccionada para esta catalogación ha sido MICA. Además, se han desarrollado otras dos herramientas que también han sido publicadas en el repositorio, y que permiten un análisis federado de los datos preservando su privacidad a través de dos mecanismos altamente reconocidos por la comunidad científica como Beacon (https://beacon-project.io/) y Datashield (https://www.datashield.org/).

También encontramos las herramientas para la transformación de los datos al modelo común de datos OMOP (Observational Medical Outcomes Partnership) que impulsado por OHDSI (Observational Health Data Sciences and Informatics), se sitúa entre los modelos semánticamente interoperables para persistencia y explotación en usos secundarios en registros longitudinales de datos de salud más utilizados del mundo.

Dentro de los tres grupos mencionados anteriormente, destaca el paquete dsOMOP, construido desde ISGlobal, y Ontobridge, una herramienta desarrollada por el Hospital Clínic que aborda el problema de la transformación de los datos de una manera novedosa utilizando tecnologías semánticas y enfoques más tradicionales. OntoBridge es una herramienta flexible y escalable que provee un flujo de trabajo integrado y simplificado para la adopción de modelos comunes de datos (CDMs) como OMOP. Su arquitectura basada en ontologías permite reutilizar los esfuerzos realizados, de forma a consolidar distintas fuentes de datos, así como convertir a diferentes CDMs, sea un proceso más sencillo y reaprovechable. A diferencia de las herramientas existentes en el mercado y en la literatura científica, no se centra en una única parte del proceso ni en un CDM específico, lo cual supone un avance significativo en el panorama actual de uso secundario de los datos biomédicos. Las mejoras realizadas sobre OntoBridge y su publicación en un repositorio abierto agilizarán y optimizarán la conversión de datos basados en modelos locales hacia OMOP. Esto facilitará el cumplimiento de los objetivos del proyecto, al evitar procesos complejos y repetitivos de ETL que requieran múltiples herramientas.

Próximos pasos

El objetivo general de DATOS-CAT es contribuir al desarrollo de procedimientos aplicables a otras cohortes, mejorando el nivel de interoperabilidad de sus datos en el contexto del ecosistema europeo de datos biomédicos. En ese sentido, las siguientes etapas hasta su consecución consisten precisamente en que cada institución utilice las herramientas desarrolladas para la estandarización de los datos al modelo común propuesto y las publique utilizando los mecanismos de federación comentados, entre otros.

Al final del proyecto se pretende poner a disposición de los investigadores de Cataluña, y del resto del mundo, una herramienta única para dar respuesta a las preguntas relacionadas con nuestra salud y el tratamiento de la enfermedad, permitiendo entender mejor los riesgos genéticos y ambientales relacionados con las enfermedades. Una vez los datos estén accesibles de manera general, a partir de mediados del 2025, se podrán ver los primeros resultados de la explotación de los mismos de manera casi inmediata.