1. Datos
Base de datos: Gordon T, Kannel WB. Framingham Study. Framingham, MA: Framingham Heart Study; 1968. Jun
Ciensalud ha tomado los datos del Framingham Heart Study para realizar un análisis inicial, demostrativo de la utilidad de la Ciencia de Datos en Salud. Los datos fueron pseudonimizados. Se analizan los datos de 3826 participantes.
El Framingham Heart Study es un estudio prospectivo a largo plazo sobre la etiología de las enfermedades cardiovasculares en una población de sujetos de vida libre de la comunidad de Framingham, Massachusetts. El Framingham Heart Study marcó un hito en la epidemiología, ya que fue el primer estudio prospectivo de enfermedades cardiovasculares e identificó el concepto de factores de riesgo y sus efectos agregados.
El conjunto de datos usado por Ciensalud es un subconjunto de los datos recogidos como parte del estudio Framingham que incluyen datos clinicos, de laboratorio, cuestionarios y eventos adjudicados de 4.434 participantes. Los datos clínicos de los participantes se recopilaron durante tres periodos de exámenes, con un intervalo aproximado de 6 años, desde 1956 hasta 1968. Se realizó un seguimiento de cada participante durante un total de 24 años para conocer los resultados de los siguientes acontecimientos: Angina de pecho, infarto de miocardio, infarto aterotrombótico o hemorragia cerebral (ictus) o muerte.
2. Análisis exploratorio
Muestra de un análisis exploratorio inicial con variables de: edad, sexo, índice de masa corporal y presión arterial sistólica.

En la figura 2, podemos ver la correlación entre la presión arterial sistólica y el índice de masa corporal. La línea oscura, diagonal, es un modelo predictivo lineal, con una sombra gris que representa su intervalo de confianza. Éste indica una relación positiva, estadísticamente significativa, entre las dos variables. Es decir, que con una certeza muy alta, en la mayoría de las personas, un aumento del índice de masa corporal en un punto, supone el aumento de 1.8 mmHg de tensión arterial.
Vamos a verlo con un ejemplo. Conozcamos a Daniela, es una mujer de 55 años que tiene un peso de 65 kg y una altura de 165 cm, por lo tanto tiene un IMC de 25 puntos, que está dentro de parámetros normales. Según su IMC, se predice que tenga la tensión arterial sistólica normal. Pero, si Daniela ganara 16 kg de peso, es decir, pesara 81 kg, es muy probable que su presión sistólica esté en rango de hipertensión arterial.

Al conocer datos reales y que se actualizan constantemente podemos determinar su estado de salud actual y predecir enfermedades de una manera muy precisa.
Ahora, podemos afirmar que esta predicción es correcta y real, como se puede comprobar en la tabla 1. El modelo que se usó forma parte de la estadística tradicional. De esta misma manera se determinó en el estudio original y en muchos estudios subsecuentes, estándares como los factores de riesgo cardiovasculares utilizados hoy en día en la práctica médica. A pesar de esto, el modelo es aún muy "impreciso" porque se toma en cuenta únicamente una variable para la predicción. A continuación, vamos a predecir hipertensión arterial con un modelo más avanzado.
3. Análisis predictivo
Predicción de Hipertensión Arterial con técnica de Random Forest (bosque aleatorio).
Para predecir el diagnóstico de hipertensión arterial con un modelo más avanzado, vamos a utilizar técnicas de inteligencia artificial (aprendizaje automático). Para el ejemplo, usaremos el algoritmo Random Forest, que realiza un número determinado de árboles de decisión y los ensambla para llegar a un consenso único.
En primer lugar, vamos a separar los datos de nuestros pacientes en dos grupos, uno de entrenamiento del modelo (del cual aprende a distinguir a hipertensos y no hipertensos) y otro de evaluación del modelo. Utilizamos la tecnología R para establecer los parámetros deseados del modelo, del cual destacamos la cantidad de árboles utilizados (100) y las variables: edad, sexo, índice de masa corporal, presión arterial sistólica y diastólica, colesterol total y glicemia para predecir hipertensión arterial.
En la figura 3 se muestra el esquema del bosque aleatorio del modelo entrenado.

En segunda instancia, vamos a evaluar nuestro modelo. Para ello hay varios métodos. La figura 4 muestra la curva ROC (Receiver Operating Characteristic, por sus siglas en inglés) es una herramienta gráfica que se utiliza para evaluar la capacidad predictiva de un modelo de clasificación. Y el área bajo la curva (AUC, por sus siglas en inglés) es una medida de la capacidad del modelo para distinguir entre dos grupos (en nuestro caso, hipertensos y no hipertensos). Por lo que se puede concluir que nuestro modelo es adecuado para predecir hipertensión arterial.

AUC: 0.829
(Un valor óptimo es entre 0.8 y 0.9)
RMSE: 0.379 mmHg
(Un valor más pequeño, es mejor)
Por último, vamos a poner a prueba nuestro modelo en nuestra paciente. Vamos a predecir si Daniela tendrá hipertensión arterial en su condición actual. Y, principalmente, cuál será el cambio de sus probabilidades de tener hipertensión arterial, si aumenta su peso hasta un índice de masa corporal de 30 puntos.
RESULTADOS CON IMC DE 24 PUNTOS:
totchol age bmi sysbp diabp glucose sex Prob% OR log_OR `Resultado más probable`
206 55 24 110 70 109 2 0.378 0.609 -0.497 0
En la tabla 2 podemos notar que tiene un colesterol total de 206, que está en el límite superior de la normalidad. Su presión arterial está dentro del rango óptimo. Su glicemia es de 109 en valor de prediabetes y su índice de masa corporal está dentro de parámetros normales. No parece haber ningún indicio claro de que pueda tener un problema de salud, no obstante se puede determinar con gran certeza que es 38% probable que tenga hipertensión arterial en un corto plazo.
RESULTADOS CON IMC DE 30 PUNTOS:
totchol age bmi sysbp diabp glucose sex Prob% OR log_OR `Resultado más probable`
206 55 30 110 70 109 2 0.692 2.25 0.810 1
Sorprendentemente, bajo las mismas condiciones de salud, podemos notar en la tabla 3 que, al aumentar su índice de masa corporal a 30 puntos, la probabilidad que presente hipertensión arterial aumenta dramáticamente a un 69%, el resultado más probable a corto plazo es que Daniela tenga hipertensión arterial si gana 16 kg de peso. Con esta información precisa tanto Daniela como su médico pueden tomar decisiones tempranas para un manejo multidisciplinario enfocado a modificar factores de riesgo cardiovasculares.