MI SELECCIÓN DE NOTICIAS
Noticias personalizadas, de acuerdo a sus temas de interés
La inteligencia artificial (IA) está entrando con fuerza en el sector de la salud, y más allá de los evidentes beneficios para la humanidad y de la urgencia de mejorar la eficiencia de los cada vez más onerosos sistemas de salud, existe una competencia por participar en uno de los mercados más prometedores para las aplicaciones de IA.
En entrega previas, he mencionado la presión que enfrentan las empresas propietarias de los modelos de lenguaje de gran tamaño (LLMs) por alcanzar la rentabilidad: un reto que va más allá de aumentar los suscriptores. Hoy el foco se dirige al desarrollo de aplicaciones de IA en sectores con gran tamaño de mercado y alta frecuencia transaccional, como los servicios financieros, el comercio electrónico, y, por supuesto, la salud.
Recientemente OpenAI publicó el articulo “HealthBench: Evaluating Large Language Models Towards Improved Human Health”, donde anunció el lanzamiento de HealthBench, un modelo para evaluar de manera realista y rigurosa el desempeño y la seguridad de los LLMs en contextos de salud. HealthBench ofrece un marco de evaluación comparativa desarrollado por 262 médicos de 60 países y 26 especialidades, el cual se compone de más de 5.000 conversaciones entre pacientes y profesionales de la salud, y un conjunto multifactorial de criterios para la evaluación de las interacciones en estas conversaciones, indicando que debe o no debe contener cada respuesta.
HealthBench inyecta estas conversaciones en las aplicaciones de IA, compara sus respuestas con los criterios definidos por los profesionales de la salud, y genera un puntaje global y un desglose en cinco dimensiones clave: exactitud, exhaustividad, calidad de comunicación, conciencia de interpretación del contexto y seguimiento de las instrucciones del usuario.
Los resultados iniciales indican que aún hay amplio margen para mejorar la asertividad de los LLMs. En el caso de o3, el modelo más poderoso a hoy de OpenAI, el resultado global de la prueba es del 60%, mientras que, en el subconjunto de casos más difíciles, el mejor modelo solo alcanza un resultado del 32%, siendo las dimensiones de comprensión del contexto y exhaustividad donde se presentan mayores brechas versus un profesional.
HealthBench va a acelerar el desarrollo de aplicaciones de IA en salud al ofrecer un entorno de pruebas estandarizado y de bajo coste. No obstante, plantea un desafío crucial: diferenciar cuándo un modelo aplica un razonamiento clínico robusto o simplemente reproduce patrones memorizados del benchmark.
Este matiz es fundamental en el debate actual sobre las verdaderas capacidades de los LLMs, como expone Apple en “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.” Allí describen el fenómeno del colapso de exactitud -el desplome a cero de la precisión en las respuestas más allá de cierto umbral de complejidad- lo que sugiere la dependencia de aprendizajes previos más que la aplicación de algoritmos genuinos de razonamiento.
Aunque HealthBench se constituye en un acelerador en las etapas preliminares de desarrollo, las validaciones clínicas en entornos reales seguirán siendo esenciales para garantizar seguridad y eficacia de las soluciones de IA en salud.
No hay mucho que los colombianos podamos hacer en el corto plazo para combatir el resentimiento. Lo que sí podemos hacer es evitar que gane las elecciones el Hugo Chávez de Colombia, el señor Iván Cepeda. Estamos más que advertidos. Ojo con el 2026
Entre más atroces sus actos, mejor les va en la repartija de las prebendas estatales