
OpenAI lanza HealthBench: así se mide la IA en entornos clínicos reales
OpenAI ha lanzado HealthBench, un nuevo benchmark de código abierto diseñado para evaluar el rendimiento y la seguridad de los modelos de lenguaje en entornos sanitarios reales. Este avance marca un paso significativo hacia la integración segura y eficaz de la inteligencia artificial en la atención médica. ¿Qué es HealthBench? HealthBench es una herramienta de evaluación que simula 5.000 conversaciones realistas entre modelos de IA y usuarios o profesionales de la salud. Estas interacciones abarcan múltiples especialidades médicas y contextos clínicos, y están diseñadas para reflejar situaciones del mundo real. Cada respuesta generada por la IA se evalúa mediante rúbricas