¡Increíble! Descubren el secreto detrás de la evaluación de inteligencia artificial.

¡Increíble! Descubren el secreto detrás de la evaluación de inteligencia artificial.- Últimas noticias Ecuador


SWE-Bench, el popular benchmark para evaluar la habilidad de codificación de modelos de inteligencia artificial, ha tenido toda la atención desde su lanzamiento en noviembre de 2024. Con más de 2,000 problemas de programación reales tomados de proyectos públicos en GitHub, se ha convertido en un elemento básico en el desarrollo y lanzamiento de modelos. Sin embargo, a medida que crece su popularidad, también aumentan las preocupaciones sobre su validez y la forma en que los desarrolladores han comenzado a manipular el sistema para obtener mejores puntuaciones.

Investigadores están advirtiendo que estas puntuaciones a menudo no reflejan las capacidades reales de los modelos. Según John Yang, uno de los desarrolladores de SWE-Bench, muchos modelos que obtienen altas puntuaciones fallan en la práctica cuando se les prueba en diferentes lenguajes de programación. Esto ha generado un debate sobre la necesidad de redefinir cómo evaluamos los avances de la IA, poniendo un mayor énfasis en la validez, similar a las prácticas en ciencias sociales, que se preocupan por medir lo que realmente afirman medir.

El camino a seguir sugiere que los benchmarks deben centrarse más en tareas específicas y relevantes, haciendo hincapié en definir claramente lo que se mide. Este cambio podría crear una evaluación más auténtica de la inteligencia artificial, alejándose de métodos generales que han mostrado limitaciones significativas. La industria parece estar comenzando a adoptar estas ideas, impulsadas por la creciente insatisfacción con las prácticas actuales de evaluación, buscando una conexión más clara entre lo que mide un benchmark y las tareas del mundo real.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *