www.horapunta.com
¿Puede la IA superar a los humanos? Este estudio demuestra lo contrario y deja al descubierto sus debilidades
Ampliar

¿Puede la IA superar a los humanos? Este estudio demuestra lo contrario y deja al descubierto sus debilidades

Por Redacción
x
contactohorapuntacom/8/8/18
jueves 06 de febrero de 2025, 15:42h

Escucha la noticia

Un estudio liderado por la Universitat Rovira i Virgili revela las limitaciones de los modelos de inteligencia artificial (IA) en la comprensión del lenguaje. La investigación compara el rendimiento de siete modelos de IA, incluyendo ChatGPT-4, con el de 400 humanos en tareas sencillas de comprensión textual. Los resultados muestran que, aunque los modelos pueden generar textos coherentes, su precisión y estabilidad son inferiores a las de los humanos, quienes alcanzaron un 89% de aciertos frente al 83% del mejor modelo. Este hallazgo destaca que los modelos no comprenden el lenguaje como lo hacen las personas, lo que limita su fiabilidad en aplicaciones críticas.

Un estudio reciente liderado por un equipo internacional de investigadores de la Universitat Rovira i Virgili (URV) ha puesto de manifiesto las limitaciones de los modelos de inteligencia artificial (IA) en la comprensión del lenguaje. La investigación compara el rendimiento de siete modelos con el de 400 humanos en tareas sencillas de comprensión textual, revelando una notable falta de estabilidad y precisión en las respuestas proporcionadas por las máquinas.

Los modelos extensos de lenguaje (MEL), que son redes neuronales diseñadas para generar textos a partir de solicitudes del usuario, han demostrado ser eficaces en ciertas tareas específicas. Sin embargo, los resultados indican que su desempeño no se equipara al de los humanos en pruebas básicas. Según Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, “la capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas”.

Comparativa entre humanos y modelos de IA

Para evaluar esta comparación, los investigadores formularon 40 preguntas utilizando estructuras gramaticales simples y verbos comunes. Los siete modelos analizados fueron Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral. Al mismo tiempo, un grupo compuesto por 400 hablantes nativos de inglés respondió a las mismas preguntas. Cada pregunta fue repetida tres veces para medir la consistencia en las respuestas.

Los resultados fueron contundentes: la media de aciertos entre los humanos alcanzó el 89%, superando significativamente al modelo más preciso (ChatGPT-4), que logró un 83% de respuestas correctas. Exceptuando a ChatGPT-4, ninguno de los demás MEL alcanzó una precisión superior al 70%. Además, mientras que los humanos mostraron una consistencia del 87% en sus respuestas repetidas, los modelos variaron su estabilidad entre el 66% y el 83%.

Limitaciones intrínsecas de la IA

“Aunque los MEL pueden generar textos gramaticalmente correctos y aparentemente coherentes, este estudio sugiere que no comprenden realmente el significado del lenguaje como lo hace un humano”, explica Dentella. Los modelos no interpretan el lenguaje integrando elementos semánticos y contextuales; más bien, identifican patrones basados en datos estadísticos obtenidos durante su entrenamiento.

Esta incapacidad para mantener un criterio estable resulta evidente cuando se les presentan preguntas repetidas. A menudo ofrecen respuestas incorrectas o que demuestran una falta total de comprensión del contexto. Por ello, Dentella advierte sobre la fiabilidad limitada de esta tecnología para aplicaciones críticas: “Nuestra investigación demuestra que las capacidades de los MEL para llevar a cabo tareas complejas no garantizan competencia en tareas sencillas, que requieren una comprensión real del lenguaje”.

Referencia: Dentella, V., Günther, F., Murphy, E. et al. Testing AI on language comprehension tasks reveals insensitivity to underlying meaning. Sci Rep 14, 28083 (2024). https://doi.org/10.1038/s41598-024-79531-8

La noticia en cifras

Grupo Media de aciertos (%) Consistencia (%)
Humanos 89% 87%
ChatGPT-4 83% (Oscilación entre 66% y 83%)
Otros modelos de IA <70% (ninguno alcanzó más del 70%) (No especificada)

Preguntas sobre la noticia

¿Qué modelos de IA fueron analizados en la investigación?

Se analizaron siete modelos de inteligencia artificial: Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral.

¿Cuál fue el rendimiento promedio de los humanos en las pruebas de comprensión?

La media de aciertos de los humanos fue del 89%, superando significativamente a los modelos de IA.

¿Qué modelo de IA tuvo el mejor rendimiento en la investigación?

El modelo que obtuvo el mejor rendimiento fue ChatGPT-4, con un 83% de respuestas correctas.

¿Por qué se considera que los modelos de IA no comprenden realmente el lenguaje?

Los modelos de lenguaje extensos (MEL) no interpretan el significado del lenguaje como lo hace un humano; simplemente identifican patrones estadísticos en sus datos de entrenamiento.

¿Qué limitaciones mostraron los modelos de IA en comparación con los humanos?

Aparte de su menor precisión, los modelos mostraron una falta de consistencia en las respuestas ante preguntas repetidas, oscilando entre el 66% y el 83% de estabilidad.

¿Para qué aplicaciones se advierte que esta tecnología no es fiable aún?

Se advierte que esta tecnología no es suficientemente fiable para ser utilizada en aplicaciones críticas que requieren una comprensión real del lenguaje.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios