estás leyendo...
Papers recientes

Impacto de las inteligencias artificiales en propuestas de observación

Dos telescopios con bocadillos de diálogo que dicen: “¿no te parece que esto suena un poco a ChatGPT?”, “No sé, pregúntale a ChatGPT”.
Portada: Dos de los telescopios VLT, en el desierto de Atacama. Crédito de la imagen original: ESO/José Francisco Salgado (CC BY 4.0).
Datos del artículo científico del que hablaremos en este astrobito:

Seguramente les suene ChatGPT, de la que se ha hablado mucho desde que se abrió al público a finales de 2022. Esta aplicación es un ejemplo de inteligencia artificial (IA), que a grandes rasgos son programas capaces de imitar funciones algunas humanas como aprender o resolver problemas. Las IAs se usan en muchos ámbitos, como los traductores automáticos, los asistentes virtuales (Alexa o Siri) o los vehículos de conducción automática. Y de hecho, han sido objeto de un (controvertido) premio Nobel este año.

El caso que nos ocupa en este astrobito son los chatbots o “bot conversacionales” que permiten conversar por escrito con una IA. Las aplicaciones de este tipo existen desde los años 60, pero las más modernas como ChatGPT destacan por sus grandes mejoras en la interacción con la persona usuaria, entendiendo mejor las preguntas y elaborando respuestas más complejas. En particular, se ha generado un inmenso debate en torno a su uso debido a su capacidad de generar texto nuevo simulando estilos de escritura humana: redacciones escolares, resúmenes, artículos, historias, códigos informáticos…

Más allá del debate sobre la ética de su uso, lo cierto es que este tipo de aplicaciones parecen haber llegado a nuestras vidas para quedarse, así que es prudente analizar las posibles consecuencias en todos los ámbitos. ¡Incluída la astronomía!

Keep calm and redacta propuestas de observación

Si leen habitualmente este blog, sabrán que la astronomía no consiste únicamente en observar el cielo, sino también en analizar datos, comunicar los resultados obtenidos y otras muchas tareas. En el astrobito de hoy nos centramos en un aspecto quizá menos conocido: las propuestas de observación.

Cuando un equipo de investigación quiere observar algún objeto de su interés (estrellas, galaxias, planetas, etc), tiene que redactar una “propuesta de observación” solicitando el uso de telescopios. En este documento el equipo describe qué telescopio e instrumento necesita y durante cuánto tiempo, por qué es interesante el objeto en cuestión y qué se espera descubrir en las observaciones. Todo esto se conoce como “justificación científica” de la propuesta. Dado que los mejores telescopios del mundo reciben muchísimas más peticiones de las que pueden conceder, las propuestas suelen ser evaluadas por personas expertas que las evalúan y priorizan. Por lo tanto, los equipos de investigación habitualmente invierten mucho tiempo redactando estas propuestas. Pero, ¿y si alguien “hace trampas” usando una IA? ¿Sería significativo su efecto?

¿Mejoran los chatbots las propuestas?

El Observatorio Europeo del Sur (ESO) es una organización intergubernamental que gestiona los telescopios de los observatorios del desierto de Atacama, incluyendo algunos de los mayores y más punteros del mundo. Por tanto, evalúa y prioriza las propuestas de observación de miles de equipos científicos que solicitan tiempo en sus telescopios. A la vista del auge de chatbots como ChatGPT o Gemini, esta institución ha constituido un equipo específico para valorar su posible efecto disruptivo en los procesos de selección de propuestas. Así, el artículo que nos ocupa hoy es un primer análisis del impacto en dos momentos del proceso: la redacción de propuestas y la evaluación. Para ello, el equipo firmante diseña y realiza dos experimentos.

El primero evaluó la efectividad de los chatbots ChatGPT y Gemini en la mejora de propuestas de observación. Para ello, pidieron a las aplicaciones que mejoraran cinco propuestas escogidas al azar entre las recibidas por la ESO en 2023. La petición incluía instrucciones específicas de “hacerlas más atractivas para personas expertas en astronomía”, “incluir referencias científicas apropiadas” y “estructurar la justificación científica en introducción, objetivos detallados, resultados esperados y resumen final”.

Los resultados de este experimento revelan que ambas aplicaciones tienden a alargar el texto (el doble y un 70%, respectivamente) y se toman libertades de redacción que dan lugar a afirmaciones no del todo correctas, lo que es muy negativo de cara al comité evaluador. Por otro lado, siempre sugieren títulos que siguen invariablemente el mismo patrón: una frase imprecisa “cliché” seguida de dos puntos y una frase más específica que incluye terminología técnica (un ejemplo de esta estructura podría ser “El cerebro contra la máquina: evaluación del impacto de ChatGPT en propuestas de observación”). Así, la utilización de este tipo de títulos podría llegar a considerarse indicador del uso de chatbots. Por último, el equipo observa que estas aplicaciones incluyen referencias y citas incorrectas o incluso inexistentes, lo que constituye una falta muy grave en el ámbito científico.

Finalmente, para valorar si las propuestas “modificadas con ChatGPT” son mejores que las originales se lleva a cabo una “revisión por pares distribuida”, de manera que estas son revisadas por otras científicas/os solicitantes. Y los resultados revelan que las propuestas “modificadas por ChatGPT” obtienen peores notas que las originales, siendo la diferencia estadísticamente significativa (Figura 1).

Gráfico mostrando que la revisión humana otorga calificaciones un poco peores a las propuestas que han sido modificadas con ChatGPT.
Figura 1: Calificaciones medias obtenidas por las propuestas originales (eje horizontal) y las modificadas por ChatGPT (eje vertical), al ser sometidas a revisión humana (DRP). La mejor nota posible es un 1 y la peor un 5, de manera que calificaciones más bajas indican mejores propuestas. La línea discontinua indica dónde caerían las calificaciones si fuesen idénticas en ambos casos. Crédito: adaptada de la Figura 1 del artículo científico.

¿Pueden los chatbots evaluar propuestas?

El segundo experimento consistió en pedir a ChatGPT que califique las propuestas (tanto las originales como las “modificadas con chatGPT”) de 1 a 5, siendo 5 la peor, y redacte un informe centrándose en “la relevancia científica, calidad e impacto”.

Los resultados revelan que ChatGPT proporciona resúmenes bastante buenos de las propuestas y otorga calificaciones similares a las originales y las modificadas (Figura 2), ¡pero favorece ligeramente las que incluyen mejoras suyas! Vamos, que este chatbot se da palmaditas en la espalda a sí mismo.

Por otro lado, dichas calificaciones son significativamente superiores a las que obtuvieron las mismas propuestas cuando fueron evaluadas por humanos, de manera que el chatbot parece más generoso en la evaluación. Además, las notas que otorga son muy similares para todas las propuestas, lo que dificulta distinguir cuáles deberían ser prioritarias. Esto podría ser debido a que el chatbot no es capaz de identificar errores o deficiencias en las propuestas, algo crucial a la hora de evaluarlas.

Por último, el equipo comprueba que una misma propuesta recibe notas diferentes por versiones distintas de la aplicación, lo que condicionaría que se conceda o no tiempo de observación prioritario.

Dos gráficos. El primero muestra que ChatGPT califica un poco mejor las propuestas que tienen modificaciones suyas respecto a las originales. El segundo muestra que las calificaciones otorgadas por ChatGPT son en general más altas que las otorgadas por revisión humana.
Figura 2: Mismos paneles que en la Figura 1, pero incluyendo calificaciones otorgadas por ChatGPT. Panel izquierdo: comparación de las notas otorgadas por ChatGPT a las propuestas originales (eje horizontal) y las modificadas (eje vertical). Panel derecho: notas otorgadas por ChatGPT (eje horizontal) y por revisión humana (eje vertical) a las propuestas originales (puntos rojos) y las moficadas (puntos amarillos). Crédito: adaptada de la Figura 4 del artículo científico.

Advertencias y estudios futuros

El estudio supone una primera aproximación para valorar el posible papel disruptivo de los chatbots en el proceso de redacción y evaluación de propuestas, lo que puede resultar muy útil para que los organismos e instituciones que las gestionan puedan tomar decisiones informadas al respecto.

A la vista de los resultados obtenidos está claro que utilizar IAs en propuestas de observación no es buena idea. Si bien los chatbots podrían ser razonablemente efectivos evaluando propuestas objetivamente buenas, todavía habría que evaluar su desempeño identificando errores y omisiones importantes en propuestas deficientes y en cualquier caso, utilizarlos para la evaluación supone una violación del acuerdo de confidencialidad de la ESO. Por otro lado, el estudio muestra que su uso no mejora significativamente las propuestas, pues incluye errores de contenido y referencias incorrectas. Siento decirlo, pero está claro que ninguna IA va a sustituir, de momento, el humano trabajo de suplicar que nos dejen usar los telescopios un ratito.

Comentarios

Aún no hay comentarios.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *