A pesar de ser un campo relativamente nuevo, el aprendizaje automático basado en imágenes ya puede lograr cosas impresionantes, pero ¿cómo se podría aplicar el análisis de imágenes a la astronomía? Un estudio reciente utilizó el aprendizaje automático para describir las características morfológicas de las galaxias. El equipo involucrado usó casi 27 millones de galaxias del Dark Energy Survey (DES) para entrenar, probar y finalmente implementar su método.

Lo que el pasado nos ha enseñado

Si podemos saber la edad de cada galaxia que observamos y conocer su posición, podemos comprender mejor cómo llegó allí. Pero catalogar decenas y cientos de millones de galaxias a mano no es suficiente.

El campo de la clasificación de galaxias fue desarrollado en 1926 por Edwin Hubble. Más tarde creó un sistema llamado Hubbles Tuning Fork, que facilita la comprensión de la forma y la evolución de las galaxias.

Tenedor de afinación de Hubbles. Créditos: NASA y ESA.

El esquema se muestra como un diagrama dividido en dos partes: la galaxia elíptica y la espiral. La parte elíptica se clasifica según la elipticidad desde 0, casi redonda hasta 7, muy ovoide. Las espirales se clasifican por la separación de sus brazos, cuanto más apretados están los brazos alrededor del bulto de la galaxia se llama a, cuando los brazos están muy separados se llama c. La evolución de las galaxias solía verse como un movimiento de izquierda a derecha de nuestra bifurcación.

Todo lo que no entraba en estas dos categorías era más difícil de tratar, lo que hacía que la bifurcación no fuera tan general como se esforzaba por ser. A medida que la astronomía evolucionó con la tecnología, las cosas se volvieron cada vez más complicadas. Puedes ver cuán complejas se vuelven las cosas con la imagen a continuación.

Tenedor de afinación de Hubbles. Créditos: NASA/JPL-Caltech/K. Gordon (STScI) y el equipo SINGS.

Hoy tenemos una gran colección de catálogos de galaxias con más de 2 millones de galaxias (según el catálogo). Las galaxias no tan lejanas, menos tenues, se clasifican por un enfoque tradicional de simplemente mirarlas. ¿Parece espiral? Sí, entonces su espiral. Pero hay un problema con eso, esto es muy subjetivo, y los objetos tenues no se pueden clasificar tan fácilmente con nuestros ojos.

Poder para el pueblo

Se incluyó un método diferente para tratar de resolver nuestro problema subjetivo. Un proyecto de ciencia ciudadana llamado Galaxy Zoo clasifica las galaxias desde la perspectiva de las personas. Cualquiera, literalmente cualquiera, puede abrir su sitio web y comenzar a clasificar galaxias (sí, tú también puedes hacerlo y estarías ayudando).

Al final, después de que miles de personas hayan clasificado un grupo de galaxias, los astrónomos obtienen los resultados de la encuesta y hacen estadísticas con ellos. La clasificación más votada gana, un resultado con suerte menos subjetivo que simplemente confiar en un estudiante de doctorado para ello.

Sin embargo, esto hace que el trabajo de los científicos sea mucho más difícil y les da más trabajo con el que lidiar. Porque antes de proceder a un análisis más detallado, necesitan lidiar con una gran cantidad de datos de personas de todo el mundo, perdiendo tiempo y eficiencia informática.

Aprendiendo como Teniente Comandante Data

El aprendizaje automático es el método obvio para resolver la subjetividad y la cantidad de problemas de datos. Funciona así: le das a tu computadora (o más bien, le das un lenguaje de programación como Python) un montón de galaxias que sabes cómo clasificar y le enseñas a tu computadora (modelo) cómo clasificarlas. El código va a observar todas las características de esas galaxias y después de aprender qué galaxias se pueden observar, los científicos pasan a la parte de prueba en la que no saben nada de las galaxias y le dicen a la computadora que las clasifique. Usando algunas estadísticas, podemos verificar si la prueba fue un éxito.

Al final, todo el aprendizaje es como nuestro aprendizaje diario. Imagina que tienes un examen, lees, entrenas con ejercicios, cometes errores y recoges alguna información en tu cerebro. En la fecha del examen, debe probar su conocimiento de las cosas que intentó aprender sin nada que lo respalde.

No necesitamos perder el tiempo mirando cada una de las galaxias, no tenemos perspectivas subjetivas de una persona a otra y, lo que es más importante, es rápido, analizando millones de galaxias en un período de tiempo más corto.

El mayor catálogo de morfología

En el estudio reciente que usó objetos DES, el equipo entrenó su modelo con ~670,000 galaxias que fueron observadas previamente por otro catálogo, el Sloan Digital Sky Server (SDSS). Este catálogo más antiguo ya tenía información confiable necesaria para clasificar las galaxias.

Después de eso, utilizaron un simulador de objetos astronómicos, el GALSIM, para simular cómo se verían las galaxias observadas por DES si fueran más débiles. La simulación ayudó a desarrollar la parte de formación del estudio. Con galaxias más brillantes, es más fácil de clasificar, por lo que GALSIM haría imágenes con menos calidad. El resultado es que el programa aprende a predecir incluso las galaxias más débiles observadas por el catálogo. La idea se resume en la siguiente imagen.

Simulación de galaxias espirales y elípticas. Créditos: Jesús Vega-Ferrero y Helena Domínguez-Sánchez.

El análisis determinó que ha habido un 97% de precisión en la clasificación de todos esos millones de galaxias. Esto es extremadamente importante para estudios futuros como el Legacy Survey of Space and Time (LSST) del Observatorio Vera Rubin. Se estima que LSST podrá observar 20 mil millones de galaxias al año con objetos incluso más débiles que DES, sin duda, clasificar todo esto sería difícil sin el aprendizaje automático.

El estudio fue publicado en Monthly Notices of the Royal Astronomical Society.

"