¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas? La tecnología cambia la vida futura

No soy un experto en exoplanetas, pero dado que la pregunta pregunta cómo puedes hacerlo, en lugar de cómo se hace, arrojaré mis ideas hasta que un experto publique su propia respuesta. Cualquier algoritmo de aprendizaje automático real para esto sería demasiado complicado para explicarlo fácilmente a un no experto (tanto el aprendizaje automático como la astrofísica pueden ser demasiado complicados), por lo que esbozaré las primeras cosas simples y sensatas que podría pensar de.

Primero decidimos cómo detectar el exoplaneta. Este gráfico de Wikipedia muestra el éxito de los diferentes métodos:
(el azul corresponde al método de velocidad radial, el verde es el método de fotometría de tránsito y los otros que puede encontrar en el artículo de Wikipedia)

Digamos que elegimos el método de fotometría de tránsito, lo que significa que controlamos el brillo de la estrella anfitriona para ver si cae. La caída corresponde al planeta que orbita frente a la estrella y ocluye nuestra observación. Aquí hay un gráfico de ejemplo, del observatorio UMD:
Algunos pensamientos vienen a la mente. ¿Cómo generamos esa curva? ¿Todos nuestros datos tendrán esta forma general? ¿Podría ser más ruidoso? Tendríamos que mirar los datos para preguntas como esa, pero supongamos que las estrellas que los exoplanetas hospedantes tendrán este tipo de curva y aquellos que no son anfitriones tendrán (digamos que la curva será más o menos una línea recta). La generación de la curva se puede hacer de varias maneras, y un método robusto para ese tipo de regresión es usar un proceso gaussiano con un núcleo RBF. Estas curvas se ven como Gaussian-y, por lo que podríamos ajustar un Gaussian (invertido) a la curva y ver cuál es el error mínimo para algunos datos de entrenamiento que sabemos que tienen exoplanetas y algunos que no, definen un umbral para una función de error entre la curva y el Gaussiano ajustado, y luego use eso para decidir si una curva de brillo desconocida corresponde a un exoplaneta.

Pero eso es un poco tonto por muchas razones (no puede manejar múltiples exoplanetas, el umbral es muy arbitrario y sensible a los datos de entrenamiento, no es realmente un gaussiano, solo por nombrar algunos). Quizás, en lugar de usar la curva directamente, podamos usarla para fabricar características. Por ejemplo, cuál es la duración de la oclusión, la magnitud de la caída del brillo, la relación de esos dos, la velocidad a la que pasa del brillo normal a ocluido, y así sucesivamente. Muchos de estos variarán para planetas de diferentes tamaños en relación con el tamaño de su estrella anfitriona, el ángulo del plano de sus órbitas con respecto a nosotros y otras cosas que un astrofísico podría saber. Para diseñar buenas características, el conocimiento del dominio suele ser un requisito.

Suponiendo que tengamos buenas características que podamos generar de manera confiable tanto para espectrogramas exoplanetas como no exoplanetas, necesitamos elegir un clasificador. Hay algunos clasificadores disponibles que se deben aplicar ingenuamente para tener una mejor idea de qué dirección tomar. Por lo general, eso incluye redes neuronales simples, máquinas de vectores de soporte o algo que involucra un algoritmo de agrupamiento (k-vecino más cercano, k-means). Es posible que pueda argumentar en base a argumentos teóricos, pero siempre es mejor hacer los experimentos reales. Si todo apesta, entonces es posible que hayas elegido características malas. Si solo algunas cosas apestan, entonces es posible que hayas elegido características malas para ese método. Hay una interesante mezcla de conocimientos de astrofísica y aprendizaje automático que se requieren aquí para ser efectivos.

Aquí hay un artículo reciente que explica cómo usar bosques aleatorios para hacer esto de verdad. Tiene todos los detalles que puede esperar de un documento interdisciplinario, por lo que debería ser bastante sencillo de leer (las partes que leí fueron en su mayor parte inteligibles para mí): [1408.1496v1] Clasificación automática de eventos de cruce de umbral de Kepler