¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

No soy un experto en exoplanetas, pero dado que la pregunta pregunta cómo puedes hacerlo, en lugar de cómo se hace, arrojaré mis ideas hasta que un experto publique su propia respuesta. Cualquier algoritmo de aprendizaje automático real para esto sería demasiado complicado para explicarlo fácilmente a un no experto (tanto el aprendizaje automático como la astrofísica pueden ser demasiado complicados), por lo que esbozaré las primeras cosas simples y sensatas que podría pensar de.

Primero decidimos cómo detectar el exoplaneta. Este gráfico de Wikipedia muestra el éxito de los diferentes métodos:
(el azul corresponde al método de velocidad radial, el verde es el método de fotometría de tránsito y los otros que puede encontrar en el artículo de Wikipedia)

Digamos que elegimos el método de fotometría de tránsito, lo que significa que controlamos el brillo de la estrella anfitriona para ver si cae. La caída corresponde al planeta que orbita frente a la estrella y ocluye nuestra observación. Aquí hay un gráfico de ejemplo, del observatorio UMD:
Algunos pensamientos vienen a la mente. ¿Cómo generamos esa curva? ¿Todos nuestros datos tendrán esta forma general? ¿Podría ser más ruidoso? Tendríamos que mirar los datos para preguntas como esa, pero supongamos que las estrellas que los exoplanetas hospedantes tendrán este tipo de curva y aquellos que no son anfitriones tendrán (digamos que la curva será más o menos una línea recta). La generación de la curva se puede hacer de varias maneras, y un método robusto para ese tipo de regresión es usar un proceso gaussiano con un núcleo RBF. Estas curvas se ven como Gaussian-y, por lo que podríamos ajustar un Gaussian (invertido) a la curva y ver cuál es el error mínimo para algunos datos de entrenamiento que sabemos que tienen exoplanetas y algunos que no, definen un umbral para una función de error entre la curva y el Gaussiano ajustado, y luego use eso para decidir si una curva de brillo desconocida corresponde a un exoplaneta.

Pero eso es un poco tonto por muchas razones (no puede manejar múltiples exoplanetas, el umbral es muy arbitrario y sensible a los datos de entrenamiento, no es realmente un gaussiano, solo por nombrar algunos). Quizás, en lugar de usar la curva directamente, podamos usarla para fabricar características. Por ejemplo, cuál es la duración de la oclusión, la magnitud de la caída del brillo, la relación de esos dos, la velocidad a la que pasa del brillo normal a ocluido, y así sucesivamente. Muchos de estos variarán para planetas de diferentes tamaños en relación con el tamaño de su estrella anfitriona, el ángulo del plano de sus órbitas con respecto a nosotros y otras cosas que un astrofísico podría saber. Para diseñar buenas características, el conocimiento del dominio suele ser un requisito.

Suponiendo que tengamos buenas características que podamos generar de manera confiable tanto para espectrogramas exoplanetas como no exoplanetas, necesitamos elegir un clasificador. Hay algunos clasificadores disponibles que se deben aplicar ingenuamente para tener una mejor idea de qué dirección tomar. Por lo general, eso incluye redes neuronales simples, máquinas de vectores de soporte o algo que involucra un algoritmo de agrupamiento (k-vecino más cercano, k-means). Es posible que pueda argumentar en base a argumentos teóricos, pero siempre es mejor hacer los experimentos reales. Si todo apesta, entonces es posible que hayas elegido características malas. Si solo algunas cosas apestan, entonces es posible que hayas elegido características malas para ese método. Hay una interesante mezcla de conocimientos de astrofísica y aprendizaje automático que se requieren aquí para ser efectivos.

Aquí hay un artículo reciente que explica cómo usar bosques aleatorios para hacer esto de verdad. Tiene todos los detalles que puede esperar de un documento interdisciplinario, por lo que debería ser bastante sencillo de leer (las partes que leí fueron en su mayor parte inteligibles para mí): [1408.1496v1] Clasificación automática de eventos de cruce de umbral de Kepler

Para el aprendizaje automático, se han ideado numerosos algoritmos, pero todos se dividen en dos grandes categorías.

  • Aprendizaje supervisado: para los valores de entrada, uno debe encontrar los valores de salida. Es una forma de ajuste de funciones.
  • Aprendizaje no supervisado: para los valores de entrada, uno debe descubrir cómo se agrupan.

El aprendizaje automático se ha utilizado en algunas aplicaciones astronómicas, como la clasificación de galaxias. También puede ser útil en búsquedas de exoplanetas, al reconocer curvas de luz de tránsitos.

En cuanto a la clasificación de exoplanetas, no conozco a nadie que haya aplicado algún algoritmo de aprendizaje automático para hacerlo. Pero hay bases de datos completas de exoplanetas conocidos disponibles en línea y disponibles para descargar (exoplanets.org, exoplanets.eu, etc.), por lo que alguien con algún software de aprendizaje automático y cierta capacidad de programación debería poder poner ese software a trabajar en el datos.

Hay que decir que no tenemos muchos datos sobre exoplanetas. Tenemos más datos sobre sus estrellas principales y sus órbitas que sobre ellos mismos, con solo unas pocas excepciones. Lo máximo que tenemos sobre ellos es sus masas y / o radios, e incluso las masas a menudo son masas proyectadas (masa * pecado (inclinación)).

Alguien aquí debería intentarlo e informar sobre lo que encuentre.

More Interesting

¿Cuáles son las propiedades utilizadas para agrupar partículas en tipos?

¿Cómo podría agrupar usuarios similares en el conjunto de datos MovieLens?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?

Cómo entender el uso de un SVM con una red neuronal convolucional

¿Qué debo aprender para convertirme en desarrollador de software para robótica, inteligencia artificial y aprendizaje automático?

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

Cómo comenzar con el modelado predictivo

¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?

¿Cuál es la diferencia entre rpart y randomForest en R?

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

¿Cuáles son algunos marcos de aprendizaje profundo con solo CPU?

Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?

Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

¿Hay conjuntos de datos abiertos que contengan textos y calificaciones de los usuarios para ellos?

¿Es cierto que una vez que tenemos grandes conjuntos de datos, la selección del clasificador ML no tiene mucho efecto? ¿Qué significa 'grande' aquí?