¿Qué hacen los algoritmos de regresión simbólica y cómo se usan en la práctica?

La regresión simbólica es un método de descubrimiento automático de los principios que describen el conjunto de datos dado. Se enfoca en identificar la expresión matemática, en su forma simbólica, que sería muy buena para el conjunto de datos dado. El espacio de parámetros y la forma funcional de las ecuaciones se están buscando al mismo tiempo. El método se basa en la programación genética. Al principio genera un conjunto de individuos, algunas expresiones matemáticas aleatorias. Aunque no se ajustan a la entrada en absoluto, se mejoran gradualmente con un proceso evolutivo. Este proceso incluye los siguientes pasos:
1. Evaluación: cada individuo se evalúa con el uso de la función de costo.
2. Selección: las personas con los niveles de condición física más altos se seleccionan para realizar más cálculos.
3. Recombinación: el genotipo de los mejores individuos se recombina para crear muestras aún mejores.
4. Mutación: cada uno de los individuos nuevos se puede cambiar al azar, de acuerdo con la probabilidad de mutación.

La parte problemática es, por supuesto, la función de condición física: elegir la adecuada puede ser realmente un desafío, aunque hay mucha investigación interesante en esta área.

Puede encontrar más información sobre este método y otros aspectos de la programación genética en los libros de John Koza (http: //www.genetic-programming.c…). Existe un software de grado comercial que utiliza ese método (Eureqa: http://www.nutonian.com/products…). Hace algún tiempo escribí una implementación de código abierto (https://github.com/pkoperek/hubert). Es un poco rápido y sucio y no es tan fácil de usar, pero si lo encuentra interesante, no dude en hacer preguntas y trataré de responder.