¿Es apropiado utilizar el aprendizaje automático para encontrar la distribución de probabilidad aproximada de sus datos?

Depende de cómo se defina el aprendizaje automático. La forma en que uno define el aprendizaje automático es relevante para lo que puede hacer con él.

Para algunos, ML se ve como un reemplazo para las estadísticas (y esos tienden a burlarse de las estadísticas a pesar de que lo usan o lo usan mal en su trabajo).

Otros ven las estadísticas como parte de ML (o partes de estadísticas como parte de ML), y reconocen las raíces estadísticas de sus algoritmos.

También hay quienes ven el ML como algo en lo que pueden alimentar los datos sin pensar realmente en ello y obtener algo sensato sin trabajo. Hablaré sobre este grupo en mi último párrafo (oración), así que primero una discusión de los primeros dos.

NB: Naturalmente, hay otros grupos, como los estadísticos, pero supongo que la mayoría de los que están leyendo esto están viendo únicamente desde el lado de ML.

Aquellos en el primer grupo, no puedo ayudar, porque todo lo que tengo que decir sobre esto está sólidamente en el campo de las estadísticas. Mientras que las personas en el primer grupo intentan salirse con el cambio de marca de todas las “cosas geniales” de las estadísticas a ML, al ignorar las cosas no tan “geniales”, en realidad están ignorando la teoría necesaria.

Aquellos en el segundo grupo, la respuesta es: más o menos, pero llamemos a las cosas por su nombre y usemos la palabra estadística para describir lo que vamos a hacer.

Si sabe cómo funcionan sus datos (es decir, el proceso por el cual se generan sus datos tiene ciertas características) y puede asignarlos a distribuciones con nombre, el resto del trabajo es fácil. Si no, puede usar la estimación de densidad (del núcleo), ya sea multivariada o univariada. Debe tener cuidado, por supuesto, con multivariante especialmente. Si el número de dimensiones es lo suficientemente alto y los datos no son enormes, es posible que deba comenzar a expresar las cosas en términos de probabilidades condicionales.

Por último: aquellos en el tercer grupo deben recordar que aún no estamos al nivel de IA difícil, si alguna vez podemos llegar allí. Ninguna cantidad de algoritmos de ML nos puede liberar de la necesidad de pensar .

A menos que esté involucrado en el aprendizaje automático, creo que es un método de último recurso,

Si es probable que su distribución sea reconocida, entonces la regresión para los parámetros de esa distribución debería ser mucho más rápida y producir mejores resultados.

Si se trata de una distribución de novela extraña, entonces esperaría que una empírica determinada por la mejor muestra que tenga sea una mejor manera de encontrar la distribución.