El término “paramétrico” está bien definido, a pesar de lo que otros dicen. Significa (a) que tiene una distribución de probabilidad en mente (b) que esa distribución de probabilidad (por necesidad) tiene algunos parámetros (c) que el número de parámetros es finito por adelantado, (d) y que tiene un procedimiento para descubra los parámetros de los datos utilizando algún método.
En “no paramétrico”, (c) se viola, el número de parámetros potenciales no está limitado. Por lo general, se reemplazan por declaraciones más generales sobre la naturaleza de la distribución de probabilidad, como ser continuo con soporte compacto o tener primeros y segundos momentos, etc.
Por supuesto, es posible que usted, como persona, no tenga en mente una distribución de probabilidad cuando ejecuta un algoritmo de ML en particular, pero luego el algoritmo de ML puede necesitar o implicar un conjunto particular de suposiciones para que funcione, incluido el datos procedentes de una familia de distribuciones. Entonces, ¿tienes alguna distribución en mente? No, pero el algoritmo que usas implica uno.
- ¿Qué implica el e-Discovery?
- ¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?
- ¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?
- ¿Cuáles son mis próximos pasos en el aprendizaje automático después de aprender estadísticas y álgebra lineal?
- Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame
El término “estadística” es todo lo que se obtiene de los datos que de alguna manera lo describen, pero no es necesariamente un parámetro en un modelo probabilístico. En un sentido muy general, todo lo que obtienes de los datos es una estadística, en el sentido de que la fuente puede (podría) describirse por una distribución de probabilidad (de un modelo con parámetros finitos o no), y el valor calculado por lo tanto sigue un cierto distribución derivada, que está relacionada con la distribución original y puede proporcionar cierta información al respecto. Algunas estadísticas pueden verse como estimadores de ciertos modelos, otras no.
Lo mismo sucede en la regresión, pero ahora tiene dos cosas: la forma de la función que está estimando, que tiene ciertos parámetros, y un modelo para los residuos (errores) en la regresión. Por ejemplo, las personas generalmente asumen que los errores son variables normales aleatorias independientes con media cero y varianza fija (a veces conocida).
Feedforward NN puede verse como regresores generales, pero desafortunadamente, los aspectos probabilísticos no se describen completamente cuando la gente ejecuta esos modelos. Por ejemplo, hubo un estudio que describió el único nodo perceptrón utilizado para la clasificación como equivalente al análisis discriminante lineal de Fisher, que a su vez funciona cuando las categorías subyacentes son gaussianas y comparten la misma matriz de covarianza (si no recuerdo mal). Para arquitecturas más complejas y otros problemas, el análisis es mucho más difícil y hay algunas cosas por ahí, pero muchas cosas no se conocen.
Entonces, ¿las redes neuronales son paramétricas o no paramétricas? De antemano, NN no fija el número de parámetros (pesos), por lo que no son paramétricos. En la práctica, hasta donde yo sé, no existe una regla general para elegir el número de pesos, el número de nodos y qué enlaces se ponen a cero o no en una configuración NN particular (o arquitectura, como a la gente le gusta llamarlo) . De modo que el practicante arregla todas las cosas de alguna manera y, en este sentido, puede considerarse “paramétrico” … pero me quedaría con la calificación no paramétrica, ya que es justo con la generalidad del enfoque.