¿Son las redes neuronales modelos paramétricos o no paramétricos?

El término “paramétrico” está bien definido, a pesar de lo que otros dicen. Significa (a) que tiene una distribución de probabilidad en mente (b) que esa distribución de probabilidad (por necesidad) tiene algunos parámetros (c) que el número de parámetros es finito por adelantado, (d) y que tiene un procedimiento para descubra los parámetros de los datos utilizando algún método.

En “no paramétrico”, (c) se viola, el número de parámetros potenciales no está limitado. Por lo general, se reemplazan por declaraciones más generales sobre la naturaleza de la distribución de probabilidad, como ser continuo con soporte compacto o tener primeros y segundos momentos, etc.

Por supuesto, es posible que usted, como persona, no tenga en mente una distribución de probabilidad cuando ejecuta un algoritmo de ML en particular, pero luego el algoritmo de ML puede necesitar o implicar un conjunto particular de suposiciones para que funcione, incluido el datos procedentes de una familia de distribuciones. Entonces, ¿tienes alguna distribución en mente? No, pero el algoritmo que usas implica uno.

El término “estadística” es todo lo que se obtiene de los datos que de alguna manera lo describen, pero no es necesariamente un parámetro en un modelo probabilístico. En un sentido muy general, todo lo que obtienes de los datos es una estadística, en el sentido de que la fuente puede (podría) describirse por una distribución de probabilidad (de un modelo con parámetros finitos o no), y el valor calculado por lo tanto sigue un cierto distribución derivada, que está relacionada con la distribución original y puede proporcionar cierta información al respecto. Algunas estadísticas pueden verse como estimadores de ciertos modelos, otras no.

Lo mismo sucede en la regresión, pero ahora tiene dos cosas: la forma de la función que está estimando, que tiene ciertos parámetros, y un modelo para los residuos (errores) en la regresión. Por ejemplo, las personas generalmente asumen que los errores son variables normales aleatorias independientes con media cero y varianza fija (a veces conocida).

Feedforward NN puede verse como regresores generales, pero desafortunadamente, los aspectos probabilísticos no se describen completamente cuando la gente ejecuta esos modelos. Por ejemplo, hubo un estudio que describió el único nodo perceptrón utilizado para la clasificación como equivalente al análisis discriminante lineal de Fisher, que a su vez funciona cuando las categorías subyacentes son gaussianas y comparten la misma matriz de covarianza (si no recuerdo mal). Para arquitecturas más complejas y otros problemas, el análisis es mucho más difícil y hay algunas cosas por ahí, pero muchas cosas no se conocen.

Entonces, ¿las redes neuronales son paramétricas o no paramétricas? De antemano, NN no fija el número de parámetros (pesos), por lo que no son paramétricos. En la práctica, hasta donde yo sé, no existe una regla general para elegir el número de pesos, el número de nodos y qué enlaces se ponen a cero o no en una configuración NN particular (o arquitectura, como a la gente le gusta llamarlo) . De modo que el practicante arregla todas las cosas de alguna manera y, en este sentido, puede considerarse “paramétrico” … pero me quedaría con la calificación no paramétrica, ya que es justo con la generalidad del enfoque.

La distinción entre métodos paramétricos y no paramétricos no es completamente rigurosa y las redes neuronales artificiales (NN) están en algún lugar del área gris. Los NN usan parámetros, pero el objetivo es encontrar los valores de los parámetros que conducen a una buena aproximación de ingeniería de alguna función; las personas que usan NN generalmente no piensan en términos estadísticos de parámetros “verdaderos”. De hecho, la palabra “modelo” en la definición de NN de Bishop también es algo discutible. Sugiero sumergirse en el estudio de lo que hacen exactamente los NN, sin resolver estas preguntas puramente terminológicas / filosóficas.

La distinción entre paramétrico y no paramétrico es la siguiente: ¿aumenta el número de parámetros en el modelo a medida que crece el número de ejemplos en el conjunto de datos?
Ejemplo paramétrico: regresión lineal / cresta, número fijo de parámetros independientemente del número de ejemplos.
Ejemplo no paramétrico: modelos basados ​​en árboles, los parámetros son los índices de variables divididas, valores divididos y valores de hojas. A medida que crece el número de ejemplos, también lo hace la altura del árbol y, por lo tanto, el número de parámetros.

Caso ANN: a medida que aumenta el número de parámetros, también lo hace el número de neuronas / capas y, por lo tanto, se considera no paramétrico.

El término “modelo paramétrico” no tiene nada que ver con los parámetros. Por ejemplo, puedo construir un intervalo de confianza no paramétrico para la mediana de una distribución. La mediana es un parámetro, y lo estoy estimando. Con una muestra de 100 observaciones independientes de cualquier distribución continua, aproximadamente el 96.5% de las veces la mediana estará por encima de la 39ª observación y por debajo de la 61ª.

La razón por la que mi método no es paramétrico es que no estoy asumiendo nada sobre la distribución. Mi intervalo de confianza es válido para cualquier distribución. Las personas usan el término “paramétrico” porque están pensando en un conjunto de parámetros que especifiquen completamente la distribución, como la media y la varianza para una distribución normal. Si bien la mediana es un parámetro de una distribución, no lo especifica completamente, podría tener cualquier forma.

Las redes neuronales no son paramétricas. No asumen una familia particular de distribuciones e intentan seleccionar las que mejor se ajustan, hacen juicios sin asumir una distribución.

More Interesting

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

¿Qué aplicaciones prácticas ve para ejecutar los modelos TensorFlow en un teléfono inteligente?

¿Qué son las vigas reforzadas sobrerreforzadas, subreforzadas y equilibradas?

Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

¿Qué es el análisis de componentes principales en términos de super laicos?

¿Existe algún hardware especializado para algoritmos de aprendizaje profundo?

¿Es posible que una computadora aprenda a distinguir gatos de perros de solo un conjunto de imágenes sin que le digamos qué imágenes son gatos y cuáles son perros, o incluso si hay cosas como gatos y perros, y si es así, cómo es exactamente esto? ¿hecho?

¿Qué tipo de problemas han funcionado bien con Bayesian Networks?

¿Cuáles son las ventajas y desventajas de tener mi propio servidor en la nube?

Cómo usar el método probabilístico para probar el problema de Ramsey multicolor

¿Para qué sirve el aprendizaje automático?

¿Es esta tabla Hoja de trucos de Machine Learning (para scikit-learn) una descripción precisa de cuándo se deben aplicar diferentes técnicas de aprendizaje automático?

¿Qué es mejor para mí como estudiante? ¿Debería codificar los modelos de aprendizaje automático (donde pueda) o debería usar la biblioteca tanto como pueda?

Sistemas móviles: ¿Qué empresas / organizaciones de investigación están trabajando en el área de análisis de comportamiento / sistemas colaborativos basados ​​en dispositivos móviles?

¿Por qué el aprendizaje en estructuras de datos complejas (gráficos, árboles, etc.) está tan poco representado en el aprendizaje automático?