¿Cuál es la diferencia entre un modelo paramétrico y un modelo no paramétrico?

Un modelo paramétrico captura toda su información sobre los datos dentro de sus parámetros. Todo lo que necesita saber para predecir un valor de datos futuro a partir del estado actual del modelo son solo sus parámetros. Por ejemplo, en caso de una regresión lineal con una variable, tiene dos parámetros (el coeficiente y la intersección). Conocer estos dos parámetros le permitirá predecir un nuevo valor.

Por otro lado, un modelo no paramétrico puede capturar aspectos más sutiles de los datos. Permite que pase más información del conjunto actual de datos que se adjunta al modelo en el estado actual, para poder predecir cualquier dato futuro. Por lo general, se dice que los parámetros son infinitos en dimensiones y, por lo tanto, pueden expresar las características en los datos mucho mejor que los modelos paramétricos. Tiene más grados de libertad y es más flexible. Un modelo de mezcla gaussiana, por ejemplo, tiene más flexibilidad para expresar los datos en forma de distribuciones gaussianas múltiples. Haber observado más datos lo ayudará a hacer una predicción aún mejor sobre los datos futuros.

En resumen, piénselo de esta manera. Para que un modelo paramétrico prediga nuevos datos, conocer solo los parámetros es suficiente (piense en la regresión lineal basada en un conjunto de parámetros). Para un modelo no paramétrico, la predicción de datos futuros se basa no solo en los parámetros sino también en el estado actual de los datos que se han observado (piense en el modelado de temas que se basa en distribuciones de dirichlet latentes).

¿Será factible dentro de los próximos 5 años que una API de aprendizaje automático maneje la construcción de representaciones significativas a partir de datos sin procesar?

¿Cómo entrenamos redes neuronales en datos numéricos?

¿Qué es el aprendizaje automático basado en modelos?

¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?

¿Qué es el paquete ip?

¿Cuál es el futuro de Linux incorporado?

En un modelo paramétrico, sabe qué modelo se ajustará exactamente a los datos, por ejemplo, línea de regresión lineal. Sin embargo, en un modelo no paramétrico, los datos le indican cómo debería ser la ‘regresión’.

Déjame darte algunos ejemplos concretos.
Modelo paramétrico: [math] y_i = \ beta_0 + \ beta_1x_i + e_i [/ math]
Aquí sabes cómo se verá la regresión: una línea lineal.

Modelo no paramétrico: [matemática] y_i = f (x_i) + e_i [/ matemática] donde f (.) Puede ser cualquier función. Los datos decidirán cómo se ve la función f. Los datos no le indicarán la expresión analítica para f (.), Pero le proporcionarán su gráfico dado su conjunto de datos.
La razón por la cual las personas dicen que no existe una diferencia inherente entre la regresión paramétrica y no paramétrica es que la función f (.) Puede aproximarse perfectamente mediante un modelo de parámetro infinito, que es paramétrico.

La mayoría de las personas prefieren los modelos paramétricos porque es más fácil estimar un modelo paramétrico, más fácil hacer predicciones, se puede contar una historia de acuerdo con un modelo paramétrico (p. Ej., Si X sube en 1 unidad, entonces Y subirá en [matemáticas] \ unidades beta [/ matemáticas] etc.), y las estimaciones tienen mejores propiedades estadísticas en comparación con las de regresión no paramétrica.

Aquí hay una imagen donde se muestran los resultados de regresión paramétrica y no paramétrica. OLS (línea de regresión lineal) predice una relación negativa entre X e Y. La estimación no paramétrica ajusta una función ‘altamente ondulada’ a los datos (la mayoría de las veces puede elegir la suavidad de la función).

Kurt Kim

Muchas respuestas geniales aquí, solo agregando una respuesta resumida para simplificar.

Un modelo paramétrico es aquel en el que asumimos la ‘forma’ de los datos y, por lo tanto, solo tenemos que estimar los coeficientes del modelo.

Un modelo no paramétrico es aquel en el que no asumimos la “forma” de los datos, y tenemos que estimar la forma más adecuada del modelo, junto con los coeficientes.

Generalmente se prefiere un modelo paramétrico, ya que uno solo tendría que estimar los parámetros del modelo, en lugar de tener que estimar todo el modelo con un enfoque no paramétrico.

Sin embargo, la suposición hecha con respecto a la forma de los datos con un enfoque paramétrico puede conducir potencialmente a seleccionar un modelo que no refleje la verdadera ‘forma’ de los datos.

Kurt Kim

Incluso los modelos no paramétricos están parametrizados. La principal diferencia es que los paramétricos tienen un número fijo de parámetros, cada uno con un significado fijo; El ejemplo más simple es el modelo gaussiano 1d parametrizado por su media y varianza. Un modelo no paramétrico tiene un número indefinido de parámetros y, dependiendo de los datos, algunos pueden estar presentes mientras que otros no. Un primer ejemplo sería el estimador de densidad del núcleo, donde el modelo intenta capturar pequeños detalles en la distribución agregando términos de corrección sucesivos. El número de dichos términos no se fija a priori, aunque cada término esté parametrizado.

La analogía adecuada en matemática pura es un espacio vectorial dimensional finito versus el espacio vectorial dimensional infinito de todos los polinomios.

Rian Ashwin

En los modelos no paramétricos bayesianos, el número de parámetros crece con los datos. Por ejemplo, en una aplicación de clústeres a medida que observamos más datos, se crearán nuevos clústeres si los datos están lo suficientemente lejos de los clústeres existentes. Por lo tanto, el número de clústeres depende de los datos y el modelo es lo suficientemente flexible como para capturar datos no vistos. Los métodos bayesianos no paramétricos requieren menos suposiciones (como conocer el número de grupos K) y son aplicables a una variedad de modelos. Por ejemplo, para datos de series de tiempo, un HMM infinito relaja el conocimiento de un número fijo de estados y, en cambio, coloca un previo no paramétrico en las transiciones de estado. Se pueden aplicar ideas similares a problemas de separación de fuentes con un número desconocido de fuentes, selección de características y muchos otros.

Encuentro el tutorial MLSS de Yee Whye Teh sobre Bayesian Nonparametrics muy útil como una introducción al área de bayesian no paramétricos junto con una colección de referencias en: Nonparametric Bayes Tutorial

Kurt Kim

Gracias por el A2A.

Los modelos paramétricos suponen un conjunto finito de parámetros theta (✓). Dados los parámetros, las predicciones futuras, x, son independientes de los datos observados, D: P (x | ✓, D) = P (x | ✓) por lo tanto ✓ captura todo lo que hay que saber sobre los datos. • Por lo tanto, la complejidad del modelo está limitada incluso si la cantidad de datos no está limitada. Esto los hace no muy flexibles. • Los modelos no paramétricos suponen que la distribución de datos no puede definirse en términos de un conjunto de parámetros tan finito. Pero a menudo se pueden definir asumiendo una dimensión infinita ✓. Por lo general, pensamos en ✓ como una función. • La cantidad de información que ✓ puede capturar sobre los datos D puede aumentar a medida que crece la cantidad de datos. Esto los hace más flexibles.

Arko Jyoti

Un algoritmo de aprendizaje automático se puede clasificar como paramétrico o no paramétrico.

Un algoritmo paramétrico tiene un número fijo de parámetros. Un algoritmo paramétrico es computacionalmente más rápido, pero hace suposiciones más fuertes sobre los datos; el algoritmo puede funcionar bien si los supuestos resultan ser correctos, pero puede funcionar mal si los supuestos son incorrectos. Un ejemplo común de un algoritmo paramétrico es la regresión lineal.

Por el contrario, un algoritmo no paramétrico utiliza una cantidad flexible de parámetros, y la cantidad de parámetros a menudo crece a medida que aprende de más datos. Un algoritmo no paramétrico es computacionalmente más lento, pero hace menos suposiciones sobre los datos. Un ejemplo común de un algoritmo no paramétrico es el vecino K más cercano.

Para resumir, las compensaciones entre algoritmos paramétricos y no paramétricos están en costo computacional y precisión.

Rian Ashwin

No paramétrico es realmente infinitamente paramétrico. Me gusta el siguiente ejemplo para demostrar la diferencia.

Imagine que necesita aproximar un círculo dado como una nube de puntos, muchos puntos se encuentran más o menos cerca del círculo.

El modelo paramétrico sería una curva cerrada compuesta por un número fijo de líneas rectas, N-gon. Si N = 4, su modelo paramétrico es un rectángulo y su trabajo es ajustar este rectángulo a la nube de puntos.

El modelo no paramétrico es cuando su N no es fija, por lo que puede agregar más y más lados.

¿Cuál es mejor usar? Esto depende del nivel de ruido. Si su nube de puntos es casi un círculo perfecto (el ruido es muy pequeño), entonces no paramétrico es mejor ya que con cada nuevo lado, N-gon se aproxima a un círculo cada vez mejor. Pero, si hay mucho ruido, agregar lados solo modelará ese ruido y sería mejor quedarse con 4 lados (rectángulo), por lo que el modelo paramétrico sería mejor en un caso ruidoso.

Arko Jyoti

Asumo que estás hablando de términos estadísticos aquí. Puede simplemente buscar en Google y encontrar un montón de definiciones técnicas y debates sobre estos temas. Pero, permítanme ofrecer algunos pensamientos prácticos que tengo en mi mente.

Tiene “algunos” datos a los que le gustaría ajustar el modelo “algunos”. Puede ser que tenga 50 muestras de información con las que le gustaría inferir algo sobre la distribución de probabilidad subyacente o que haya emparejado (X, Y) y le gustaría ajustar una curva Y = G (X) . Tenga en cuenta que, incluso en el primer caso, está tratando de ajustar alguna función, generalmente vista como la función de densidad de probabilidad o la función de distribución acumulativa acumulativa. Estos datos a veces se denominan “datos de entrenamiento”.

¿Cuándo es su modelo paramétrico vs. cuándo es su modelo no paramétrico?

En ambos casos, utiliza los datos disponibles para estimar algunas cantidades: en el caso paramétrico, estas cantidades solo definen el modelo y, por lo tanto, se denominan parámetros; sin embargo, en el caso no paramétrico, las cantidades estimadas junto con los puntos de entrenamiento definen el modelo. De hecho, en el último caso, se usa un término especial para denotar tales “cantidades” que no pueden definir el modelo por sí mismas, más sobre esto más adelante.

Para ampliar aún más:

Digamos que tiene un nuevo valor en el que le gustaría realizar una predicción. Extendiendo la analogía anterior, esto podría traducirse a “estimar la probabilidad de que su cantidad aleatoria sea menor que una cantidad 51 particular” en el caso de “50 muestras” o “valor estimado de Y en un valor no entrenado / no medido de X” en el caso de “ajuste de curva Y = G (X)”.

En el enfoque paramétrico, el nuevo valor junto con los parámetros son suficientes para realizar la predicción.

Por ejemplo:

Y = a + bX es un modelo paramétrico con parámetros “a” y “b”. Para encontrar el valor de Y en un nuevo valor de X, los valores de “a” y “b” son suficientes. No necesitamos los datos que se utilizaron para estimar “a” y “b”.

Sin embargo, en el enfoque no paramétrico, todos los datos de entrenamiento utilizados previamente deben usarse junto con el valor no entrenado y las cantidades estimadas para realizar la predicción. Tales “cantidades” en el método no paramétrico a veces se denominan “hiperparámetros”.

¿Cuáles son los hiperparámetros comunes? Varían de una técnica no paramétrica a otra. Por ejemplo, si habla de kriging (casi similar al modelado de procesos gaussiano), los hiperparámetros están relacionados con términos de varianza, longitud y escala del proceso. Típicamente, los hiperparámetros corresponden a alguna tendencia general que se observa en los datos.

Una distribución normal es una distribución paramétrica porque se puede representar completamente utilizando dos parámetros: media y varianza. Por otro lado, una estimación de la densidad del núcleo no es paramétrica y toda la información de los datos de entrenamiento debe conservarse.

Arko Jyoti

Un modelo estadístico implica la estimación de algún parámetro u otro, por lo que los términos son engañosos. Un modelo no paramétrico no hace suposiciones de distribución, realmente debería llamarse un modelo sin distribución.

Peter Flom

La regresión no paramétrica generalmente puede capturar los patrones ocultos en los datos mejor que los paramétricos. Por otro lado, requerirán tamaños de muestra más grandes ya que los datos determinan la estructura del modelo y las estimaciones.

Rian Ashwin

Dudo en responder porque sé que una simple búsqueda en línea superará mi respuesta. Así que hice una búsqueda y creo que esta página en mayo.edu proporciona una buena explicación. Cito lo siguiente del archivo con ediciones:

Los procedimientos estadísticos paramétricos se basan en suposiciones acerca de la distribución en la población subyacente a partir de la cual nacen nuestras observaciones; hacer que las pruebas de inferencia e hipótesis dependan de los parámetros de esas distribuciones. Los procedimientos estadísticos no paramétricos se basan en ninguno o pocos de estos supuestos.

Yunjiang Jiang

More Interesting

¿Cuál es la diferencia entre ajuste de curva y regresión?

¿Quién usa OpenNLP?

¿Cuál es la mejor opción, Machine Learning o codificación?

Procesamiento del lenguaje natural: ¿Cuáles son algunos métodos efectivos para detectar / calificar cadenas que pueden contener palabras profanas / ofensivas?

¿Cuáles son los algoritmos principales detrás de Google Translate?

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Cuándo harán las máquinas la física y volverán a aprender las características de los datos de observación y luego reemplazarán aquellas como masa, giro, color o carga?

¿Qué se usa en autos sin conductor, aprendizaje automático o aprendizaje profundo?

En el procesamiento del lenguaje natural para realizar análisis semántico, ¿es útil y necesario generar un árbol de análisis?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?