¿Qué son los datos no paramétricos?

Como se mencionó anteriormente, los datos no se consideran paramétricos o no paramétricos. Es el modelo, el algoritmo de aprendizaje o la prueba estadística lo que sería así.

En el aprendizaje automático, desea aprender una función que asigne variables de entrada a variables de salida. Si esta función se especifica explícitamente con un número finito de parámetros, entonces está utilizando un algoritmo de aprendizaje paramétrico donde aprende los parámetros de la función en función de sus datos de entrenamiento. Los ejemplos incluyen regresión lineal, regresión logística y Naive Bayes. Por otro lado, con algoritmos como k-NN y árboles de decisión, el algoritmo de aprendizaje opera bajo una función con un número ilimitado de parámetros que crecen con el tamaño de los datos de entrenamiento.

Ver también:

¿Cuáles son las ventajas de usar métodos no paramétricos en el aprendizaje automático?

¿Cuál es la diferencia entre un algoritmo de aprendizaje paramétrico y un algoritmo de aprendizaje no paramétrico?

Los datos no son paramétricos o no paramétricos. Los modelos son

Podemos considerar los datos como muestras aleatorias de una distribución e intentar estimar sus parámetros. Ese es un modelo paramétrico. O podemos ignorar cualquier distribución y tratar los datos por sí mismos. Eso no es paramétrico.

Por ejemplo, supongamos que tengo datos sobre cuántas horas a la semana estudia una muestra aleatoria de estudiantes. Quiero saber qué fracción de estudiantes estudian más de diez horas a la semana. Para una estimación paramétrica, podría suponer una distribución normal. Puedo tomar la media y la desviación estándar de mi muestra y calcular un intervalo de confianza para la fracción de estudiantes que estudian más de diez horas por semana.

Un enfoque no paramétrico podría ser tomar la fracción de muestra de estudiantes que estudian más de diez horas por semana y construir un intervalo de confianza binomial directamente.

Los modelos paramétricos tienden a dar respuestas más precisas, pero pueden ser inexactos si los supuestos paramétricos son incorrectos. Los modelos no paramétricos son más robustos, hay menos suposiciones, por lo que menos puede equivocarse. Pero tienden a tener intervalos de confianza más amplios porque ignoran la información. En este ejemplo, el enfoque no paramétrico utilizado solo si un estudiante estudiaba más o menos de diez horas por semana, ignoraba la cantidad de horas más allá de eso.

Creo que te estás refiriendo a las pruebas no paramétricas (pruebas gratuitas de distribución).

No paramétrico (distribución libre): una prueba no paramétrica (a veces llamada prueba libre de distribución) no asume nada sobre la distribución subyacente.

También los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que toman un orden de clasificación [wiki].

  • Para escalas nominales y ordinales (generalmente) use estadísticas no paramétricas
  • Para escalas de intervalo o relación, utilice estadísticas paramétricas .