¿Es el “grado de libertad” en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

Permítanme explicar esto usando el ejemplo de una distribución Multinomial. Esta distribución se puede explicar usando el caso de una bolsa que contiene n bolas de k diferentes colores. Desea encontrar la distribución de probabilidad conjunta de X1, X2, … Xk, que son variables aleatorias que indican el número de bolas que caen en las categorías de color de 1,2, … k respectivamente.

Notará que necesita parámetros para este modelo. Los parámetros del modelo son entonces n, p (1), p (2), …, p (k), donde p (i) denota la probabilidad de que una pelota tenga el i-ésimo color (i = 1, 2, … , k) yn denota el número total de bolas.

Aquí hay algunas restricciones sobre los valores de p (i). Son :

  1. p (i)> 0, para todo i = 1, 2, … k.
  2. Suma (p (i)) = 1, sobre todos los i.

Debido a la segunda restricción, generalmente tomamos una forma no singular de la distribución con los parámetros p (1), p (2), …, p (k-1) para hacer que los parámetros formen un conjunto linealmente independiente. p (k) se puede escribir como

p (k) = 1 – Suma (de 1 a k-1) p (i), para i = 1, 2, …, k-1.

Una estadística (una función de las variables), basada en los parámetros p (i) tendrá k-1 grados de libertad.

En general, si hay una variable aleatoria X que es una función de ‘n’ otras variables aleatorias, y hay una ‘p’ cantidad de restricciones en las variables, entonces X tendrá np grados de libertad.

Puede usar la intuición para tener una sensación de grados de libertad. En el aprendizaje automático, puede tomar los grados de libertad como el número de variables independientes menos el número de restricciones sobre esas variables.

Detalles adicionales para mi pregunta: Suponiendo un modelo de regresión como Y = b0 + x1 + x1 ^ 2 + x2 (tenga en cuenta que la fórmula contiene x1 dos veces y x2 una vez): es el grado de libertad 2 (porque hay dos variables independientes) o 3 (porque hay tres parámetros)?

More Interesting

¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?

¿Cuáles son los mayores desafíos en la enseñanza del aprendizaje automático?

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?

¿Cómo puedo comparar diferentes arquitecturas de redes neuronales sin entrenarlas durante semanas? ¿Hay alguna forma práctica de verificar si las redes merecen la capacitación completa o no?

¿Cómo se usa la pérdida de peso para la regularización en las redes neuronales?

¿Por qué las técnicas de optimización como el gradiente natural y los métodos de segundo orden (L-BFGS por ejemplo) no se usan mucho en el aprendizaje profundo?

¿Cuánto cuesta una máquina de crioterapia?

¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?

¿Es posible cambiar a un doctorado en aprendizaje automático después de un MPhil en econometría?

Cómo entrenar algoritmos relacionados con IA sin una GPU decente

¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?