¿Podemos lograr mejor que una disminución sub-lineal en el error al aumentar el número de muestras en regresión lineal?

En general, no. En OLS, la convergencia a la estimación [math] \ hat {\ beta} [/ math] está en un solo paso. (Estoy ignorando los pasos en el cálculo, como la descomposición de LU o la eliminación de Gauss). ¡No hay nada mejor que eso!

La convergencia del proceso de error es una bestia muy diferente. Está limitado por el hecho de que el teorema del límite central que asegura la convergencia en la distribución es [math] O (1 / \ sqrt {n}) [/ math]. Esta es una noción muy diferente a la convergencia a un punto como el que se obtiene con el método de Newton. Se trata de la convergencia de una función de distribución completa (hasta algunas condiciones técnicas para excluir conjuntos de medida cero).

Hay algunos ejemplos de convergencia más rápida, pero son pocos y distantes entre sí y, por lo que sé, generalmente no tienen importancia práctica. Peor aún, hay muchos ejemplos prácticos de no convergencia más lenta o directa, como distribuciones de cola muy sesgadas o pesadas. Estos son los que crean accidentes financieros.

Los métodos de estimación penalizados, como la estimación de cresta, mejoran el error cuadrático medio (a costa del sesgo), pero no de forma espectacular en general. Es uno de los misterios profundos de la realidad por qué la convergencia en la distribución es [matemática] O (1 / \ sqrt {n}) [/ matemática], pero lo es.

Related Content

El lenguaje de máquina se ha mencionado en todas partes. ¿Qué es en realidad?

¿Cuáles son algunas posibles aplicaciones de aprendizaje profundo que son bastante novedosas?

¿Qué es la estimación de máxima verosimilitud?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

¿Cómo puedo evitar el sobreajuste?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

Jay ya ha dado una excelente respuesta. Solo quiero agregarle una pequeña noción. Para una muestra grande, es decir, a medida que n se hace más grande, uno no puede vencer a OLS en general. Sin embargo, para muestras finitas, es decir, cuando n es fijo, uno puede vencer a OLS si conoce la distribución de los errores.

Por ejemplo, si sabe que los errores tienen una distribución normal (o t- o cualquier otra distribución), entonces estimar la regresión con la Estimación de máxima verosimilitud (MLE) proporcionará una varianza menor para sus estimaciones. Tenga en cuenta que tanto OLS como MLE son imparciales; la ganancia estará solo en la varianza de los estimadores.

George Savva

More Interesting

Estoy interesado en el aprendizaje automático y la inteligencia artificial y recién comencé a aprender Python. ¿Qué otras habilidades debo tener en mi haber para tener éxito en este campo?

¿Cómo detectaría el modelo de aprendizaje profundo los mismos objetos varias veces en un parche de imagen si existe?

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Qué es el filtrado colaborativo en términos simples?

¿Es incorrecto si realizo un análisis de opinión en revisiones individuales en lugar de en todas las revisiones a la vez?

¿Cómo se usa el modelo predictivo en la regresión logística?

¿Qué son los núcleos de difusión?

¿Cuáles son los grandes problemas de investigación en el reconocimiento de voz hoy?

¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

¿El filtrado colaborativo se considera aprendizaje automático?

¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

¿Por qué cada filtro aprende diferentes características en una red neuronal convolucional?

En la optimización matemática, ¿por qué alguien usaría el descenso de gradiente para una función convexa? ¿Por qué no encontrarían simplemente la derivada de esta función y buscarían el mínimo de la manera tradicional?

¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?

Web Analytics