¿Qué es el cambio de covariable?

Hola pj shetty

Espero que esta definición pueda serle útil (citado de: Aprendizaje automático en entornos no estacionarios de MIT Press):

“Este libro se enfoca en un entorno no estacionario específico conocido como desplazamiento covariable , en el cual las distribuciones de entradas (consultas) cambian pero la distribución condicional de salidas (respuestas) no cambia , y presenta la teoría de aprendizaje automático, algoritmos y aplicaciones para superar esta variedad de no estacionariedad “.

Y otro de f1000 (plataforma de investigación gratuita de código abierto; comprensión del cambio de covariable en el rendimiento del modelo):

El cambio de covariable es una técnica de aprendizaje automático que se puede utilizar en el aprendizaje supervisado cuando se sabe que las distribuciones de entrenamiento y predicción difieren, pero el concepto que se aprende permanece estacionario”. […] ” El cambio de covariable ocurre con frecuencia durante el proceso de descubrimiento de fármacos donde el aprendizaje Los sistemas están diseñados para predecir propiedades fisicoquímicas de interés. Inicialmente, un equipo de química puede centrarse en una serie química particular, y la información de esta serie se utiliza para entrenar un sistema de aprendizaje. A medida que avanza el proyecto, el equipo de química puede reenfocar sus esfuerzos en una nueva serie estructuralmente distinta. La precisión de las predicciones computacionales prospectivas en la nueva serie puede verse comprometida ya que estas moléculas se originan a partir de una distribución que es distinta del conjunto molecular utilizado para entrenar la herramienta de aprendizaje “.

Los métodos de cambio de covariable generalmente vuelven a evaluar las instancias en los datos de entrenamiento para que la distribución de las instancias de entrenamiento esté más estrechamente alineada con la distribución de instancias en el conjunto de predicciones. Esto se logra proporcionando más ponderación durante la construcción del modelo a una instancia en el conjunto de entrenamiento que sea similar a una instancia en el conjunto de predicción “.

Espero que esto arroje algo de luz sobre la pregunta que ha formulado.

Intentemos responder esto con un ejemplo.

Si está creando una red neuronal (o cualquier otro clasificador), y si entrena a su clasificador mostrando ejemplos de todos los gatos negros, entonces el rendimiento de ese clasificador no será tan bueno cuando se le presenten imágenes de -gatos negros.

La razón es que la distribución del vector de intensidad de píxeles ha cambiado considerablemente . Y esto será cierto incluso si el límite de decisión no lineal original permanece sin cambios entre los ejemplos positivos y negativos.

La famosa normalización por lotes de la red neuronal es una forma de resolver o minimizar el problema del cambio de covarianza. Esta técnica hace que los pesos de la capa más profunda, aprendidos por la red neuronal, sean relativamente menos dependientes de los pesos aprendidos en la capa más superficial.

El cambio de covariable es el cambio en la distribución de las covariables específicamente, es decir, las variables independientes. Esto normalmente se debe a cambios en el estado de las variables latentes, que podrían ser temporales (incluso cambios en la estacionalidad de un proceso temporal), o espaciales, o menos obvias.

También se puede ver como mirar un “área” inexplorada del espacio de datos.

Es un área de estudio fascinante, ya que se puede ver naturalmente de diferentes maneras. En el espacio de datos, podemos tratar de manejarlo mediante una extrapolación inteligente, aunque esto a menudo no funciona tan bien como alternativas como la reestimación de variables latentes o los intentos de hacer que una función de predicción se adapte al dominio.

La forma más fácil de ver si realmente hemos salido de nuestro espacio covariable original requiere condiciones especiales, como variables de tiempo estacionarias y datos numéricos puros. En este caso, podemos calcular el casco convexo del espacio de datos y probar si nuestro nuevo punto de datos está fuera de él. Por supuesto, esto se vuelve computacionalmente costoso, por lo que a menudo no se hace a menos que obviamente algo esté mal con nuestras predicciones. Por supuesto, también depende de la aplicación.

Es uno de los problemas más difíciles en ML.

El cambio covariable es la diferencia entre la distribución del conjunto de datos de entrenamiento y la distribución del conjunto de datos de prueba.

Normalmente esperarías que provengan de la misma distribución, pero esto casi nunca sucede. Por lo tanto, debe actualizar continuamente sus modelos con el último conjunto de trenes.

Esto sucede porque nunca observará todos los factores de variación. algunos de ellos serán simplemente inobservables (latentes). Cuando esa variable latente cambie, su distribución condicional de los datos observados cambiará.

Este artículo ofrece una descripción general del cambio de covarianza, que en resumen es cuando la distribución que produce los datos reales es diferente de la distribución que produjo los datos de entrenamiento. Aquí se detallan algunas soluciones para detectar este problema.

Puede ser cualquiera. El cambio significa que los conjuntos tienen diferentes propiedades. Como tal, un hecho de la vida con el que uno debe vivir. Los humanos, creadores de patrones natos, hacen esto todo el tiempo. La inteligencia artificial, siendo más limitada, lucha aquí.

More Interesting

¿Qué tan útil es un trabajo cuantitativo en Goldman Sachs para un doctorado posterior en Machine Learning?

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

¿Qué startups están usando el procesamiento del lenguaje natural?

¿Cómo deciden las personas en aprendizaje profundo qué artículos no leer?

¿Cuándo es importante utilizar convoluciones cruzadas de canales y cuándo no?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

¿Cuáles son los problemas menos resueltos o no resueltos que se pueden resolver con el aprendizaje automático y el aprendizaje profundo?

¿Hay algún proyecto / investigación de Machine Learning interesante en el que pueda trabajar de forma independiente?

¿Qué hace una capa convolucional 1 × 1?

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?

¿Cuál es el poder computacional de las redes neuronales no recurrentes frente a las redes neuronales recurrentes?

¿Qué es la regularización de Tikhonov en términos simples?