Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

Al mirar la correlación y la regresión, desea tener variables estacionarias. De lo contrario, puede obtener resultados espurios que no se basan en ninguna relación real. Por ejemplo, si tiene dos caminatas aleatorias, pueden tener una correlación que parece significativa a pesar de que fueron generadas por procesos aleatorios e independientes. Vea la respuesta a ¿Qué es la cointegración de datos de series temporales en estadísticas? ¿Cómo identifica pares de acciones para negociar? ¿Se basa en un análisis de correlación simple o hay un método más riguroso? por Edwin Chen para una mayor ilustración de cómo tratar los casos en que las variables no son estacionarias. Como ejemplo práctico, desearía correlacionar los cambios (tasas de crecimiento) en el PIB de un país y otro país, no los niveles reales del PIB. Creo que una regla general para usar es, si estamos buscando ver si dos procesos están correlacionados, plantear la pregunta de manera que si los procesos son realmente independientes, no habrá correlación espuria.

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano?

En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?

¿Cuáles son algunos temas inusuales en el aprendizaje automático que se pueden explorar como un proyecto de un mes?

Visión por computadora: ¿Existe un servicio que, dada una imagen, le dice lo que representa?

¿Cuáles son algunas implementaciones geniales de aprendizaje automático?

Cuando use un modelo de serie temporal, SIEMPRE verifique la estacionariedad. Los procesos estacionarios son reversiones medias. Si no lo hace, entonces puede tener una correlación espuria como la que Vladimir Novakovski ha hablado.

Por ejemplo, el PIB. Supongamos que quiere ver si existe una correlación entre el PIB de los EE. UU. Y otro país, por ejemplo, la UE. Ahora, si el PIB sigue un simple proceso de caminata aleatoria, entonces existe la posibilidad de que pueda encontrar una correlación entre el PIB de la UE y los Estados Unidos en niveles. Pero esto puede ser espurio. ¿Por qué? Debido a que son caminatas aleatorias y dado que nunca tendrá la “población” y solo una muestra, es decir, no estará observando el PIB de la UE y los EE. UU. Desde tiempos inmemoriales y solo mirará el PIB de los dos países para Por último, 40 años no sabrás qué tipo de camino siguen realmente. Por lo tanto, podría darse el caso de que durante una pequeña fracción de período las dos variables se movieran juntas y, desafortunadamente, haya elegido exactamente ese período para observar. Como resultado, podría obtener una correlación entre los dos cuando, de hecho, habría llegado a una conclusión diferente si hubiera dicho 80 años de datos.

Entonces, lo primero que debe hacer es eliminar esa posibilidad. Para hacer eso puedes tomar las primeras diferencias. Si el proceso sigue una caminata aleatoria simple, tomar la primera diferencia eliminará todo excepto el ruido que se supone que sigue una distribución normal estándar. Si en lugar de una caminata aleatoria tiene una tendencia temporal, volver a tomar la primera diferencia funcionará. Por lo tanto, puede eliminar los procesos de caminata aleatoria si está allí, lo que lo salvará de la correlación espuria.

Intuitivamente, esto tiene sentido. Si la dinámica económica entre los dos países se correlaciona, es decir, si hay algún “vínculo común” entre las dos economías, tenderán a moverse en la misma dirección. Si el PIB de EE. UU. Crece, el PIB de la UE también crecerá y si hay una recesión en los EE. UU., También habrá una desaceleración en la UE y viceversa.

Entonces, si no es solo una caminata aleatoria pura y hay algo más que está impulsando los dos PIB, hacer la primera diferencia te dejará con un proceso estacionario (es posible que tengas que hacer una segunda o tercera diferencia para obtener un proceso estacionario, pero déjanos suponga que obtiene un proceso estacionario después de la primera diferencia). Ahora, si las primeras diferencias entre Eu y EE. UU. Se mueven juntas, usted tiene una correlación y hace un reclamo válido.

La tasa de crecimiento del PIB de los Estados Unidos es un buen ejemplo de proceso estacionario, ya que tiene una tasa de crecimiento a largo plazo de alrededor del 3% y la economía se mueve alrededor de eso. La tasa de crecimiento puede subir temporalmente al 7% o caer al -5%, pero a la larga estará alrededor de la marca del 3%.

Para responder a su pregunta de que si puede haber correlación en las tasas de crecimiento, incluso si no existe tal cosa en los niveles, debe pensar en nuestro ejemplo. En lugar de los 40 años de datos en los que las dos variables se movían juntas, puede obtener los 40 años incorrectos cuando no se movían juntas y estaban bastante separadas. Esto puede deberse a algún factor que afectó a la UE, pero no a los EE. UU., Y que causó una ruptura estructural y una caída drástica del PIB de la UE, de la que tardó aproximadamente 3 décadas en recuperarse. La comparación a niveles puede dar la impresión de que no hay nada en común entre las dos economías. Pero si compara las tasas de crecimiento, aún puede encontrar que las tasas de crecimiento de EE. UU. Y la UE se movieron en la misma dirección durante el período de 40 años.

En cuanto al problema de tener una variable como la tasa de crecimiento como su variable dependiente que puede tomar valores acotados, siempre puede usar modelos Logit o Probit para superarla. No es gran cosa.

Tudor Achim

More Interesting

¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

¿Qué es una explicación intuitiva de la estructura de datos del árbol B?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

¿Cuáles son los trabajos mejor pagados en el aprendizaje automático y qué habilidades requiere?

¿Cuáles son los límites del aprendizaje automático? ¿Cuándo puede estar seguro de que un algoritmo ML no podrá darle un resultado satisfactorio?

¿Por qué es importante aprender el descenso de gradiente en el aprendizaje automático?

¿Es posible utilizar el aprendizaje automático para hacer un programa que pueda programar?

Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton

¿Por qué hay una disminución en el rendimiento de los modelos pre-entrenados?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?