Definitivamente trae cualquier inferencia causal que podría estar tratando de cuestionar.
Tener el grupo de comparación desequilibrado en observables no necesariamente mata su diff-in-diff. Eso es lo bueno de la regresión múltiple; puede pegar esas variables en su regresión para controlar esa variación. En este caso, si la edad, por ejemplo, fuera la única diferencia entre tus dos estados, entonces podrías incluir la edad como una covariable y estarías bien.
El verdadero problema es que sugiere un desequilibrio en los inobservables. Lanzar la edad a la regresión se ocupa de la edad misma, pero debido a que la edad está desequilibrada, insinúa la posibilidad de que sus dos estados también estén desequilibrados en otras características.
- ¿Cómo podemos usar la herramienta Weka para crear un sistema de recomendación?
- ¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?
- ¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?
- ¿Es realmente necesaria la programación competitiva para campos como la ciencia de datos o el aprendizaje automático y para solicitar gigantes tecnológicos?
- Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?
Parece que su regresión está en los datos del panel; por ejemplo, tiene alguna variable de resultado que cree que está afectada por la implementación de alguna política, por lo que decide comparar un estado que promulgó esa política y un estado que no en una serie de años Una forma convincente de tranquilizar a un lector o revisor de que el diff-in-diff constituye un efecto causal válido es mostrar tendencias previas; es decir, mostrar la variable de resultado a lo largo del tiempo en ambos estados en períodos anteriores a la implementación de la política. Si la variable de resultado en ambos estados sigue bastante bien antes de ese punto, entonces puede hacer un caso convincente de que cualquier divergencia después de ese punto se debe a la política.
Esas tendencias previas ni siquiera tienen que ser particularmente elegantes; a menudo basta un simple gráfico lineal. Por ejemplo, recientemente escribí un artículo sobre el efecto de la legalización de la marihuana en los accidentes automovilísticos. Uno de los pares de diferencias en diferencias que examiné fue Colorado y Kansas, específicamente en los condados fronterizos. En el documento hice algunos argumentos de que los factores determinantes de los accidentes automovilísticos deberían equilibrarse a ambos lados de la frontera, pero al final mi profesor me dijo que la evidencia más convincente era este gráfico lineal:
Simple, pero muy persuasivo: desde 2000 hasta 2012, las tasas de accidentes automovilísticos en los condados fronterizos de Colorado y Kansas se rastrearon casi perfectamente. (Si realmente calcula el coeficiente de correlación, es increíblemente alto, como r = 0,93 o algo así). A partir de 2013, divergen significativamente. Resulta que 2013 fue el primer año en que la marihuana se legalizó en Colorado.
Sin embargo, si no puede encontrar buenas tendencias previas en sus variables de resultado, deberá presentar algunos argumentos convincentes sobre por qué sus dos estados son una buena combinación para fines de comparación. Esto generalmente depende de hacer un argumento inteligente sobre por qué su combinación de tratamiento / comparación es “tan buena como” asignada aleatoriamente; por ejemplo, en ese documento de malas hierbas, argumentaba que los condados fronterizos de Colorado y Kansas fueron asignados esencialmente al azar por geografía, desde el dibujo de Las fronteras estatales se hicieron de acuerdo con una fórmula geométrica y no de acuerdo con los límites naturales.
Sin embargo, si no puede, le resultará difícil afirmar que su diff-in-diff es válido. Todavía puede ejecutarlo perfectamente bien, pero no podrá convencer a nadie de que el efecto que observa es causal.