La respuesta corta es que creo que tendrá un enorme impacto; en los primeros días, tal como se utiliza “fuera de la plataforma”, pero a largo plazo los economometristas modificarán los métodos y los adaptarán para que satisfagan las necesidades de los científicos sociales interesados principalmente en realizar inferencias sobre los efectos causales y estimar el impacto de las políticas contrafácticas (es decir, cosas que aún no se han probado, o lo que habría sucedido si se hubiera utilizado una política diferente). Ejemplos de preguntas que los economistas a menudo estudian son cosas como los efectos de cambiar los precios, o introducir discriminación de precios, o cambiar el salario mínimo, o evaluar la efectividad de la publicidad. Queremos estimar lo que sucedería en caso de un cambio, o lo que habría sucedido si el cambio no hubiera tenido lugar.
Como evidencia del impacto, Guido Imbens y yo atrajimos a más de 250 profesores de economía a una sesión de NBER el sábado por la tarde el verano pasado, donde cubrimos el aprendizaje automático para economistas, y en todas partes donde presento este tema para economistas, atraigo a grandes multitudes. Creo que cosas similares son ciertas para el pequeño grupo de otros economistas que trabajan en esta área. Hubo cientos de personas en una sesión sobre big data en las reuniones de AEA hace unas semanas.
El aprendizaje automático es un término amplio; Lo voy a usar de manera bastante limitada aquí. Dentro del aprendizaje automático, hay dos ramas, el aprendizaje automático supervisado y no supervisado. El aprendizaje automático supervisado generalmente implica el uso de un conjunto de “características” o “covariables” (x) para predecir un resultado (y). Hay una variedad de métodos de ML, como LASSO (ver Victor Chernozhukov (MIT) y coautores que han llevado esto a la economía), bosque aleatorio, árboles de regresión, máquinas de vectores de soporte, etc. Una característica común de muchos métodos de ML es que usar validación cruzada para seleccionar la complejidad del modelo; es decir, estiman repetidamente un modelo en parte de los datos y luego lo prueban en otra parte, y encuentran el “término de penalización de complejidad” que mejor se ajusta a los datos en términos de error cuadrático medio de la predicción (la diferencia al cuadrado entre La predicción del modelo y el resultado real). En gran parte de la econometría transversal, la tradición ha sido que el investigador especifica un modelo y luego verifica la “robustez” observando 2 o 3 alternativas. Creo que la regularización y la selección sistemática de modelos se convertirán en una parte estándar de la práctica empírica en economía a medida que nos encontremos con más frecuencia conjuntos de datos con muchas covariables, y también a medida que veamos las ventajas de ser sistemáticos sobre la selección de modelos.
- ¿Debería alguien interesado en hacer investigación de aprendizaje automático aprender NumPy o MATLAB?
- ¿Qué es exactamente el aprendizaje automático? ¿Una máquina aprende los conceptos como un ser humano y los aplica a problemas futuros, o simplemente aprende patrones?
- Si los robots, las máquinas y los sistemas de autoservicio reemplazan la mayor parte del trabajo realizado actualmente por los humanos, ¿qué harían los humanos?
- Cómo convertirse en un buen robotista
- ¿JARVIS pasaría la prueba de Turing?
Sendhil Mullainathan (Harvard) y Jon Kleinberg con varios coautores han argumentado que hay una serie de problemas en los que los métodos estándar de LD para la predicción son la parte clave de importantes problemas de política y decisión. Utilizan ejemplos como decidir si realizar una operación de reemplazo de cadera para un paciente anciano; si puede predecir en función de sus características individuales que morirán dentro de un año, entonces no debe realizar la operación. Muchos estadounidenses están encarcelados mientras esperan juicio; Si puede predecir quién se presentará a la corte, puede dejar salir más bajo fianza. Los algoritmos de ML se utilizan actualmente para esta decisión en varias jurisdicciones. Goel, Rao y Shroff presentaron un documento en las reuniones de la AEA hace unas semanas utilizando métodos de LA para examinar las leyes de detención y registro. Vea también el interesante trabajo que utiliza los métodos de predicción de LD en la sesión que discutí sobre “Ciudades Predictivas”: Programa preliminar de ASSA 2016 donde vemos el LD utilizado en el sector público.
A pesar de estos ejemplos fascinantes, en general, los modelos de predicción de ML se basan en una premisa que está fundamentalmente en desacuerdo con una gran cantidad de trabajo de ciencias sociales sobre inferencia causal. La base de los métodos de ML supervisados es que la selección del modelo (validación cruzada) se lleva a cabo para optimizar la bondad de ajuste en una muestra de prueba. Un modelo es bueno si y solo si predice bien. Sin embargo, una piedra angular de la econometría introductoria es que la predicción no es inferencia causal, y de hecho un ejemplo económico clásico es que en muchos conjuntos de datos económicos, el precio y la cantidad están positivamente correlacionados. Las empresas fijan precios más altos en las ciudades de altos ingresos donde los consumidores compran más; aumentan los precios en previsión de los momentos de mayor demanda. Un gran cuerpo de investigación econométrica busca REDUCIR la bondad de ajuste de un modelo para estimar el efecto causal de, digamos, el cambio de precios. Si los precios y las cantidades se correlacionan positivamente en los datos, cualquier modelo que calcule el verdadero efecto causal (la cantidad disminuye si cambia el precio) no funcionará tan bien con los datos. El lugar donde el modelo econométrico con una estimación causal funcionaría mejor es ajustar lo que sucede si la empresa realmente cambia los precios en un punto dado en el tiempo, al hacer predicciones contrafácticas cuando el mundo cambia. Las técnicas como las variables instrumentales buscan usar solo parte de la información que está en los datos, la variación “limpia” o “exógena” o “similar a un experimento” en el precio, sacrificando la precisión predictiva en el entorno actual para aprender sobre una relación más fundamental eso ayudará a tomar decisiones sobre el cambio de precio. Este tipo de modelo no ha recibido casi ninguna atención en ML.
En algunas de mis investigaciones, estoy explorando la idea de que podría tomar las fortalezas e innovaciones de los métodos de ML, pero aplicarlos a la inferencia causal. Requiere cambiar la función objetivo, ya que la verdad fundamental del parámetro causal no se observa en ningún conjunto de pruebas. La teoría estadística juega un papel más importante, ya que necesitamos un modelo de la cosa no observada que queremos estimar (el efecto causal) para definir el objetivo para el que los algoritmos optimizan. También estoy trabajando en el desarrollo de la teoría estadística para algunos de los estimadores más utilizados y exitosos, como los bosques aleatorios, y adaptándolos para que puedan usarse para predecir los efectos del tratamiento de un individuo en función de sus características. Por ejemplo, puedo decirle a un individuo en particular, dadas sus características, cómo responderían a un cambio de precio, utilizando un método adaptado de árboles de regresión o bosques aleatorios. Esto vendrá con un intervalo de confianza también. Puede buscar mis documentos en el archivo de impresión electrónica de arXiv.org; También escribí un artículo sobre el uso de métodos de LA para evaluar sistemáticamente la solidez de las estimaciones causales en el American Economic Review el año pasado. Espero que algunos de estos métodos puedan aplicarse en la práctica para evaluar ensayos controlados aleatorios, pruebas A / B en empresas tecnológicas, etc., para descubrir efectos de tratamiento sistemáticamente heterogéneos.
Las herramientas de aprendizaje automático no supervisadas difieren de las supervisadas en que no hay una variable de resultado (no “y”): estas herramientas se pueden utilizar para encontrar grupos de objetos similares. He utilizado estas herramientas en mi propia investigación para encontrar grupos de artículos de noticias sobre un tema similar. Se usan comúnmente para agrupar imágenes o videos; Si dice que un informático descubrió gatos en YouTube, puede significar que usaron un método de ML no supervisado para encontrar un conjunto de videos similares, y cuando los ve, un humano puede ver que todos los videos en el grupo 1572 son sobre gatos, mientras que todos los videos en el grupo 423 son sobre perros. Considero que estas herramientas son muy útiles como un paso intermedio en el trabajo empírico, como una forma basada en datos para encontrar artículos, reseñas, productos, historiales de usuarios similares, etc.