¿Cuáles son las principales diferencias entre econometría y aprendizaje automático?

El kit de herramientas de aprendizaje automático y el kit de herramientas econométricas se han utilizado tradicionalmente para responder preguntas distintas: mientras que el aprendizaje automático se centra en la predicción, la econometría, especialmente la inferencia causal, se centra en la toma de decisiones.

Pongamos un ejemplo. En tecnología, a menudo hay un enfoque en descubrir qué “momento mágico” engancha a los nuevos usuarios en los próximos meses y años. ¿Qué hito simple lleva a la lealtad del cliente a largo plazo?

El ex ejecutivo de Facebook, Chamath Palihapitiya, explicó que una vez que Facebook descubriera que los usuarios retendrían si llegaban a 7 amigos en 10 días, hacer que esa experiencia sea una realidad para todos los usuarios se convirtió en un “único foco” para la empresa. Twitter, Zynga, Dropbox, Slack y otros han mencionado identificar momentos mágicos similares en sus propios contextos. ¿Cómo encontramos el nuestro?

Si queremos predecir si un usuario se quedará o no por el próximo año en función de su comportamiento en el primer mes, aprovechamos las técnicas de aprendizaje automático. En el enfoque más simple, entrenamos un modelo de clasificación para predecir la retención en función del (muchas medidas posibles) del comportamiento del primer mes. Usando técnicas de regresión regularizadas, deberíamos poder reducir a un conjunto razonable de comportamientos que predicen poderosamente la retención. Esto puede ser útil para estimar el valor de vida esperado del usuario, por ejemplo, para optimizar el gasto de marketing.

Pero el momento mágico no se trata de predecir la retención en absoluto. En cambio, se trata de determinar el conjunto de comportamientos del primer mes que causan la retención. En el caso de Facebook, si los usuarios que adquieren más amigos al principio tienen más probabilidades de retener en gran medida porque son inherentemente diferentes (por ejemplo, más sociales, más interesados ​​de forma innata en el producto, más adictos a la tecnología), entonces tomar decisiones estratégicas de producto para invertir en amistad temprana basada en la correlación observacional entre amistad temprana y retención produciría resultados comerciales deslumbrantes.

Las técnicas econométricas son las herramientas principales en nuestro juego de herramientas para determinar la causalidad. Entonces, en lugar de centrarnos en la predicción, un lugar en el que podríamos comenzar sería ejecutar un modelo de regresión logística, hacer retroceder la retención de un año en las características de comportamiento del primer mes y agregar una serie de controles intuitivos para los principales factores de confusión que podrían influir tanto en el fuente de referencia del usuario y otros representantes de la calidad del usuario y el interés inherente en el producto.

Por supuesto, la regresión controlada es solo un enfoque. Hay una gama de otros enfoques econométricos más sofisticados para estimar las relaciones causales a partir de la variación natural, incluido el diseño de regresión discontinua, la diferencia en diferencias, el modelado de efectos fijos y el modelado de variables instrumentales.

Si bien cada uno de estos métodos econométricos es poderoso para descubrir relaciones causales, uno de los principales desafíos con las técnicas estándar es que la selección de modelos y variables son relativamente poco arraigadas. La buena noticia es que los métodos para el modelo basado en principios y la selección de características son fundamentales para el aprendizaje automático. Y en los últimos años, visionarios académicos como Victor Chernozhukov, Susan Athey, Guido Imbens, Alberto Abadie y otros han estado desarrollando cuidadosamente adaptaciones que combinan lo mejor de lo que el aprendizaje automático tiene para ofrecer con las aplicaciones de inferencia causal que más importan.

“Mi opinión personal, habiendo tenido experiencia laboral con ambos, es la siguiente.

El aprendizaje automático y la econometría comparten un propósito y una base filosófica. Ambos son un tipo de razonamiento inferencial en la medida en que ambos toman datos duros y tal vez conocimientos previos para inducir nuevos conocimientos.

Tal conocimiento nuevo e inferido puede:

* especifique generalizaciones de datos “en muestra”, por lo tanto, se hace referencia a una descripción o identificación, de acuerdo con la jerga de campo específica

* pronostica o extrapola en generalizaciones de datos “fuera de muestra”, como patrones, tendencias, de acuerdo con la jerga de campo específica

Para inferir generalizaciones sólidas a partir de datos duros, ambos buscan apoyo estadístico en el cuerpo de conocimiento estadístico, principalmente teoría de inferencia estadística. Vea el libro seminal de “Introducción al aprendizaje estadístico”

(Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani) para recurrir a las bases comunes para ambos.

Ambos comparten riesgos y desafíos, por ejemplo, ambos están sujetos a sesgos, ambos son propensos a un sobreajuste, ambos sufren igualmente de datos de entrada de mala calidad. Por lo tanto, la limpieza y preparación de datos es esencial para que ambos produzcan información útil y útil.

Lo mismo ocurre con “basura adentro, basura afuera”.

¿Qué los distingue entonces? En una palabra: alcance. El cuerpo de conocimiento econométrico se desarrolló y ajustó para abordar los datos económicos (financieros) y para abordar cuestiones y preguntas económicas financieras. El aprendizaje automático es más amplio y desde el inicio no tiene compromiso ni apego a ningún campo de aplicación en particular. En mi humilde opinión, podemos sacar de eso la mayoría de las distinciones.

De antemano, la estrechez (o amplitud) puede ser una característica o una debilidad según el entorno en cuestión. Tal comprensión puede guiar mejor la adecuación de cada repertorio de técnicas.

La econometría tiende a incorporar más fácilmente el conocimiento de fondo económico, ver modelos semi y estructurados, por lo que la teoría de la economía (o experiencia o intuición) se representa explícitamente y se tiene en cuenta para estimar y pronosticar.

La mayoría de las técnicas de aprendizaje automático, en particular, las más utilizadas y exitosas, no pueden satisfacer los conocimientos previos de manera tan rápida y ordenada. El conocimiento de fondo se incorpora más a menudo en la fase de preparación de datos, así como en la heurística y en la parametrización específica de la técnica (por ejemplo, topología estructural, umbrales, decisiones de poda).

Tal vez, esto podría haber llevado al economista a abandonar y despreciar el aprendizaje automático y la minería de datos como un oficio no científico por el cual la “tortura de datos” de prueba y error explica los resultados más que la técnica aplicada. Para ser justos, esto es cierto dependiendo de la ética del profesional. De lo contrario, más elegante, dependiendo de cuán “científico” se comporte el científico de datos.

Por otro lado, también para ser justos, creo que deberíamos perdonar el aprendizaje automático por su amplitud de alcance, variedad y tipos y estructuras de datos. Las series de tiempo o los datos del panel temporal, aunque tienen sus desafíos específicos, pueden beneficiarse de las técnicas que incorporan su semántica temporal, mientras que las técnicas de aprendizaje automático son, por diseño, opacas y independientes de qué tipo de codificación de datos tiene que manejar.

Hay muchas lecciones que un campo puede exponer en beneficio del otro. Ambos pueden compartir técnicas también. Por ejemplo, ambos pueden beneficiarse de las estrategias de muestreo, se requiere experiencia en teoría de muestreo. Dado que ambos producen generalizaciones de datos como inductivos, ambos pueden beneficiarse e intercambiar entre ellos la compresión de información, evaluación de modelos, validación cruzada y técnicas de ensamblaje de modelos.

Me gustaría destacar una ganancia particular para el modelado y análisis económico que proviene de la aplicación de aprendizaje automático: toda una infraestructura para dar cuenta de las relaciones no lineales. La configuración econométrica estándar puede ser a veces demasiado simplista y quizás engañosa cuando se linealiza y se vuelve brillante sobre algunas otras relaciones numéricas más complejas.

Por otro lado, el enigma entre correlación y causalidad se resuelve de manera más efectiva en el campo econométrico.

Algunos autores han reconocido esa ventaja multidisciplinaria, Hal Varian, Susan Athey, Alberto Cavallo, Johnathan Levin, Robert Tibshirani y Walter Sosa-Escudero, por nombrar algunos. A pesar de la palabra de moda del título grande, un buen punto de partida es el artículo de Hal Varian “Big data: New tricks for econometrics” ya que el documento se vuelve sólido e informativo más allá del título (Descargo de responsabilidad: Big data es para mí un nombre inapropiado grande y desordenado )

Finalmente, estoy personalmente convencido de que cada uno de nosotros puede beneficiarse al dominar ambos cuerpos prolíficos de conocimiento “.

No hago econometría, así que tome mi respuesta con un grano de sal.

Una vez le expliqué al CFO de una empresa en qué consiste la ciencia de datos e inmediatamente dijo que se trataba de econometría. La razón de esto es su parcialidad. En cierto modo, tanto el aprendizaje automático como la ciencia de datos tienden a sufrir esto. Al ser campos que se pueden generalizar a casi cualquier campo, es normal que las personas amplíen lo que entienden mejor.

La mayor diferencia es que la econometría se centra en los datos económicos. La elección de algoritmos refleja esto. Hay un gran interés en cosas como el pronóstico, por ejemplo. Hay algunos modelos que provienen de estadísticas como los modelos lineales. Si entiendo correctamente la econometría, el objetivo es inferir y predecir cosas como ingresos, riesgos, etc.

El aprendizaje automático, por otro lado, es una generalización. No intenta resolver problemas para campos específicos sino para cualquier campo. Se centra en hacer que las máquinas aprendan de los datos para producir predicciones. Con esto en mente, las tareas de aprendizaje automático son a menudo muy genéricas, de clasificación, agrupamiento, regresión.

El operador, por supuesto. Silly Valley y muchas otras personas han perdido de vista eso.

Pregunta relacionada: ¿Cuáles son las diferencias en alcance, objetivos y métodos entre la economía computacional y la econometría?

¿Operador? Tomemos lo último. Se realiza en una computadora (en un sentido general, como en la nube o no). Se realiza contra datos que la computadora puede usar, incluso si se obtuvieron por medios poco éticos. Ahora, los enfoques utilizados pueden mapear, en parte, volver a los primeros, pero no en su totalidad. Y, la computadora es el operador, sin embargo, podemos descender a suboperadores que pueden merecer un poco de atención por derecho propio.

Últimamente, tenemos una configuración particular que obtiene el enfoque principal debido a logros que asombraron, de alguna manera. Y, esta pequeña manía se propone como el fin de la adquisición de conocimiento. Eso es. Hemos llegado.

Pero eso nos lleva a una discusión de opinión.

En términos de lo primero, tenemos una vieja disciplina que paralelamente progresaría en matemáticas, y su subcampo de estadística. En los primeros tiempos, la computadora era humana, aunque las asistencias en el cálculo se produjeron bastante temprano en el siglo XX. Un grupo de personas podría resolver sistemas de ecuaciones bastante sofisticados en un tiempo razonable. Pero, todo esto, entonces, se hizo pensando en los humanos con diferentes habilidades, por supuesto.

Lo que tenemos ahora son sistemas que nadie entiende. ¿Adivina qué? Ese estado de confusión se ha elevado a los sistemas humanos, ellos mismos. ¿Pero a quién le importa? Flujo de bienes baratos, llevado por repartidores cada vez más estresados ​​(y la solución? Drones?), Sistemas de pago que recompensan los movimientos manuales (permitiendo que algunos imiten a su personaje de película favorito), … ah, es demasiado deprimente continuar. Pero, los humanos como operadores en un bucle serán imprescindibles. Déjame mostrarte por qué.

——

Aquí hay un pequeño cuento (en realidad, dos).

Hubo un caballero que pasó 10 años de su vida preparando y resolviendo un difícil sistema de ecuaciones. Se trataba de algo real. ¿Adivina qué? Pasó otros 10 años revisando su respuesta. El marco temporal fue a principios del siglo XX, digamos. Exhibió un conjunto notable de bolas (¿quién tiene tales hoy en día)? La esencia, sin embargo, es que podríamos resolver ese mismo sistema en unos pocos segundos. ¿Periodo de tiempo? Bueno, hace 20 años, habría sido estaciones de trabajo en red. Hoy en día, estamos hablando de aplicaciones.

Pero, aquellos que están usando las últimas maravillas no tuvieron mano en crear este estado de conocimiento. Programadores? Sal de aquí. La piratería es la antítesis de lo que realmente necesitamos hacer.

Ahora, a la segunda. Hace unos 15 años, estaba resolviendo, en parte, algunos problemas complicados de modelado utilizando técnicas de programación naturales. El primero (arriba) está lleno de estos enfoques, incluido el que ahora recibe mucha prensa. ¿Bueno? Algunos problemas nunca antes resueltos. Eso fue tomado como bueno, aunque no pudimos entender las ecuaciones que generó la cosa. Ese es solo uno de un problema continuo.

Sin embargo, tampoco podía razonar sobre las matemáticas de orden superior. De hecho, el aprendizaje automático tendrá que ser una colección de muchos tipos de enfoques trabajando juntos. Esa falta limita los rangos de solución. Y estoy hablando de problemas del mundo real, no de juegos.

—-

Los sensores traen un juego completamente nuevo a la mesa (juego de palabras). Pero, incluso estos tienen que ser entendidos. Ese rasgo? Como en, entendido? Enfoque humano. La econometría fue iniciada por humanos y continúa así. El aprendizaje automático fue iniciado por humanos pero es del artefacto. Esa diferencia clave es tanto una bendición como una maldición. ¿Perdición? La confusión de Silly Valley. Bendición. Sí, cuando establezcamos la visión adecuada, los humanos serán integrales (juego de palabras, también).

¿Boon también (o dos)? La histeria, por un lado, y la manía, por otro, son asuntos temporales cuya reducción está pendiente de una mejor aceptación de los humanos y sus roles necesarios.

—-

Editar (09/09/2016): ¿Será Econometrics o Machine Learning más importante en el futuro?