¿Se cuestiona la utilidad de las estadísticas tradicionales debido a las técnicas modernas de aprendizaje automático y la prevalencia de Big Data?

Resumen ejecutivo ejecutivo

No.

Reglas de juego

Muchos estadísticos separan las estadísticas “tradicionales” y “modernas” sobre si las estimaciones se basan en el uso intensivo de computadoras con métodos de muestreo como MCMC. Parece que está pensando más en la línea de la diferencia de inferencia entre el uso de estadísticas y el ML profundo, por lo que abordaré mi respuesta en eso.

Resumen Ejecutivo

La regresión, la clasificación y la inferencia son, en esencia, métodos estadísticos. Muchos algos de ML son simplemente estadísticas en ropa nueva. Por ejemplo, la regresión logística es un método estadístico multivariado clásico. Hay muchas áreas de análisis estadístico que existían antes de ML, y continúan desarrollándose en paralelo y entrelazadas con ML. Yo diría firmemente que ML es, de hecho, un subconjunto de estadísticas, y tratar de dividirlos como disciplinas separadas es artificial y un accidente de desarrollo histórico. Algunas partes de ML son más heurísticas e indisciplinadas (más “de ingeniería”), pero eso no las excluye de ser estadísticas.

Una mirada “más profunda” a ML y estadísticas

Las estadísticas son más que simplemente calcular métricas sobre datos.

Una forma de dividir las estadísticas es en reinos “frecuentistas” y “bayesianos”, y ambos encuentran una gran aplicación en el aprendizaje automático, y no están siendo simplemente reemplazados por el aprendizaje automático. Por ejemplo, la normalización de valores (p. Ej., Centrado, escalado, sphering, etc.) se utilizan no solo en las variables de entrada, sino también dentro de los algoritmos ML. La regla de Bayes es la base de muchos algos de ML. La reducción de dimensiones es una estadística tradicional incondicional y es el corazón de los algoritmos de autocodificación.

Otra forma de dividir las estadísticas es en “robusto” y “no robusto”, la capacidad de manejar los valores atípicos de manera efectiva. Muchos de los artículos recientes en ML se basan en la incorporación de métodos robustos en algos profundos, aplicando métodos conocidos previamente utilizados en estadísticas. Por ejemplo, reemplazar la normalización no robusta de valores por una normalización robusta es una forma probada y verdadera de escribir un artículo sobre ML robusto.

La capacidad de calcular resultados analíticamente para una parte de un algoritmo a menudo resulta en una tremenda reducción en la complejidad y el tiempo. Las estadísticas “tradicionales” se han utilizado para reducir en gran medida los ciclos de CPU necesarios para calcular los resultados.

Además, las estadísticas brindan información y orientación sobre lo que sucede durante la operación de un LD. Una cosa es decir “bueno, la red se volvió inestable aquí y explotó”, frente a “La variación explotó pero el sesgo se mantuvo pequeño”. De esta manera, las estadísticas ofrecen otra perspectiva para analizar problemas con algoritmos.

La aparente división entre estadísticas y usuarios (en este caso ML) ha sucedido en muchas disciplinas. Por ejemplo, PCA ha sido descubierto y redescubierto muchas veces en diferentes disciplinas (procesamiento de señales, comunicaciones, análisis ecológico, climatología, etc.). En cada una de estas disciplinas, un grupo de usuarios estadísticamente ingenuos ha encontrado una necesidad particular, desarrolló un método para satisfacer esa necesidad y luego descubrió que el método es bien conocido en estadística y que ya existe un cuerpo de conocimiento bien desarrollado. Estos mismos usuarios a veces aportan nuevos métodos o variaciones previamente desconocidas de métodos conocidos a las estadísticas.

Áreas donde las estadísticas son útiles para los diseñadores de ML

A menudo, los usuarios ingenuos se dirigen a un problema en particular, utilizan métodos de prueba y error, heurísticos y otros métodos duros y listos para atacar el problema, y ​​una vez que el problema se resuelve a su satisfacción, continúan o ingresan en un período de mejora incremental. Esto es lo que quiero decir con un enfoque más ingenieril del problema: los resultados inmediatos son los más importantes. Sin embargo, hay muchas consideraciones más allá de si los resultados parecen correctos:

  • ¿Hay mejores formas de obtener la respuesta, o partes de la respuesta? Un estimador “eficiente” en estadística es aquel que converge tan rápido o más rápido a la respuesta correcta que cualquier otro estimador para la misma cantidad de datos, y aborda directamente este problema.
  • ¿Cuál es la incertidumbre en la salida? ¿Es esa imagen categorizada como una jirafa realmente una jirafa? Las redes neuronales profundas se engañan fácilmente: las predicciones de alta confianza para imágenes irreconocibles concluyen que los métodos que utilizaron para estimar la confianza de una clasificación de imagen a la salida de una red de aprendizaje profundo son insuficientes para determinar realmente la verdadera confianza en la clasificación de la imagen; Sin duda, existen mejores métodos para estimar la confianza, y estos métodos se basarán en estadísticas.
  • ¿La salida converge a la salida real? Un estimador “consistente” en estadística es aquel que converge con la estadística verdadera en el límite de grandes cantidades de datos. Saber si un estimador es consistente o no, y qué estimadores alternativos se pueden usar son estadísticas “tradicionales”.
  • Si la salida no es estadísticamente consistente, ¿puede el error ser al menos limitado? Si puedo demostrar que los errores son pequeños, puedo dejar de preocuparme por ellos.
  • ¿Cuál es el riesgo y qué confianza se debe obtener para limitar el riesgo a un nivel aceptable? Dispositivos médicos, reactores nucleares, naves espaciales, automóviles autónomos, cambio climático: solo si se comprenden los riesgos, se puede elaborar una política adecuada. Si bien la política está fuera del ámbito de las estadísticas, los riesgos están determinados por la distribución de probabilidad de las diferentes consecuencias. Uno podría elegir hacer un dispositivo de soporte vital para dar falsos positivos con mucha más frecuencia que los falsos negativos si las consecuencias de los falsos positivos son pequeñas, pero los falsos negativos son catastróficos. Por lo tanto, la política se basa en estadísticas.

Todas estas preguntas, y más, se abordan en las estadísticas. Aunque superficialmente de poco interés para el usuario que intenta obtener un algoritmo rápido y práctico, estas preguntas son muy importantes en un mundo real lleno de riesgos con miles de millones de usuarios. En aplicaciones críticas, el uso de ML a menudo puede dar como resultado mejores resultados. Sin embargo, el uso de ML en aplicaciones críticas sin un análisis de confianza en los resultados es una invitación a la pérdida de sueño y posibles enredos legales.

TL; DR

Incluso después de invertir millones de millas en el desarrollo de un automóvil autónomo, ¿está dispuesto a apostar la vida de su abuela a que los algoritmos subyacentes sean estadísticamente consistentes?

Hay 2 campos principales cuando se trata de usar datos; la comunidad estadística tradicional y la comunidad de aprendizaje automático. La comunidad estadística tradicional se basa en la inferencia, busca comprender la naturaleza de los datos, cómo podemos descifrar el conocimiento y establecer un conjunto de mejores prácticas para hacer bien el análisis. La comunidad de aprendizaje automático nació con un propósito diferente; para hacer que las computadoras hagan predicciones usando modelos que aprendan su entorno.

Mientras que las estadísticas se refieren a cosas como la causalidad y el diseño experimental, el aprendizaje automático utiliza datos para producir un resultado singular bien definido; predicción. Es esta diferencia la que genera la mayor división entre las comunidades y explorar lo que estos dos enfoques aportan es fundamental para introducir nuevos campos como la ciencia de datos.

Hay un trasfondo de descontento con el enfoque tradicional de estadísticas y las preocupaciones expresadas están justificadas. Cuando observamos todas las formas en que las estadísticas pueden salir mal, nos quedan muchos ejemplos. El maltrato de los valores p y los intervalos de confianza, la falta de comprensión sobre el poder estadístico, la naturaleza insidiosa de la inflación de la verdad, los errores de pseudoreplicación rampantes, la aparición recurrente de la falacia de la tasa base, la falta de control de la tasa de descubrimiento falso, la comisión circular análisis … la lista sigue y sigue. Para obtener una guía completa sobre cómo las estadísticas se hacen mal con frecuencia, lea el gran libro Estadística hecha mal por Alex Reinhart.

Los problemas anteriores no son fundamentales para las estadísticas en sí, sino para la mala educación que la mayoría de los investigadores obtienen sobre el tema. Pero mirar las “soluciones” al problema de la mala educación no hace mucho para arrojar esperanza sobre la idea de que las cosas cambiarán pronto. Numerosos estudios apuntan a una gran cantidad de publicaciones científicas, en las revistas más prestigiosas, que utilizan resultados erróneos y malinterpretan los datos. La adhesión a las mejores prácticas estadísticas, suponiendo que incluso sean acordadas por la comunidad estadística, no es algo que vemos en la investigación. En resumen, las estadísticas tradicionales están cambiando y la confianza en el enfoque estadístico tradicional está siendo analizada por los profesionales y el público en general (por ejemplo, cada alimento aparentemente causa cáncer).

El enfoque de aprendizaje automático, que utiliza la predicción como su principal preocupación, tiene beneficios que van mucho más allá de la creación de productos inteligentes. Se puede argumentar que la predicción es la única luz de guía verdadera para usar los datos correctamente. En otras palabras, si lo que está haciendo con los datos conduce a buenas predicciones, entonces debe estar en el camino correcto. Los estadísticos preguntarían ‘¿qué pista es esa?’ mientras que los practicantes de aprendizaje automático preguntarían ‘¿qué importa?’ Ambas son preguntas justas y es en el equilibrio entre las dos que probablemente encontraremos el futuro del análisis de datos.

Por ahora, las estadísticas tradicionales siguen siendo inmensamente útiles, pero su papel se está redefiniendo. En lugar de diseñar experimentos por adelantado y crear modelos estadísticos elegantes, buscamos la predicción como la primera señal de estar en el camino correcto. El objetivo singular de predicción del practicante de aprendizaje automático significa que las estadísticas están subordinadas a ese propósito. En otras palabras, las estadísticas son útiles en la medida en que nos ayudan a identificar por qué las predicciones podrían no funcionar. Creo que esto hace que las estadísticas sean una herramienta crítica para hacer bien el aprendizaje automático, y algunos en la comunidad de estadísticas han acogido con satisfacción este cambio en su enfoque para ayudar al mundo a usar los datos para resolver problemas.

En la ciencia de datos, que es la aplicación práctica del aprendizaje automático en la empresa, existe un impulso para encontrar el equilibrio adecuado entre la predicción y la interpretación. Con toda la ambigüedad en torno a la palabra ‘causalidad’, una cosa que no cambia es la necesidad de una organización de comprender por qué sucedió algo. Del mismo modo que ha habido un cambio en la comunidad estadística para agregar rigor a la búsqueda de predicciones, también ha habido un cambio en el aprendizaje automático para hacer que nuestros modelos predictivos sean menos ‘caja negra’ y abiertos a la interpretación.

¿La utilidad de las estadísticas tradicionales en cuestión es el aumento del aprendizaje automático y el uso de grandes cantidades de datos? Si. Pero poner algo para cuestionar a menudo conduce a avances en el campo y a la redefinición del propósito. Las estadísticas y el aprendizaje automático se pueden unir con el mismo objetivo de convertir los datos en algo útil, y creo que es algo bueno.

Para aquellos interesados ​​en aprender más, escribí extensamente sobre este tema en respuesta a una pregunta relacionada de Quora.

¿Qué intentaba transmitir Leo Breiman en su trabajo de investigación: Modelización estadística – Las dos culturas?

Absolutamente no. No quiero sumergirme demasiado profundo o de lo contrario esto se convertirá en una respuesta muy larga y ofuscaría el punto.

A modo de analogía, la utilidad de las armas no se cuestionó cuando se inventaron las bombas. Es muy posible que podamos nivelar ciudades enteras, pero no siempre queremos hacerlo. Las armas son mucho mejores para misiones tácticas, por ejemplo.

También los desarrollos en el aprendizaje automático tienen sus defectos. El día en que el modelo lineal generalizado se vuelve obsoleto es el día en que todos los estadísticos pierden sus trabajos.

Ahora, para responder la segunda parte de su pregunta, los grandes datos a veces nos dan acceso a toda la población. Esto nos permite hacer suposiciones que de otro modo no podríamos hacer, pero no crea ningún valor tangible en sí mismo. Big data realmente no representa una amenaza para las estadísticas.

No. El aprendizaje automático es en realidad una rama de la estadística, que evolucionó de los métodos tradicionales. Otras herramientas de ciencia de datos se basan en pruebas de hipótesis y diseño experimental.

Esto es especialmente cierto con Big Data. He visto a muchos científicos de datos hacer pruebas de hipótesis en conjuntos de datos en millones o miles de millones, que tienen un poder excesivo y siempre darán un valor p muy bajo, incluso si el tamaño del efecto es esencialmente 0. Esto es muy peligroso y podría evitarse al requerir el conocimiento de pruebas de hipótesis y análisis de poder para este tipo de posiciones.

Absolutamente no. Como muchos han señalado, las estadísticas tradicionales y el aprendizaje automático tienen diferentes propósitos: las estadísticas tradicionales se centran en la inferencia / interpretación , es decir, para explicar los datos, mientras que el aprendizaje automático enfatiza la predicción .

Un ejemplo simple con el modo de regresión lineal: y = b0 + b1x1 + b2x2

  • El estadístico se enfocaría en beta (s) para comprender la relación entre la variable de respuesta yy las variables independientes x1, x2 al examinar la bondad de ajuste del modelo, los intervalos de confianza de las versiones beta.
  • El aprendizaje automático se centra en y para evaluar la precisión de la predicción (o algunos tipos de función de pérdida que representan el objetivo del modelo).

Cuando necesite comprender el efecto de un medicamento en sus pacientes, la interpretación del modelo es importante y se deben usar las estadísticas tradicionales.

Cuando desee predecir qué artículos es probable que lean los clientes, probablemente no sea importante comprender las causas específicas que afectan el comportamiento de lectura de los clientes. En este caso, se puede utilizar una técnica de aprendizaje automático de caja negra siempre que proporcione una alta precisión de predicción.

Las estadísticas tradicionales surgieron para ayudar a las personas a comprender las poblaciones a partir de pequeñas muestras de datos. En la era de los grandes datos, muchos conjuntos de datos con los que trabajamos son poblaciones completas. La utilidad de muchas técnicas estadísticas es limitada cuando las estadísticas de población se pueden calcular directamente con una simple consulta.

More Interesting

Cómo verificar que no haya sesgo en su muestra al hacer una prueba A / B

¿Esperas que Apple Swift gane impulso en el dominio de aprendizaje automático?

¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?

¿Crees que Big Data está creando nuevos modelos de negocio o simplemente cambia la forma en que trabajamos?

¿Cómo se ha aplicado el aprendizaje automático a la asistencia sanitaria?

¿Cuáles son las revisiones del curso de ciencia de datos de Gray Atom? ¿Vale la pena tomarlo como más fresco? ¿Proporcionan ubicaciones?

¿Cuáles son las perspectivas de un programa de certificación en análisis de negocios ofrecido por NMIMS, IIM-L, IIM-Rachi o ISB?

¿Cuáles son los conceptos clave en la clasificación de datos?

¿Dónde puedo obtener un conjunto de datos de muestra de la competencia de Deloitte, Kaggle, para predecir la pérdida de clientes en los dominios de seguros de vida?

¿Cuál es la mejor manera de crear una extensión simple de Chrome que almacene una base de datos y revele los resultados relevantes cuando se busca?

¿Qué estadística simple o técnica de ciencia de datos utilizó para obtener una visión interesante cuando se enfrentó a grandes cantidades de datos?

¿Cómo se prueba que la probabilidad de una moneda es 1/2?

¿Quién cifra los datos?

¿Cómo se relaciona la distribución binomial negativa con la predicción del comportamiento del consumidor?

¿Qué tipo de proyectos paralelos de ciencia de datos se sugieren para un estudiante de pregrado?