Resumen ejecutivo ejecutivo
No.
Reglas de juego
- ¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?
- Academia VS Industry, ¿qué entorno es más adecuado para adquirir habilidades en "ciencia de datos" (por ejemplo, limpieza de datos, minería / análisis, visualización)?
- ¿Cuál es la mejor tecnología, ciencia de datos o big data?
- ¿Cuál es la diferencia entre el modelo predictivo y una regla comercial descriptiva?
- ¿Qué país debería elegir para una maestría en ciencia de datos?
Muchos estadísticos separan las estadísticas “tradicionales” y “modernas” sobre si las estimaciones se basan en el uso intensivo de computadoras con métodos de muestreo como MCMC. Parece que está pensando más en la línea de la diferencia de inferencia entre el uso de estadísticas y el ML profundo, por lo que abordaré mi respuesta en eso.
Resumen Ejecutivo
La regresión, la clasificación y la inferencia son, en esencia, métodos estadísticos. Muchos algos de ML son simplemente estadísticas en ropa nueva. Por ejemplo, la regresión logística es un método estadístico multivariado clásico. Hay muchas áreas de análisis estadístico que existían antes de ML, y continúan desarrollándose en paralelo y entrelazadas con ML. Yo diría firmemente que ML es, de hecho, un subconjunto de estadísticas, y tratar de dividirlos como disciplinas separadas es artificial y un accidente de desarrollo histórico. Algunas partes de ML son más heurísticas e indisciplinadas (más “de ingeniería”), pero eso no las excluye de ser estadísticas.
Una mirada “más profunda” a ML y estadísticas
Las estadísticas son más que simplemente calcular métricas sobre datos.
Una forma de dividir las estadísticas es en reinos “frecuentistas” y “bayesianos”, y ambos encuentran una gran aplicación en el aprendizaje automático, y no están siendo simplemente reemplazados por el aprendizaje automático. Por ejemplo, la normalización de valores (p. Ej., Centrado, escalado, sphering, etc.) se utilizan no solo en las variables de entrada, sino también dentro de los algoritmos ML. La regla de Bayes es la base de muchos algos de ML. La reducción de dimensiones es una estadística tradicional incondicional y es el corazón de los algoritmos de autocodificación.
Otra forma de dividir las estadísticas es en “robusto” y “no robusto”, la capacidad de manejar los valores atípicos de manera efectiva. Muchos de los artículos recientes en ML se basan en la incorporación de métodos robustos en algos profundos, aplicando métodos conocidos previamente utilizados en estadísticas. Por ejemplo, reemplazar la normalización no robusta de valores por una normalización robusta es una forma probada y verdadera de escribir un artículo sobre ML robusto.
La capacidad de calcular resultados analíticamente para una parte de un algoritmo a menudo resulta en una tremenda reducción en la complejidad y el tiempo. Las estadísticas “tradicionales” se han utilizado para reducir en gran medida los ciclos de CPU necesarios para calcular los resultados.
Además, las estadísticas brindan información y orientación sobre lo que sucede durante la operación de un LD. Una cosa es decir “bueno, la red se volvió inestable aquí y explotó”, frente a “La variación explotó pero el sesgo se mantuvo pequeño”. De esta manera, las estadísticas ofrecen otra perspectiva para analizar problemas con algoritmos.
La aparente división entre estadísticas y usuarios (en este caso ML) ha sucedido en muchas disciplinas. Por ejemplo, PCA ha sido descubierto y redescubierto muchas veces en diferentes disciplinas (procesamiento de señales, comunicaciones, análisis ecológico, climatología, etc.). En cada una de estas disciplinas, un grupo de usuarios estadísticamente ingenuos ha encontrado una necesidad particular, desarrolló un método para satisfacer esa necesidad y luego descubrió que el método es bien conocido en estadística y que ya existe un cuerpo de conocimiento bien desarrollado. Estos mismos usuarios a veces aportan nuevos métodos o variaciones previamente desconocidas de métodos conocidos a las estadísticas.
Áreas donde las estadísticas son útiles para los diseñadores de ML
A menudo, los usuarios ingenuos se dirigen a un problema en particular, utilizan métodos de prueba y error, heurísticos y otros métodos duros y listos para atacar el problema, y una vez que el problema se resuelve a su satisfacción, continúan o ingresan en un período de mejora incremental. Esto es lo que quiero decir con un enfoque más ingenieril del problema: los resultados inmediatos son los más importantes. Sin embargo, hay muchas consideraciones más allá de si los resultados parecen correctos:
- ¿Hay mejores formas de obtener la respuesta, o partes de la respuesta? Un estimador “eficiente” en estadística es aquel que converge tan rápido o más rápido a la respuesta correcta que cualquier otro estimador para la misma cantidad de datos, y aborda directamente este problema.
- ¿Cuál es la incertidumbre en la salida? ¿Es esa imagen categorizada como una jirafa realmente una jirafa? Las redes neuronales profundas se engañan fácilmente: las predicciones de alta confianza para imágenes irreconocibles concluyen que los métodos que utilizaron para estimar la confianza de una clasificación de imagen a la salida de una red de aprendizaje profundo son insuficientes para determinar realmente la verdadera confianza en la clasificación de la imagen; Sin duda, existen mejores métodos para estimar la confianza, y estos métodos se basarán en estadísticas.
- ¿La salida converge a la salida real? Un estimador “consistente” en estadística es aquel que converge con la estadística verdadera en el límite de grandes cantidades de datos. Saber si un estimador es consistente o no, y qué estimadores alternativos se pueden usar son estadísticas “tradicionales”.
- Si la salida no es estadísticamente consistente, ¿puede el error ser al menos limitado? Si puedo demostrar que los errores son pequeños, puedo dejar de preocuparme por ellos.
- ¿Cuál es el riesgo y qué confianza se debe obtener para limitar el riesgo a un nivel aceptable? Dispositivos médicos, reactores nucleares, naves espaciales, automóviles autónomos, cambio climático: solo si se comprenden los riesgos, se puede elaborar una política adecuada. Si bien la política está fuera del ámbito de las estadísticas, los riesgos están determinados por la distribución de probabilidad de las diferentes consecuencias. Uno podría elegir hacer un dispositivo de soporte vital para dar falsos positivos con mucha más frecuencia que los falsos negativos si las consecuencias de los falsos positivos son pequeñas, pero los falsos negativos son catastróficos. Por lo tanto, la política se basa en estadísticas.
Todas estas preguntas, y más, se abordan en las estadísticas. Aunque superficialmente de poco interés para el usuario que intenta obtener un algoritmo rápido y práctico, estas preguntas son muy importantes en un mundo real lleno de riesgos con miles de millones de usuarios. En aplicaciones críticas, el uso de ML a menudo puede dar como resultado mejores resultados. Sin embargo, el uso de ML en aplicaciones críticas sin un análisis de confianza en los resultados es una invitación a la pérdida de sueño y posibles enredos legales.
TL; DR
Incluso después de invertir millones de millas en el desarrollo de un automóvil autónomo, ¿está dispuesto a apostar la vida de su abuela a que los algoritmos subyacentes sean estadísticamente consistentes?