¿Existe una brecha entre las estadísticas y las comunidades de aprendizaje automático? Si es así, ¿por qué? La tecnología cambia la vida futura

De hecho, diría que hay mucha fertilización cruzada entre la teoría del aprendizaje automático y las estadísticas . Cualquier análisis del riesgo empírico de un clasificador, por ejemplo, requiere herramientas estadísticas. Quienes estén interesados en ambas áreas, especialmente en dicho análisis teórico, terminan trabajando en la teoría del aprendizaje estadístico.

Mi opinión es que los estadísticos a menudo están interesados en demostrar que están haciendo lo correcto y que la actitud es un poco más parecida a la ciencia, mientras que el aprendizaje automático es un poco más como la ingeniería, donde el método funciona La investigación no se basa en la confirmación de la verdad fundamental desconocida. La colaboración se restringirá entre personas con diferentes objetivos, lo que demuestra la optimización estadística frente a la búsqueda de un algoritmo que funcione , a menos que decidan que quieren ambos.

También puede perderse que la colaboración se produce entre las comunidades de aprendizaje automático y procesamiento de señales, donde estas últimas desarrollan métodos estadísticos para sensores, imágenes, comunicación inalámbrica, etc. En la práctica, los estadísticos tradicionales no siempre tienen control sobre cómo muestrear y adquirir datos. , solo tienen que maximizar las conclusiones extraídas de los datos dados. Por otro lado, en el procesamiento de señales tenemos la oportunidad de adquirir datos de manera más inteligente mediante el uso de la información disponible sobre la estructura inherente de los datos, un poco más relevante también para el aprendizaje automático. Esta distinción en los objetivos es especialmente cierta cuando la contrasta con los métodos estadísticos desarrollados para las ciencias duras y las ciencias sociales donde la información previa puede no estar disponible.

Ejemplos de fertilización cruzada : el aprendizaje automático ha tomado prestados la mayoría de los métodos que suponen la escasez de datos del procesamiento de señales y las estadísticas. De hecho, los estadísticos de Stanford prácticamente fueron pioneros en los métodos basados en la escasez. Otro ejemplo está en el campo de finalización de matriz. Cuando estaba en KDD 2011, vi a algunos investigadores creando algoritmos para sistemas de clasificación y recomendación basados en ideas que los estadísticos de Stanford y Wisconsin habían desarrollado y demostrado que eran estadísticamente óptimos: que la minimización de la norma nuclear puede realizar perfectamente la finalización de la matriz, o ese gradiente estocástico el descenso se puede utilizar para completar la matriz distribuida, sin conocer los orígenes teóricos de su trabajo (ni los documentos ni las charlas citan teoría relevante). Supongo que cuando las ideas de la comunidad estadística teórica lleguen a la comunidad ML más práctica, los orígenes teóricos de la estadística no son tan conocidos o explícitamente reconocidos. Por lo tanto, puede no ser obvio para los recién llegados en el aprendizaje automático aplicado.

AcademiaAprendizaje automáticoEstadística (disciplina académica)Pregunta de existencia