¿Cuán verdadera es la frase ‘95% de los sofisticados algoritmos de ‘aprendizaje automático’ son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo ‘?

Esta es una pregunta interesante y creo que hay algo de verdad en ello.
Data Science es una nueva disciplina, todavía en una fase de cambio continuo y remodelación. Como tal, algunos podrían pensar en informes y BI y llamarlo Data Science. Otros solo pueden referirse a él como la crema de la crema de la investigación cuantitativa y la analítica aplicada.
Independientemente de dónde desee trazar la línea, es evidente que termina con el aprendizaje automático aplicado utilizado por todo tipo de personas con una comprensión muy diferente de la amplitud y profundidad de los algoritmos de ML.
Agregue a eso que hay un fuerte movimiento en apoyo de la democratización de ML, con herramientas como SAS Enterprise Miner, ML Studio, Data Robot, H2O.ai que permiten la implementación sencilla de algoritmos muy sofisticados.
Como participante y ganador de Kaggle, me he beneficiado muchísimo de poder experimentar con algoritmos complejos, esencialmente solo importando un paquete, ajustando un modelo y haciendo predicciones, y lo he hecho muy bien sin necesidad de comprender las matemáticas detrás del algoritmo. En mi caso, la curiosidad más que la necesidad me llevó a leer y aprender más sobre las matemáticas, pero no creo que para el tipo de problemas de LD aplicados que resuelvo hubiera necesitado algo más que una comprensión superficial de muchos aspectos técnicos de los algoritmos de ML.
Creo que es mucho más importante contar con las habilidades que le permitan comprender, manipular los datos y probar hipótesis rápidamente, hacer la validación cruzada correctamente, usar la métrica correcta para evaluar el rendimiento del modelo y, sobre todo, crear un producto que haga un negocio diferencia. Y eso requiere mucha más experiencia que simplemente ejecutar un modelo ML.
Al final, las diferentes necesidades comerciales requerirán diferentes niveles de habilidades en ML. Hoy en día, muchos problemas pueden abordarse con una comprensión limitada de los algoritmos por parte de personas que generalmente hablan sobre analítica. Otra tarea solo requiere una comprensión profunda de los entresijos de los algoritmos. Todos estos tonos de gris tienen un alcance. Solo encuentra tu nicho y sigue tu pasión.

No sé qué significa el número “95%”. Si nuestro espacio muestral es “algoritmos de ‘aprendizaje automático’ sofisticados”, entonces tendría que estar en desacuerdo porque creo que todos esos algoritmos fueron diseñados por personas que realmente sabían lo que estaban haciendo.

Creo que una gran proporción de la “ciencia de datos” es un trabajo superficial en el que complacer al negocio es más importante que obtener la respuesta correcta, y en el que la mayoría de la gente simplemente está ejecutando un paquete de regresión logística estándar y algunos sonidos derivados más sexy de lo que realmente es (“¡expansión de base y un clasificador de máxima probabilidad!”) El mundo está inundado de científicos de datos falsos que pasan más tiempo engrapando los activos existentes que haciendo trabajos fundamentales, trabajos de ciencia de datos falsos donde no se espera nada más y no se da tiempo para hacer las cosas correctamente, y las nuevas empresas de ciencia de datos falsas que afirman estar haciendo más aprendizaje automático de lo que realmente son. ¿Es la proporción 95%? No tengo el tamaño de muestra que me permita dar un número preciso como ese. Es más de la mitad y probablemente más de las tres cuartas partes. Tendría que haber visto mucho más antes de poder hacer una estimación más segura o precisa.

El problema es que la mayoría de las empresas escuchan al “científico de datos” y piensan en “analista de datos” y lo han convertido en un trabajo de línea de negocio en lugar del trabajo de I + D que estaba destinado a ser cuando el término se acuñó originalmente. Por lo tanto, tiene muchos lugares (especialmente en el Área de la Bahía) donde se espera poco y la carismática charlatanería puede venderse muy bien.

Como con todas las cosas, el contexto es clave. Ese comentario fue un comentario sobre un comentario sobre una respuesta a una pregunta. Entonces, diría que la frase es 80% verdadera.

Pregunta> Respuesta> Comentario> Comentario sobre Reddit. La opinión de MJ es mejor que la mía.