La democratización es algo bueno en general porque reduce la cantidad de trabajo realizado por profesionales en el área.
Sin embargo, en el contexto de su pregunta, es decir, usuarios no expertos, lo encuentro potencialmente peligroso. Tres razones para esto:
- Los usuarios de negocios, incluso los que están muy bien informados, tienen dificultades con la incertidumbre. Un ejemplo simple: después de ejecutar una prueba A / B donde el grupo de prueba mostró un aumento leve pero significativo en los ingresos por usuario, alguien me pregunta “¿cuál es la probabilidad de que no veamos el aumento en los ingresos si exponemos a la población a la prueba? ? “Hago mis cálculos y respondo” Hay 1% de probabilidad “. Luego exponemos a la población y los ingresos no aumentan. ¿Qué crees que piensa el usuario de negocios? Para la mayoría de las personas, 1% de probabilidad significa literalmente “es imposible que suceda”. Hay tantas cosas relacionadas con la probabilidad en el aprendizaje automático que creo que sería extremadamente difícil construir un modelo de producción para los no expertos.
- El verdadero poder del aprendizaje automático no está en los algoritmos. El verdadero poder del aprendizaje automático es la ingeniería de características. No he visto que la ingeniería de características sea más fácil desde que empecé. Nunca conocí a un no experto que dijera las palabras “ingeniería de características”. Con suerte, algunos modelos estarán “bien” sin ingeniería de características, pero la mayoría no lo hará. Cuando los modelos no se generalizan, ¿qué hará un no experto? Porque la mayoría de ellos no se generalizará.
- La mayoría de los usuarios comerciales que conozco no pueden manejar un conjunto de datos con 1 millón de filas. Los modelos en los que he estado trabajando en las últimas semanas tienen 8, 19 y 29 millones de filas. Todos ellos tuvieron que ser limpiados, explorados, unidos, divididos. No sé si soy promedio o no comparado con el resto de la comunidad de ciencia de datos y aprendizaje automático, pero mi intuición es que mis conjuntos de datos son realmente pequeños. ¿Cómo lo ordenarán los no expertos? ¿Eliminar datos (suponiendo que sepan muestrear) a costa de perder la señal?
Estas tres razones se traducen en una serie de problemas en lo que respecta a la calidad de los modelos finales. Más algoritmos y más fácilmente disponibles es algo bueno, pero en este momento tengo fuertes reservas con respecto a su uso por parte de no expertos.
- ¿Qué algoritmo es usado por la función Java () de la búsqueda de subcadenas?
- ¿Cómo se debe decidir sobre un clasificador / algoritmo óptimo para usar en un conjunto de datos en particular?
- ¿Qué es la clasificación estable?
- ¿Cuál es la idea central detrás de los algoritmos genéticos?
- ¿Cómo podemos encontrar de manera óptima la suma máxima de números de dos conjuntos (de números) que sea menor que un valor fijo, digamos N?
El futuro será diferente con seguridad y no puedo ver exactamente cómo, pero estoy muy entusiasmado con la perspectiva de ello. Pero el uso técnico de estos algoritmos por parte de no expertos, lo dudo. Es lo mismo que decir que cualquier conductor puede reparar un motor. O que cualquiera que coma es un chef.