Yo diría que independientemente de quién lo respalde, un proyecto que intenta reemplazar el conocimiento del dominio con un software estándar, no importa cuán sofisticado sea, no puede sobrevivir.
En el mejor de los casos, puede ser un conjunto de herramientas, como una navaja suiza, de la que el usuario puede elegir lo que tiene sentido. Pero R, los paquetes scikit-learn y statsmodels de python, y la biblioteca commons.math de java de Apache ya tienen estadísticas tradicionales y ML, mientras que Tensorflow de Google proporciona una plataforma increíble para redes neuronales.
La ingeniería de características, el preprocesamiento de datos tiende a involucrar bastante ingenio humano; de lo contrario, ¿por qué correr las competiciones de Kaggle?
- Si me uno a Microsoft como Científico de datos sénior y obtengo un rendimiento superior al promedio, ¿cuánto tiempo debo esperar para llegar al nivel principal?
- ¿Cuáles son las herramientas de big data?
- ¿Qué es la curva ROC?
- ¿Cuál es la mejor manera para que un gerente de producto gane competencia en ciencias de datos en su tiempo libre (es decir, no en el trabajo)?
- ¿Cómo debe establecerse el propósito de un servidor de datos?
Finalmente, la selección de herramientas depende en gran medida del dominio y no puede reducirse a un conjunto de reglas.
Esa es mi opinión personal de proyectos tan ambiciosos, aunque he escrito, y estoy escribiendo, bastante código de selección automática de herramientas para el análisis, modelado y pronóstico de todo tipo de datos.