¿Qué herramientas hay para automatizar la ciencia de datos?

Algunos algoritmos de aprendizaje automático son esencialmente “cajas negras”. Pueden dar excelentes resultados, pero es difícil entender exactamente por qué hacen las predicciones que hacen. Es difícil razonar sobre los fenómenos del mundo real basados en el modelo. Otros algoritmos producen modelos que son más fáciles de entender y razonar.

A partir de su descripción (“cuáles son las características únicas que diferencian entre grupos”) parece que quiere ese segundo tipo de algoritmo.

Ejemplos de algoritmos que producen modelos que son fáciles de interpretar:

ordinariamente regresión de mínimos cuadrados
árboles de partición
árboles de regresión
clasificadores bayesianos ingenuos

Construye el modelo y luego observa qué variables tienen la mayor fuerza en el modelo y cuáles se ignoran.

Hay muchas herramientas de código abierto que implementan estos algoritmos, R, Weka, incluso el scikit-learn que diste como anti-ejemplo.

Así que supongo que estoy presionando un poco en contra de su afirmación de que no desea el aprendizaje automático predictivo. Creo que desea un algoritmo de aprendizaje supervisado, pero que produzca modelos que den una idea del fenómeno subyacente, no solo una “caja negra”.

Análisis deAnálisis de Big DataBig DataCiencia de datosdatosMinería demodelado predictivo

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Cuáles son algunas formas creativas en que las empresas utilizan científicos de datos y aprendizaje automático?

¿Existe alguna herramienta de inteligencia empresarial que aproveche algoritmos como "Edgerank" para controlar qué informes se muestran?

En este mundo de análisis de datos de autoservicio, ¿cuál es el papel del profesional de datos de TI?

¿Qué es el munging de datos? ¿Cómo se puede usar en una oración? ¿Hay algunos sinónimos? ¿De dónde viene la frase?

¿Qué es más cierto, que la informática te ayuda a comprender mejor la filosofía, o que la filosofía te ayuda a comprender mejor la informática?

Estoy de acuerdo con Rob Weir en que una “herramienta de predicción” puede ser su mejor opción en este caso. La razón clave es que en el ejemplo que dio hay una etiqueta {Saludable, Enferma}. Si no hubiera etiquetas involucradas, algún tipo de “herramienta de no predicción” como la agrupación sería una buena opción.

Mi interpretación de lo que está pidiendo es que está tratando de encontrar “puntos calientes [o fríos]” en los datos (subconjuntos descriptivos de su espacio de características que contienen proporciones relativamente altas o bajas de personas sanas).

Los árboles Single CART son buenos para esto (DecisionTreeClassifer / Regressor
en scikit aprender o rpart en R). Los nodos terminales de los árboles serán los puntos de acceso que está buscando. Serán realmente simples de interpretar, pero hay otras técnicas que pueden encontrar puntos calientes “más calientes” (Rulefit o PRIM por ejemplo). Si los nodos terminales resultan en subconjuntos que son demasiado pequeños para ser interesantes, pode el árbol nuevamente para obtener nodos terminales más grandes (de soporte).

Espero que esto ayude.

Jeremy Achin

Creo que puede intentar construir un modelo predictivo y luego tratar de obtener características importantes, para que sepa qué características son importantes para que su modelo tome una decisión. Creo que debería intentar construir un modelo lo más preciso posible, por supuesto, puede ser complejo, pero muchos algoritmos complejos y precisos tienen una importancia incorporada, por ejemplo: Random Forest, xgboost o LightGBM (estos son mucho más complejos que una sola decisión árbol pero también muy preciso). Y lo que es más, puede haber una situación en la que no hay una sola característica que decida sobre la enfermedad, sino una combinación de un conjunto de características.

Puedes probar mljar para hacer esto. Simplemente cargue el conjunto de datos y mljar creará modelos para usted, que puede interpretar más tarde mediante análisis de características.

Jeremy Achin

El paquete de software DataPlay tiene ventajas clave de este sistema de software basado en la nube para administrar y analizar datos de investigación y automatizar el proceso de creación de presentaciones.

Con la ayuda de DataPlay, los investigadores tienen la oportunidad de analizar datos correctamente, colaborar de manera efectiva, hacer presentaciones visualmente ricas y presentarlas.

Con la implementación de DataPlay, los investigadores reducirán drásticamente el tiempo dedicado al análisis de datos de investigación y al proceso de visualización, y podrán comenzar las actividades analíticas y de informes mientras el trabajo de campo aún está en progreso. Nuestros usuarios informan una reducción del 50% -80% del tiempo dedicado a la visualización y al trabajo manual y repetitivo una vez que cambian a DataPlay.

Puede solicitar una demostración aquí: Conozca las herramientas de análisis, visualización y presentación de DataPlay

Jeremy Achin

More Interesting

¿Existe alguna diferencia entre un científico de datos y el perfil ofrecido por Mu Sigma-Trainee Decision Scientist?

¿El aumento de Big Data obstaculizará el progreso de la investigación matemática?

¿Cómo funciona la pestaña Instagram Explore?

Soy un desarrollador de mainframe con 4 años de experiencia, aspirando a ser un científico de datos. ¿Donde debería empezar?

¿Cómo comenzaría la optimización de negocios utilizando análisis de datos y aprendizaje automático?

¿Cuáles son las principales aplicaciones (de la vida real) de la minería de datos y la ciencia de datos utilizadas en el mundo práctico de hoy?

¿Dónde puedo buscar datos sobre la participación deportiva de la gente común en los Estados Unidos?

¿Qué libro es mejor para principiantes para comenzar a aprender ciencia de datos, Python para Data Science for Dummies o Data Science from Scratch?

¿Qué clases debo tomar en Duke si quiero ser un científico de datos?