Cómo estructurar sus proyectos de aprendizaje automático

¡Hola!

Mis 2 centavos:

Siempre me preocupan los problemas de reproducibilidad en mi trabajo diario de DS / ML. Sin la atención adecuada, es difícil rastrear un resultado después de 6 meses.

¡Considero que Cookiecutter Data Science es realmente completo y conciso!

Recomendaría algunas otras referencias que me encontré en los últimos meses (de ninguna manera son exhaustivas) y que creo que podrían agregar a este tema. (Algunos de ellos se centran en R, pero este problema es MUCHO más amplio que cualquier lenguaje / marco / herramienta)

Un flujo de trabajo básico reproducible → Ejemplo simple de una estructura de proyecto

Guía de reproducibilidad → Una visión más amplia / fundamental sobre el tema con MUCHAS referencias

Devolver la ciencia a la ciencia de datos → Un artículo publicado en el sitio de O’Reilly que habla sobre algunos principios / ideas a tener en cuenta.

Mejores prácticas para construir canalizaciones de datos → Otro artículo publicado en el sitio de O’Reilly; también muy interesante

Enfoque de Stripe para la ciencia de datos → La forma de Stripe de hacerlo

Lo siento si estoy siendo repetitivo, pero considero que esta pregunta es REALMENTE importante para todos los que trabajan con DS / ML. La importancia práctica de esto se debe a la necesidad de poder rastrear los resultados y las decisiones tomadas con los datos de la compañía. Además, esta es también una cuestión de transparencia y responsabilidad del trabajo que está realizando el equipo de DS / ML cuando alguien más en la empresa plantea preguntas sobre por qué se tomaron algunas decisiones o cómo el equipo de datos llegó a una conclusión de la que es posible. diferente del sentimiento de alguien.

¡Espero eso ayude! =)

El enlace que proporcionó proporciona pasos bastante buenos para estructurar proyectos de aprendizaje automático.

Lo único que agregaría es que al escribir el código en sí, es fácil dejarse llevar y agregar demasiadas líneas.

Una de las facetas más importantes del buen código es garantizar que otros lo entiendan. Por lo tanto, no tenga miedo de regresar y revisar su código para asegurarse de que sea lo más simple posible y que la tarea de cada fragmento esté claramente establecida.

¡Mucha suerte con tus proyectos de aprendizaje automático!

Hola ,

ThomasRobertFr / ml-project-structure Piense que esto ayudaría.

Si desea implementar un sistema de aprendizaje automático para su negocio.

Visítenos en Pentoz Technology – AGENCIA LÍDER DE INNOVACIÓN DIGITAL Para web, móvil, IoT y juegos

Conéctese con nosotros [correo electrónico protegido]

Hablaremos: +1 (214) 660-5586

Normalmente comienzo definiendo y entendiendo el problema. A partir de ahí, determino si un algoritmo existente es suficiente, o si es necesario modificar uno existente / crear un nuevo algoritmo. Luego pruebo con varias simulaciones, moviéndome sobre los datos reales. Se evalúa y luego se redacta con recomendaciones comerciales.

Estás más organizado que yo: solo creo una estructura de carpetas estándar data / models / src / bin y uso github para el control de versiones.

El enlace que publicó sugiere una organización mucho más lógica y buenos consejos: pegarlo aquí nuevamente Cookiecutter Data Science para cualquiera que lea esto.

Gracias por el enlace, lo siento, no tengo nada más que compartir de lo que ya sabes.

More Interesting

¿Qué paquete de aprendizaje profundo es el mejor?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Cuál es la diferencia entre el aprendizaje automático y la forma en que Kepler obtuvo las leyes de Kepler?

¿Qué se sabe sobre la detección de incertidumbre o vacilación en el texto en lenguaje natural (no en el habla)?

¿Qué pasaría si las máquinas escribieran algunas de las preguntas sobre Quora?

¿El aprendizaje automático es un comienzo de invasión de estadísticas?

¿Se puede usar un C ++ para el aprendizaje automático? Si es así, ¿qué tan bueno es en comparación con Python y R?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

Hay muchas distribuciones de probabilidad presentes en las estadísticas, ¿cómo debería uno usarlas? En general, veo personas que usan distribución gaussiana en algoritmos de aprendizaje automático.

¿Cómo es el nano grado de aprendizaje automático de Udacity en comparación con la especialización de aprendizaje automático de Coursera, cuál es mejor?

¿Cuáles son las diferencias entre el aprendizaje automático y los programas de posgrado en ciencias de datos?

¿El aprendizaje automático es un campo sobresaturado?

¿Es el aprendizaje profundo una buena herramienta para resolver problemas de lenguaje natural?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Qué es el algoritmo de descenso de gradiente?