¿Cuáles son las mejores plataformas de ciencia de datos?

Esta es una buena pregunta. La ciencia de datos tiene un flujo de trabajo fundamentalmente diferente principalmente porque hay un montón de exploración involucrada. Esta exploración está por encima de la depuración habitual, la limpieza de datos, etc. Debido a esto, soy escéptico de la mayoría de las plataformas.

Principalmente uso Python y Jupyter, y escribo mucho código de algoritmo personalizado. En el pasado, he usado AWS cada vez que necesitaba más potencia. Eso funcionó pero fue complicado de configurar y mantener. En los últimos 18 meses, más o menos, pasé a utilizar Domino Data Lab y me he sentido muy feliz.

Cosas que me gustan de Domino:

  • Domino admite el flujo de trabajo que ya uso. Puedo seguir con mis comandos de Python normales para la depuración local, etc. y con un comando adicional iniciar los mismos scripts en su plataforma en la nube. Tomó un poco de configuración llegar a este punto, pero fueron muy útiles trabajando conmigo a través de los problemas.
  • Domino es como “git para la experimentación”, donde cada experimento es su propia rama. Realiza un seguimiento de todos los experimentos anteriores, incluidos todos los resultados y, lo que es más importante, la fuente exacta y los parámetros que se utilizaron para ejecutarlo. Puede simplemente volver a ejecutar, reiniciar o crear diferencias utilizando esa “rama”. Esto es increíble. Más de una vez, esto me ha ahorrado un dolor de cabeza significativo al comprender lo que está sucediendo o al reproducir experimentos pasados. También puedes compartir todo esto con tu equipo.
  • Puedo escalar fácilmente mis experimentos para ejecutarlos en máquinas mucho más grandes a través de un interruptor de línea de comando. Esto está muy bien.
  • Le permite seguir todas las herramientas a las que está acostumbrado, como todos los paquetes de Python, Jupyter, cualquier herramienta de línea de comandos, etc. En nuestro caso, tenemos un montón de paquetes personalizados de Python + C ++ que podemos usar fácilmente. Creo que también admiten otras herramientas, como R, Matlab, etc., pero no las uso.

Una cosa que no me gusta de Domino es que necesitas saber Docker para configurar cualquier cosa que no sea estándar. No conozco a Docker (y tampoco creo que la mayoría de los científicos de datos lo sepan), pero por el lado positivo, su servicio es realmente excelente. Nos llevaron a través de cualquier torcedura y confusión. Esto es algo a tener en cuenta. Como de costumbre, su kilometraje puede variar.

La plataforma de ciencia de datos es un marco donde la ciencia de datos funciona como la integración y exploración de datos. La plataforma de ciencia de datos debe ser tal que ayude a los científicos de datos a encontrar y comprender trabajos previos sin comenzar desde el principio. Debería poder inculcar nuevas herramientas y tecnologías sin estropear el trabajo anterior.

Las siguientes son las mejores plataformas de ciencia de datos:

Microsoft: Microsoft proporciona la plataforma Azure Machine Learning que ofrece una plataforma de ciencia de datos basada en la nube. Proporciona información sobre cómo realizar tareas de ciencia de datos como la transformación de datos y la gestión de datos. Si los científicos desean trabajar en el lenguaje de programación R, entonces Microsoft ofrece Microsoft R para científicos de datos.

Laboratorio de datos de Domino: Domino es una plataforma abierta que permite a los científicos de datos elegir cualquier idioma y paquete que deseen utilizar. Se centra en la colaboración y admite una amplia gama de tecnologías de código abierto. Su Data Science Workbench proporciona iteración y experimentación más rápidas.

Cloudera Data Science Workbench: permite un autoservicio de ciencia de datos rápido, seguro y fácil para las empresas. Es seguro, con soporte para autenticación, autorización, cifrado y gobierno de Hadoop, y los científicos de datos pueden acceder fácilmente a los datos de Hadoop y ejecutar consultas de Spark en un entorno seguro y les permite administrar sus propios canales de análisis. Acelera el proceso de datos desde la exploración hasta la producción usando Python, R y Apache Spark.

Una buena plataforma de ciencia de datos ofrece flexibilidad de herramientas de código abierto y escalabilidad de recursos. La plataforma de ciencia de datos requiere una inversión significativa y para obtener más información sobre cómo elegir la mejor plataforma de ciencia de datos, comuníquese con FuGenX. FuGenX Technologies es una compañía global de ciencia de datos en Delhi , Mumbai y Hyderabad, India, que ofrece servicios de ciencia de datos de clase mundial.

Gran pregunta Como han señalado muchas otras respuestas en este hilo, Domino Data Lab es probablemente la plataforma de ciencia de datos “ir a”: puede leer esas respuestas para obtener más información sobre esa solución. De manera más abstracta, si considera que AWS es una plataforma de ingeniería de datos , es probable que sea la más utilizada en términos de usuarios individuales.

Vale la pena señalar que algunas empresas optan por construir sus propias plataformas internas de ciencia de datos. Por ejemplo, lee más sobre la plataforma de aprendizaje automático de Uber Michelangelo en el blog de ingeniería de la compañía.

Más comúnmente que el aprendizaje automático, he oído hablar de empresas que crean su propio marco de pruebas AB , por ejemplo, vea esta publicación de blog de Airbnb de 2014.

Existe un conjunto completo de soluciones de plataforma para resolver el problema de análisis de datos y análisis . Tableau, junto con Looker y Chartio, son probablemente las soluciones empresariales más conocidas para la inteligencia empresarial, y la mejor solución de código abierto es probablemente Superset.

En otras palabras, encontrar la “mejor” plataforma de ciencia de datos depende de qué parte del flujo de trabajo de ciencia de datos está tratando de racionalizar.

En el entorno de producción, a menudo los conjuntos de datos son incompletos e impuros. En tal situación, la mayor parte de la ciencia de datos es el análisis de datos, ETL y validación. No soy un ingeniero de datos, pero veo personas que utilizan una gama de herramientas que incluyen pandas, R Studio, Jupyter. En esta fase de la ciencia de datos, las herramientas y bases de datos de big data también ayudan. También he visto personas que usan herramientas de línea de comandos estándar para el procesamiento de datos, como se explica en Data Science en la línea de comandos.

La segunda etapa es donde sus soldados (datos) ya están en el rango y archivo, scikit-learn, xboost, anaconda, tensorflow, etc. entran en escena. Anaconda entre ellos es más un paquete de conveniencia ya que estas herramientas no se pueden implementar fácilmente en Windows.

La tercera etapa es la validación, donde scikit-learn y R incluyen un conjunto robusto de herramientas de validación. Las herramientas de validación son poco escasas y, a veces, debe escribir las suyas propias, en cuyo caso la minería de datos: herramientas y técnicas prácticas de aprendizaje automático podría ayudar.

Ahora en la etapa final de implementación, terminamos conectando el modelo a un microservicio o se convierte en parte de la tubería de Spark. Este es un campo de ingeniería ampliamente documentado con muchas referencias disponibles.

He estado usando Domino Data Lab durante varios años y para las necesidades de mi grupo (lo he usado en mi compañía actual y anterior).

También probé con otros competidores en el espacio, pero ninguno de ellos tenía la flexibilidad que necesitaba para mi equipo y los casos de uso que tenemos.

Las características principales que realmente me gustan de Domino:

– Soporte para Python, R, Matlab

Trabajo con un grupo muy diverso de científicos de datos e ingenieros de datos, así como con varios expertos en datos y expertos en dominó informático.

La posibilidad de tener una plataforma que soporte la mayoría de los idiomas que usamos es clave.

– Soporte para portátiles

Para el intercambio de conocimientos y la capacitación, los cuadernos son la herramienta principal que utilizamos. Domino lo soporta muy bien y esa es una de las ventajas.

– Capacidad de ejecutarse en VPC / on premise.

Por supuesto, depende del nivel de seguridad que necesita, pero esta característica ha sido muy importante para los requisitos que tenía

– Soporte estelar

Soporte súper receptivo y bien informado.

Algo que podría ser mejor en mi opinión es la integración con sistemas externos (como clústeres de Hadoop y otros repositorios de datos)

En BMW Group, experimentamos la ciencia de datos como un proceso que se extiende a través de una variedad de tecnologías e involucra a diferentes partes interesadas en los departamentos de negocios y TI. Como parte de nuestro viaje, establecimos, junto a nuestra plataforma central basada en Hadoop y Kafka, un conjunto de herramientas de ciencia de datos que se basan principalmente en microservicios, entornos de portátiles Dockerized y componentes de código abierto que incluyen, entre otros, Jupyter / Zeppelin / RStudio, Superset y Airflow.

En el procesamiento y modelado de datos, la reproducibilidad y el intercambio de conocimientos es un componente por excelencia; En los últimos años, hemos visto una gran cantidad de plataformas de ciencia de datos (con diversos grados de madurez) que echan raíces en empresas como Domino Data Lab. Estas plataformas le brindan la capacidad de escalar sus flujos de trabajo y configuraciones a científicos de datos que tienen menos fondos de tecnologías como Docker und Kubernetes y les permite desarrollar e implementar fácilmente modelos de ML a escala.

Como nota al margen: cualquier herramienta que introduzca dependerá en gran medida de la flexibilidad (por ejemplo, la ampliación de entornos basados ​​en Dockerfiles personalizados). Descubrimos que Domino Data Lab se integra bien en escenarios híbridos y acelera la orquestación de trabajos y aplicaciones basadas en web en entornos físicamente separados.

Dirijo un equipo de ciencia de datos en un banco comunitario con sede en Carolina del Norte que presta servicios a pequeñas empresas. Estábamos buscando una plataforma basada en la nube que pudiera ser utilizada por los usuarios de R y Python en el equipo y que también nos permitiera implementar fácilmente modelos predictivos. Elegimos Domino Data Lab sobre varias otras plataformas. El soporte en Domino es excelente. Realmente nos ayudaron a comenzar cuando nuestro equipo estaba en su infancia y siempre han hecho un esfuerzo adicional cada vez que tenemos preguntas.

9 de las mejores plataformas de ciencia de datos

Plataformas de ciencia de datos de Gartner: una mirada más profunda

¡¡¡Espero eso ayude!!!