IBM Data Science Experience (DSX) es un nuevo producto, que IBM está posicionando como una plataforma de desarrollo y capacitación de Data Science de nueva generación. Sin embargo, tiene el objetivo de ser más que un servicio típico de “portátiles en la nube”, ya que combina herramientas de código abierto (Jupyter, RStudio y Spark), valor agregado de IBM y funcionalidad de colaboración y uso compartido.
Existe una funcionalidad para aprovisionar directamente los nuevos servicios de back-end Spark de DSX. También hay una opción para adjuntar un Almacén de objetos a la instancia de Spark, que proporciona 5 GB de espacio de almacenamiento libre y debería ser suficiente para el tipo de tareas de análisis de datos / exploración de datos rápidos.
Dicho esto, DSX no se limita a extraer datos de la nube de IBM únicamente. Puede crear conexiones a servicios populares como S3, Azure, Oracle, Greenplum, Sybase, bases de datos MySQL, Hadoop (Hive, Impala) y muchos más.
- Aprendizaje profundo: ¿Cuándo aplicamos la eliminación de ruido en el codificador automático de eliminación de ruido?
- Cómo comenzar con un proyecto relacionado con big data
- Estoy investigando Harvard CS 109. ¿Cuánto tiempo de compromiso semanal necesitaré? ¿Hay alguna forma de reducir eso mediante una preparación previa?
- ¿Qué piensa la comunidad de Data Science sobre la discriminación contra aquellos sin doctorado de recursos humanos sin educación?
- ¿Es realmente necesario saber la codificación Java para Big Data? ¿Es posible aprender Big Data sin conocimiento de Java?
Crear cuadernos es bastante sencillo: puede crear uno desde cero, cargar un archivo desde su máquina local o extraer un cuaderno existente de una URL.
Otro buen detalle es que cada computadora portátil tiene un enlace que lo lleva al servidor de historial de Spark de la instancia de Spark asociada. Esto es útil si desea echar un vistazo rápido al almacenamiento y las etapas de su carga de trabajo, mientras sigue trabajando en su código fuente.
También hay una sección para compartir, que le permite compartir su computadora portátil con otras personas. Sin embargo, el mecanismo para compartir no es muy sofisticado: solo genera un enlace permanente único que puede transmitir.
DSX tiene tres paneles principales / perspectivas: ciencia de datos, centro de datos e intercambio.
El área de Ciencia de datos es donde crea y trabaja con sus cuadernos. Aquí también puede acceder a varios artículos, tutoriales y cuadernos relacionados con la ciencia de datos.
Data Hub es el área donde crea y trabaja con proyectos. Los proyectos son una característica clave de DSX, que permite a las personas trabajar juntas en un conjunto dedicado de activos. Puede crear / asignar conexiones, cuadernos y almacenamiento a un proyecto y luego compartir estos recursos con un grupo de colaboradores. Puede asignar roles a cada colaborador y el rol gobierna qué tipo de acceso al proyecto obtiene cada individuo (espectador, editor, etc.)
Habiendo dicho eso, tener la capacidad de colaborar con mis colegas en computadoras portátiles compartidas es excelente, pero también me gustaría ver algún tipo de integración de control de fuente. Si varias personas están cambiando los mismos cuadernos, me gustaría poder tener diferentes versiones y la funcionalidad de cambios de diferencia / vista previa.
También es interesante notar que a veces los proyectos se crean automáticamente como resultado de sus acciones. Por ejemplo, cuando un programa como Watson Analytics guarda un conjunto de datos en el lago de datos de IBM, DSX recogerá automáticamente este evento y creará un proyecto con un enlace al conjunto de datos asignado.
En Exchange , obtiene acceso a conjuntos de datos, cuadernos y libros de cuentos (Watson Analytics) compartidos por otras personas. Puede explorar un catálogo de conjuntos de datos disponibles gratuitamente (clasificados por industria), seleccionar un conjunto de datos y generar una clave de acceso para su computadora portátil con solo presionar un botón.
Tenga en cuenta que trabajo para IBM como líder de big data. No dude en enviarme una nota en [correo electrónico protegido] para obtener más detalles.