¿Cuál es el significado de IBM Data Science Experience?

IBM Data Science Experience (DSX) es un nuevo producto, que IBM está posicionando como una plataforma de desarrollo y capacitación de Data Science de nueva generación. Sin embargo, tiene el objetivo de ser más que un servicio típico de “portátiles en la nube”, ya que combina herramientas de código abierto (Jupyter, RStudio y Spark), valor agregado de IBM y funcionalidad de colaboración y uso compartido.

Existe una funcionalidad para aprovisionar directamente los nuevos servicios de back-end Spark de DSX. También hay una opción para adjuntar un Almacén de objetos a la instancia de Spark, que proporciona 5 GB de espacio de almacenamiento libre y debería ser suficiente para el tipo de tareas de análisis de datos / exploración de datos rápidos.

Dicho esto, DSX no se limita a extraer datos de la nube de IBM únicamente. Puede crear conexiones a servicios populares como S3, Azure, Oracle, Greenplum, Sybase, bases de datos MySQL, Hadoop (Hive, Impala) y muchos más.

Crear cuadernos es bastante sencillo: puede crear uno desde cero, cargar un archivo desde su máquina local o extraer un cuaderno existente de una URL.

Otro buen detalle es que cada computadora portátil tiene un enlace que lo lleva al servidor de historial de Spark de la instancia de Spark asociada. Esto es útil si desea echar un vistazo rápido al almacenamiento y las etapas de su carga de trabajo, mientras sigue trabajando en su código fuente.

También hay una sección para compartir, que le permite compartir su computadora portátil con otras personas. Sin embargo, el mecanismo para compartir no es muy sofisticado: solo genera un enlace permanente único que puede transmitir.

DSX tiene tres paneles principales / perspectivas: ciencia de datos, centro de datos e intercambio.

El área de Ciencia de datos es donde crea y trabaja con sus cuadernos. Aquí también puede acceder a varios artículos, tutoriales y cuadernos relacionados con la ciencia de datos.

Data Hub es el área donde crea y trabaja con proyectos. Los proyectos son una característica clave de DSX, que permite a las personas trabajar juntas en un conjunto dedicado de activos. Puede crear / asignar conexiones, cuadernos y almacenamiento a un proyecto y luego compartir estos recursos con un grupo de colaboradores. Puede asignar roles a cada colaborador y el rol gobierna qué tipo de acceso al proyecto obtiene cada individuo (espectador, editor, etc.)

Habiendo dicho eso, tener la capacidad de colaborar con mis colegas en computadoras portátiles compartidas es excelente, pero también me gustaría ver algún tipo de integración de control de fuente. Si varias personas están cambiando los mismos cuadernos, me gustaría poder tener diferentes versiones y la funcionalidad de cambios de diferencia / vista previa.

También es interesante notar que a veces los proyectos se crean automáticamente como resultado de sus acciones. Por ejemplo, cuando un programa como Watson Analytics guarda un conjunto de datos en el lago de datos de IBM, DSX recogerá automáticamente este evento y creará un proyecto con un enlace al conjunto de datos asignado.

En Exchange , obtiene acceso a conjuntos de datos, cuadernos y libros de cuentos (Watson Analytics) compartidos por otras personas. Puede explorar un catálogo de conjuntos de datos disponibles gratuitamente (clasificados por industria), seleccionar un conjunto de datos y generar una clave de acceso para su computadora portátil con solo presionar un botón.

Tenga en cuenta que trabajo para IBM como líder de big data. No dude en enviarme una nota en [correo electrónico protegido] para obtener más detalles.

IBM Data Science Experience permite a los científicos de datos colaborar a través de proyectos, a los que pueden agregar portátiles, datos, conexiones de datos y otros usuarios con los que desean colaborar. En los cuadernos Jupyter pueden usar Python, R o Scala, cuando sea necesario con Apache Spark, para analizar datos de diversas fuentes de datos y conjuntos de datos, y pueden compartir el resultado con las partes interesadas o el público a través de URL o exportando el archivo .ipynb de Notebook. y publicarlo en GitHub. Además, RStudio está incluido. Lo anterior se proporciona como un servicio gestionado, que proporciona cómputo y almacenamiento, que los científicos de datos pueden suscribirse y comenzar a usar directamente a través del sitio web de IBM Data Science Experience. Para ayudar a los usuarios a comenzar rápidamente, Data Science Experience proporciona cuadernos y conjuntos de datos de muestra, así como artículos y tutoriales.

Su valor inmediato (y digamos que la “capacidad de trabajar con conjuntos de datos seleccionados” que el usuario no creó y probablemente no querrá) es cuestionable. Pero el valor a largo plazo (después de algunas pruebas beta, etc.) podría ser algo significativo.

Esencialmente, lo que creo que proporciona es la capacidad de encontrar rápidamente relaciones útiles en conjuntos de datos, a escala , probablemente en tiempo real.

Watson Analytics proporcionó algo como esto, pero dudo mucho que fuera a escala o en tiempo real, y creo que eso es más un precursor de esto.

Una gran parte del beneficio (como con Watson Analytics) es tener relaciones y conclusiones exploradas automáticamente y direcciones sugeridas para usted. Esto reduce en gran medida el tiempo necesario para encontrar y examinar relaciones y conexiones útiles.

También creo que el pensamiento detrás de esto es algo nuevo; invitando a la gente a simplemente jugar con datos y ver si aparece algo útil. De hecho, prácticamente suponiendo que algo lo hará. Esa es una forma novedosa de abordar los grandes datos y proporciona una buena (o lo que podría convertirse en una buena) plataforma para hacerlo.

Es la idea de que lo desconocido es probablemente útil y, por lo tanto, proporciona herramientas poderosas para explorarlo de manera eficiente.

Queda por ver si esta (apuesta) se resolverá, pero sospecho que lo hará.

En realidad, puede usar casi cualquier almacenamiento de objetos, ya que admite OpenStack Swift. Puede probar con OpenStack Swift AIO.

Otros “cuadernos basados ​​en la nube” son simplemente una alternativa a la implementación de servidor local o servidor. Es fácil para la colaboración en Github y aprovechar esa plataforma con la forma de colaborar. Nada depende del localhost.