¿Se requiere que una persona que realiza análisis de datos / ciencia de datos / aprendizaje automático tenga un buen conocimiento de las estructuras de datos? ¿Si es así por qué?

Big Data se refiere a todos los datos que se generan en todo el mundo a una velocidad sin precedentes. Estos datos pueden ser estructurados o no estructurados. Las empresas comerciales de hoy deben una gran parte de su éxito a una economía que está firmemente orientada al conocimiento. Los datos impulsan a las organizaciones modernas del mundo y, por lo tanto, dar sentido a estos datos y desentrañar los diversos patrones y revelar conexiones invisibles dentro del vasto mar de datos se vuelve crítico y un esfuerzo enormemente gratificante. Mejores datos conducen a una mejor toma de decisiones y una mejor forma de crear estrategias para las organizaciones, independientemente de su tamaño, geografía, participación de mercado, segmentación de clientes y otras categorizaciones. Las empresas más exitosas del mañana serán las que puedan dar sentido a todos esos datos a volúmenes y velocidades extremadamente altas para capturar mercados y bases de clientes más nuevos.

Big Data tiene ciertas características y, por lo tanto, se define utilizando 4V, a saber:

Volumen: la cantidad de datos que las empresas pueden recopilar es realmente enorme y, por lo tanto, el volumen de datos se convierte en un factor crítico en el análisis de Big Data.

Velocidad: la velocidad a la que se generan nuevos datos, todo gracias a nuestra dependencia de Internet, los sensores y los datos de máquina a máquina también es importante para analizar Big Data de manera oportuna.

Variedad: los datos que se generan son completamente heterogéneos en el sentido de que podrían estar en varios formatos como video, texto, base de datos, datos numéricos, sensores, etc., y por lo tanto, comprender el tipo de Big Data es un factor clave para desbloquear su valor.

Veracidad: saber si los datos disponibles provienen de una fuente confiable es de suma importancia antes de descifrar e implementar Big Data para las necesidades comerciales.

Aquí hay una breve explicación de cómo exactamente las empresas están utilizando Big Data:

Una vez que Big Data se convierte en pepitas de información, se vuelve bastante sencillo para la mayoría de las empresas comerciales en el sentido de que ahora saben lo que quieren sus clientes, cuáles son los productos que se mueven rápidamente, cuáles son las expectativas de los usuarios del cliente servicio, cómo acelerar el tiempo de comercialización, formas de reducir costos y métodos para construir economías de escala de una manera altamente eficiente. Por lo tanto, Big Data conduce claramente a grandes beneficios para las organizaciones y, por lo tanto, naturalmente, existe un gran interés en todo el mundo.

Depende de qué problema estés buscando resolver.

Si usted es un analista / científico de datos y busca poner en funcionamiento un modelo predictivo, solo necesita un conjunto de datos y un algoritmo Ml a mano para resolver su problema.

Si tiene tiempo libre y busca escribir un paquete de aprendizaje automático que tenga uno o varios algoritmos implementados, entonces el conocimiento de las estructuras de datos es útil.

En general, puede usar paquetes preexistentes como una herramienta para resolver sus problemas analíticos y no se requiere conocimiento de DS como tal.

Espero eso ayude .

Espero que sea realmente necesario, especialmente para el aprendizaje automático y el análisis. Básicamente, yo también tenía la opinión de que las estructuras de datos pueden no ser esenciales. Pero la parte más difícil de la que me di cuenta gradualmente fue que cada sujeto usa la estructura de datos y la base de datos internamente. Por ejemplo, considere que está analizando los datos relacionados con un sitio de red social, por ejemplo, libro de cara, para lo cual necesita conocer los datos con los que está tratando, el diseño de la base de datos, es decir, el tipo de datos de los campos, el formato en el que Se utiliza, la estructura a utilizar para el almacenamiento y la recuperación eficiente. Puedo dar un ejemplo más; considere que se crea un software de predicción y que podría usar internamente muchos algoritmos, por lo que para la comparación de los algoritmos y conocer su rendimiento (complejidad) es preferible tener un conocimiento básico sobre la estructura de datos. La estructura de datos forma el pilar para múltiples campos.

No es obligatorio, sin embargo, limita su capacidad para implementar soluciones en la vida real.