¿Qué campo es el mejor, big data o machine learning?

Quizás esta pregunta podría reformularse mejor. La pregunta, en su estado actual, parece sugerir que big data y machine learning son dos carreras paralelas, lo cual no es del todo correcto.

En el verdadero sentido, se puede decir que BigData es en realidad un ecosistema de algún tipo. Una visión bastante conservadora del dominio abarca herramientas y marcos para la recopilación y transmisión ( telemetría ), así como el almacenamiento en formatos accesibles, de una gran cantidad de datos de rápido movimiento de diversas fuentes, como datos de sensores IoT [1] y sociales datos de medios [2] por ejemplo. También implica el preprocesamiento, modelado, análisis y visualización ( análisis ) oportunos de estos datos para que tengan sentido. El dominio involucra a muchos profesionales dependiendo de la industria en cuestión.

Una función típica para los aspectos de telemetría y almacenamiento es un ingeniero de datos o ingeniero de BigData, generalmente ocupado por una persona con antecedentes técnicos / de programación / sistemas. Es su responsabilidad garantizar una telemetría y un almacenamiento eficientes para que la fase de análisis sea lo más fácil posible.

Los roles en el aspecto analítico incluyen analistas de datos, analistas de negocios, científicos de datos, ingenieros de aprendizaje automático, científicos de aprendizaje automático dependiendo de las designaciones en la industria o empresa respectiva. Los profesionales en estos roles suelen tener experiencia estadística / matemática / informática. Son responsables de desarrollar o aplicar una variedad de aprendizaje automático, análisis estadístico y otras técnicas de IA en el proceso analítico de BigData hacia la extracción de información procesable para apoyar la toma de decisiones. Lea más sobre algunos de estos roles aquí y aquí.

Entonces, como puede ver, BigData es solo uno de los dominios donde Machine Learning se utiliza activamente. Y en términos de carreras futuras, la perspectiva parece bastante buena. Según un informe reciente de McKinsey, ¡podría haber entre 140-190,000 puestos vacantes para profesionales de ‘Big Data‘ en 2018 solo en los EE. UU.! [3] Vea más información sobre cómo se ven las tendencias en los siguientes enlaces:

  1. Oportunidades de trabajo de Big Data en 2017 y los años venideros
  2. IBM predice que la demanda de científicos de datos se disparará un 28% para 2020
  3. Perspectivas de carrera en el aprendizaje automático: prepararse para el futuro
  4. El futuro del aprendizaje automático: tendencias, observaciones y pronósticos – DATAVERSITY

Además, tenga en cuenta que no he incluido los aspectos académicos / de investigación de BigData, Machine Learning y AI en general, uno que es una gran fuerza detrás del ecosistema. Habrá necesidad de miles de investigadores y profesores en BigData y campos aliados ahora y en el futuro más cercano.

Notas al pie

[1] Conozca los cuatro tipos de datos en Internet de las cosas – ReadWrite

[2] 5 tipos de datos sociales

[3] Big data: la próxima frontera para la innovación, la competencia y la productividad

La respuesta simple a su pregunta es, cualquiera que sea el campo que le interese. Aunque el aprendizaje automático y los grandes datos caen bajo el término general de ciencia de datos, hay alguna diferencia entre los dos. Trataré de explicar ambos términos, pero debe elegir el que le interese.

Aprendizaje automático : es la ciencia de crear algoritmos y programas que aprenden por sí mismos. Una vez diseñados, no necesitan un humano para mejorar. Algunas de las aplicaciones comunes del aprendizaje automático incluyen: búsqueda en la web, filtros de correo no deseado, sistemas de recomendación, colocación de anuncios, calificación crediticia, detección de fraude, comercio de acciones, visión por computadora y diseño de medicamentos. Una manera fácil de entender es esto: es humanamente imposible crear modelos para cada búsqueda o spam posible, por lo que hace que la máquina sea lo suficientemente inteligente como para aprender por sí misma. Cuando automatiza la parte posterior de la minería de datos, se conoce como aprendizaje automático. El término aprendizaje automático se explica por sí mismo. Las máquinas aprenden a realizar tareas que no están programadas específicamente para hacer. Muchas técnicas se ponen en práctica, como la agrupación supervisada, la regresión, las ingenuas Bayes, etc.

El aprendizaje automático es solo una parte de la ciencia de datos. La ciencia de datos es un gran paraguas que cubre todos y cada uno de los aspectos del procesamiento de datos y no solo los aspectos estadísticos o algorítmicos. Por mencionar, la ciencia de datos incluye

  • Visualización de datos
  • integración de datos
  • tableros y BI
  • arquitectura distribuida
  • decisiones automatizadas basadas en datos
  • automatizar el aprendizaje automático
  • despliegue en modo de producción
  • ingeniería de datos

El aprendizaje automático ayuda a la ciencia de datos al proporcionar análisis de datos, preparación de datos e incluso la toma de decisiones como pruebas en tiempo real, aprendizaje en línea. Los clubes de ciencia de datos combinan algoritmos derivados del aprendizaje automático para proporcionar una solución. La ciencia de datos lleva a cabo esta actividad tomando muchas ideas de matemáticas básicas, estadísticas y experiencia en el dominio.

Análisis de Big Data

Big Data Analytics está estudiando grandes conjuntos de datos (big data) para identificar patrones ocultos, tendencias del mercado, preferencias del consumidor y otra información valiosa que ayuda a las organizaciones a tomar decisiones comerciales estratégicas.

Con Big Data Analytics, los científicos de datos y otros profesionales de análisis pueden examinar grandes cantidades de datos estructurados, así como los datos sin explotar mediante la implementación de análisis e inteligencia empresarial.

Big Data Analytics se compone de software especializado y sistemas de análisis que benefician a las empresas de muchas maneras, como

  • Rentabilidad: Hadoop y el análisis basado en la nube son tecnologías de análisis de big data que son muy rentables cuando se almacenan grandes cantidades de datos. Además, esto también ayuda a encontrar formas más efectivas de hacer negocios.
  • Toma de decisiones más rápida: las organizaciones pueden examinar los datos inmediatamente con Hadoop y análisis en memoria superrápidos. Las decisiones pueden tomarse con mucha facilidad sobre la base de lo que han experimentado.
  • Nuevos productos y servicios: el análisis de Big Data ayuda a comprender fácilmente las necesidades y preferencias de los consumidores, lo que brinda más poder para servir a los clientes lo que desean. Se pueden desarrollar más productos y servicios para satisfacer las necesidades del cliente.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

Ya sea que se trate de una carrera o de una aplicación para resolver un problema, los dos no son mutuamente excluyentes.

  • Big Data se trata de analizar todos los datos disponibles, en su forma más granular, combinando conjuntos de datos dispares, sintetizando nuevas variables y fabricando nuevos datos.
  • El aprendizaje automático se trata de crear sistemas que respondan a los datos cambiantes. Estos sistemas pueden estar parcialmente supervisados ​​(entrenados) o sin supervisión (entrenarse ellos mismos).

Para crear una visión útil única, necesita un enfoque de ‘Big Data’. Para implementar esa información en un proceso comercial de producción, necesitaría incorporar ‘Machine Learning’

Ejemplo muy inventado:

Usted trabaja para una compañía eléctrica y está tratando de encontrar nuevas formas de servir a sus clientes privados ofreciendo precios dinámicos. Un enfoque de ‘Big Data’ implicaría analizar su consumo de energía minuto a minuto, superponiéndolo con los datos demográficos de su dirección, digamos que podría obtener sus datos de redes sociales y datos de tarjetas de crédito. Con este enfoque, puede identificar cuándo sus clientes estaban en casa o no y ajustar sus precios de servicios públicos en consecuencia para aprovechar mejor el período con alta producción y baja demanda. Como científico creativo de datos, puede crear una aplicación donde el cliente pueda administrar su hogar y la aplicación envíe datos nuevos.

A medida que diseña este modelo dinámico de fijación de precios de servicios públicos que se basa en un análisis de los datos y la aplicación del consumidor, desearía implementar ‘Machine Learning’ en él. A medida que los precios de la energía fluctúan, querrá ver cómo responden las personas y luego permitir que el modelo de precios responda a eso. Por ejemplo, tal vez la aplicación enviará una notificación de un período de descuento o un período pico. Cuando los consumidores vean la notificación, encenderán o apagarán los dispositivos de forma remota. Luego, el modelo de aprendizaje automático comenzaría a aprender qué consumidores responden y comenzaría a cambiar sus precios con mayor frecuencia cuando la compañía de servicios públicos quisiera utilizar la capacidad de generación de energía adicional.

En resumen, si estuviera contratando, no contrataría a un científico de datos que no aportara la experiencia de Machine Learning.

En el espacio de datos, el crecimiento de los datos ha llevado a una serie de innovaciones en términos de tecnología, procesos y modelos. Las terminologías que parecen causar mucha confusión a los externos del dominio de datos (a menudo creados por los internos). La industria ha utilizado los términos Data Analytics, Data Science y ha creado mucha ambigüedad en torno a esos términos. Big Data, que realmente se define por las características de los datos, quedó atrapado en esta comparación, y tenemos muchas publicaciones en Internet que intentan distinguir vagamente entre ellas. A medida que más profesionales aspiran a formar parte de la comunidad que resuelve problemas de datos, es importante tener una visión interna de ellos. Esperamos desambiguar estos términos.

He intentado desambiguar estos términos en esta publicación de blog,

Desmitificando la ciencia de datos y Big Data

Espero que esto ayude de alguna manera a responder su pregunta.

Para ser más directos, las plataformas de Big Data como Spark, tienen bibliotecas de Machine Learning como SparkML. Tener una gran base en Machine Learning casi siempre ayudará a cualquiera que tenga problemas de datos.

Puede aprender big data o aprendizaje automático. Ambos tienen un futuro brillante. Sin embargo, el número total de trabajos es mayor en Big Data en comparación con AI (aprendizaje automático). Para una discusión detallada, le sugiero que visite este enlace del foro de análisis de vidya.

Ambos tienen el mismo poder y futuro con seguridad.

Las tecnologías de Big Data, que incluyen Hadoop, Azure SQL Database, etc., son la mejor suite para alojar datos de tetra byte, mientras que Machine Learning es el área de enfoque principal para el modelado de datos predictivos y el análisis de regresión en fuentes de Big Data.

En SQL School, brindamos capacitación y ubicaciones tanto en Big Data como en Machine Learning.

Nuestro sitio web: SQL Server | SQL DBA | MSBI | Entrenamiento | SQL Azure | Power BI | Curso de formación en ciencia de datos y Hadoop

Herramienta libre: +91 90 1434 1434 (24 × 7)

El manejo de una gran cantidad de datos es una realidad inevitable de las empresas de hoy. Se han creado varias soluciones estables para esto. Los nuevos desarrollos se estancan. El aprendizaje automático, por otro lado, es un área emocionante donde la innovación continúa a un ritmo acelerado. Desde un punto de vista futuro, ML podría ser más lucrativo. Sin embargo, ambas áreas están envueltas en exageraciones y mitos. ¡Así que ten cuidado!

“Big data” no es una carrera: es un término de marketing que los proveedores usan para inducir a FOMO.

Su pregunta probablemente esté mejor formulada como “¿cuál es la mejor carrera, ingeniero de aprendizaje automático o ingeniero de datos? ”

No creo que ninguno sea mejor en el vacío. Depende completamente de tu conjunto de habilidades y de lo que te interese hacer. Ambas carreras tienen un alto potencial y una perspectiva sólida.

Realmente no hay diferencia en la práctica, “big data” es una palabra de moda, mientras que “” machine learning “es un dominio técnico real. Uno utiliza conceptos de machine learning para analizar big data