¿Cuánto importa el aprendizaje automático en ciencia de datos?

Hola:

En mi humilde opinión, la próxima década será testigo de un crecimiento sin precedentes en la aplicación Machine Learning y Deep Learning en el mundo de la ciencia de datos. Además, todos los profesionales de la ciencia de datos y análisis necesitarán actualizarse para mantenerse al día con este cambio inminente.

Esta tendencia se debe principalmente a los siguientes factores:

  • Big Data (volumen, velocidad, variedad). ¡Según IBM, el 90% de los datos que tenemos en el mundo hoy se han generado en los últimos 2 años! Todos los días estamos generando 2,5 bytes quintilianos (2,500,000 terabytes) de datos. Estos datos provienen de todas partes, como redes sociales, sensores, transacciones, imágenes, videos, etc. Se espera que el crecimiento de estos datos crezca exponencialmente en las próximas décadas.
  • Velocidad de cómputo más rápida y almacenamiento de datos económico: el costo y la capacidad de almacenamiento se ajustan a la ley de Moore: el almacenamiento por unidad de área se duplica aproximadamente cada 2 años y se reduce a la mitad.
  • Decisiones personalizadas y en tiempo real: el cliente actual desea tener un producto o servicio adecuado en el momento correcto y en el lugar correcto. El aprendizaje automático y el aprendizaje profundo facilitan las decisiones basadas en análisis en tiempo real que aportarán el máximo valor para los clientes y las empresas por igual.
  • Multimodalidad y heterogeneidad : los datos provienen de diferentes plataformas y en todas las formas y formas, como videos, texto, imágenes, interacciones sociales, comentarios, etc.

En particular, el aprendizaje automático y el aprendizaje profundo traerán los siguientes beneficios:

  • Descubra patrones difíciles de detectar (utilizando técnicas tradicionales) cuando la tasa de incidencia es baja
  • Encuentre características latentes (supervariables) sin una ingeniería de características manual significativa
  • Decisiones en tiempo real y modelos de autoaprendizaje utilizando datos de transmisión (KAFKA, MapR)
  • Garantizar una experiencia constante del cliente y el cumplimiento normativo
  • Mayor eficiencia operacional

Aplicaciones de Machine Learning / Deep Learning a nuestro alrededor

  • Ya estamos rodeados de aplicaciones y herramientas impulsadas por IA que se han convertido en una parte común de nuestra vida diaria. Todos hacemos búsquedas en Google todos los días, pero es posible que no nos hayamos dado cuenta de que el algoritmo subyacente para las búsquedas es impulsado por ML / AI.
  • Algunas de las otras aplicaciones de IA que nos rodean son Siri de Apple, Echo de Amazon, Cortana de Microsoft, Asistente de Google, IBM Watson, etc.
  • En un futuro no muy lejano, la IA continuará manifestándose en muchas más formas y formas que nos rodean, como los autos sin conductor o la generación de un avance de películas completamente impulsado por códigos.
  • Hemos escuchado sobre Internet de las cosas (IOT), pero es posible que no sepamos que también existe IIOT . Esto significa “Internet industrial de las cosas” . Una aplicación clave de esto es “Digital Twin” , que está continuamente aprendiendo réplica digital de sistemas físicos. Se estima que las máquinas conectadas y los Digital Twins pueden ahorrar cientos de miles de millones de dólares a través de operaciones optimizadas.

Perspectivas de la analítica y la ciencia de datos en el futuro

  • Si busca trabajo con habilidades de ML / AI, al menos los próximos 10-15 años serán un período de auge para usted, donde gigantes tecnológicos como Google, Facebook, Microsoft, IBM, otras compañías en todos los mercados verticales y nuevas empresas en todo el mundo. world estará igualmente interesado en contratar talentos de ML / AI como usted.
  • Si eres un emprendedor con una buena idea relacionada con ML / AI, tendrás muchas oportunidades para recaudar dinero para impulsar el crecimiento de tu negocio. Según una estadística de Kalaari, ¡las empresas de IA han recaudado $ 6B USD desde 2014!

Espero que esto ayude.

¡Salud!

Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

Gracias por a2a

El aprendizaje automático es un subconjunto de la ciencia de datos. Antes de profundizar en el vínculo entre la ciencia de datos y el aprendizaje automático, analicemos brevemente el aprendizaje automático y el aprendizaje profundo. El aprendizaje automático es un conjunto de algoritmos que se entrenan en un conjunto de datos para hacer predicciones o tomar medidas con el fin de optimizar algunos sistemas. Por ejemplo, los algoritmos de clasificación supervisada se utilizan para clasificar a los clientes potenciales en perspectivas buenas o malas, a los fines del préstamo, con base en datos históricos. Las técnicas involucradas, para una tarea dada (por ejemplo, agrupación supervisada), son variadas: ingenuas Bayes, SVM, redes neuronales, conjuntos, reglas de asociación, árboles de decisión, regresión logística o una combinación de muchas. Todo esto es un subconjunto de la ciencia de datos. Cuando estos algoritmos están automatizados, como en el pilotaje automatizado o en los automóviles sin conductor, se llama IA y, más específicamente, aprendizaje profundo. Para otro artículo que compara el aprendizaje automático con el aprendizaje profundo. Si los datos recopilados provienen de sensores y si se transmiten a través de Internet, entonces se trata de aprendizaje automático o ciencia de datos o aprendizaje profundo aplicado a IoT.

Y el aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento previo o conjunto de capacitación para ayudar a la clasificación de algoritmos. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico (los datos de la encuesta pueden recopilarse manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos

El aprendizaje automático es un término mucho más claramente definido y estandarizado que Data Science, por lo que varía según la empresa y el contexto.

El aprendizaje automático se interpreta más comúnmente como métodos estadísticos para aproximar una función que tiene una distribución subyacente verdadera. Muchas de las palabras en esta definición se refieren a estructuras matemáticas concretas con definiciones formales. Mientras tanto, Data Science es un término acuñado recientemente (2008), destinado principalmente a reclutar personas con un fondo mixto de análisis / ingeniería para Facebook y LinkedIn.

En mi tiempo en la industria, he visto a científicos de datos referirse a:

  • Un nuevo graduado de estadísticas que tiene una gran comprensión de las estadísticas pero no puede escribir código limpio como un ingeniero puede y no ha hecho ninguna ingeniería de características.
  • Un ingeniero que piratea un sistema de ML para hacer algo.
  • Alguien que se ocupa principalmente de análisis de negocios.
  • Alguien con una sólida comprensión de las estadísticas, el aprendizaje automático aplicado y la ingeniería.
  • etc.

Entonces, cuando escucho el término “científico de datos”, siempre me aseguro de obtener respuestas a las siguientes preguntas:

  • ¿Qué tipo de código se espera que los científicos de datos escriban aquí?
  • ¿Cuánto aprendizaje práctico hacen los científicos de datos aquí?
  • ¿Qué tipo de antecedentes en estadísticas se espera que tenga el equipo?

El aprendizaje automático es un subcampo de la informática que evolucionó a partir del estudio del reconocimiento de patrones y la teoría del aprendizaje computacional en inteligencia artificial. El aprendizaje automático explora el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos.

Las herramientas de análisis tradicionales no son adecuadas para capturar el valor total de big data.

El volumen de datos es demasiado grande para un análisis exhaustivo, y el rango de posibles correlaciones y relaciones entre fuentes de datos dispares, desde bases de datos de clientes finales hasta transmisiones de clics basadas en web en vivo, es demasiado grande para que cualquier analista pruebe todas las hipótesis y derive todas las valor enterrado en los datos.

Los métodos analíticos básicos utilizados en inteligencia empresarial y herramientas de informes empresariales se reducen a sumas de informes, recuentos, promedios simples y consultas SQL en ejecución. El procesamiento analítico en línea es simplemente una extensión sistematizada de estos análisis básicos que aún dependen de un ser humano para dirigir las actividades que especifican lo que debe calcularse.

El aprendizaje automático es ideal para explotar las oportunidades ocultas en big data.

Cumple la promesa de extraer valor de fuentes de datos grandes y dispares con una dependencia mucho menor de la dirección humana. Se basa en datos y funciona a escala de máquina. Se adapta bien a la complejidad de tratar con fuentes de datos dispares y la gran variedad de variables y cantidades de datos involucrados. Y a diferencia del análisis tradicional, el aprendizaje automático prospera en el crecimiento de los conjuntos de datos. Cuantos más datos se introducen en un sistema de aprendizaje automático, más puede aprender y aplicar los resultados a conocimientos de mayor calidad.

Liberado de las limitaciones del pensamiento y análisis a escala humana, el aprendizaje automático puede descubrir y mostrar los patrones enterrados en los datos.

Siempre puede ingresar a Data Science asistiendo a un instituto de Big Data Analytics, Data Science Courses.
Imarticus es uno de esos institutos que ofrece cursos de ciencia de datos en India. Este es un curso corto. Obtenga más información sobre nuestro curso: Data Science Prodegree

A medida que avanzamos hacia el futuro y construimos máquinas más inteligentes para nosotros, aumentaremos la cantidad de datos que generamos. Además, el floreciente mundo de Internet de las cosas que conecta las máquinas entre sí será otro motor de crecimiento para el aprendizaje automático. No habrá industria que no se beneficie o aproveche este crecimiento masivo en minería de datos y análisis. No hace falta decir que esto será impulsado principalmente por máquinas.

Entonces, para responder a su pregunta, debería decir que el aprendizaje automático será la columna vertebral de la ciencia de datos.

Desde las empresas hasta el comprador de sus productos o servicios, el aprendizaje automático y la ciencia de datos beneficiarán a todos en el ecosistema. Con el tipo de datos que genera cada uno de nosotros a través de nuestros dispositivos inteligentes, todos los proveedores de servicios relevantes realizan un seguimiento y eso a su vez les permite personalizar sus ofertas y permitir un producto o servicio más amigable para el cliente.

Las afirmaciones hechas por gigantes tecnológicos globales dicen que todos los días se genera una gran cantidad de datos a través de los dispositivos inteligentes y que muchos de estos son limpiados y analizados por las partes interesadas a diario. Por lo tanto, en los próximos días, es evidente que el aumento en el número de dispositivos más inteligentes y una mayor demanda de científicos de datos tienen sentido a partir de estos datos en bruto.

Espero haber respondido tu pregunta. Puede visitar esta página para mantenerse actualizado sobre lo último en el mundo de la ciencia de datos y cómo está transformando nuestra existencia y la forma de interpretar las cosas gradualmente.

Mucho.

Si bien la ciencia de datos se trata de usar estadísticas, álgebra lineal y métodos de optimización, todos estos se unen en el aprendizaje automático. Entonces, si está haciendo ciencia de datos y está considerando hacer una carrera en ella, el conocimiento de los métodos comunes de aprendizaje automático como la clasificación, la agrupación y la regresión es una expectativa común de la mayoría de los empleadores.

Debe considerar el aprendizaje automático de un estudio y un conjunto de habilidades para aplicar en la ciencia de datos. Puede utilizar la investigación y el conocimiento en el aprendizaje automático, especialmente en lo que respecta a la computadora. Esto incluye algoritmos, garantías de complejidad o rendimiento en la máquina. Pero un científico de datos tiene responsabilidades que difieren de las de alguien que solo trabaja como ingeniero de aprendizaje automático.

Depende de los requisitos. Supongamos que si queremos construir un motor de recomendación necesitamos aprendizaje automático y algunas tecnologías más aquí no están incluidas en la ciencia de datos. De hecho, la ciencia de datos no se puede definir. Pero una ciencia de datos puede cubrir temas como aprendizaje automático, ETL, análisis de datos, minería de datos, almacenamiento de datos, etc.

Machine Learning es parte de Data Science. Como dice el término, la ciencia relacionada con los datos.

More Interesting

¿Por qué NP = P es tan difícil de resolver?

Cómo pasar del desarrollo de pila completa al aprendizaje automático en el trabajo independiente

¿Existe alguna posibilidad de que la química del aprendizaje automático pueda correlacionarse con la nanotecnología?

¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?

¿Puede el aprendizaje automático ayudar con la ciencia del clima?

¿Se utiliza XGBoost en productos?

Cómo realizar la selección de funciones

¿Cómo podemos estimar múltiples parámetros de un clasificador?

¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

¿Qué tan importante es Octave como primer paso en Machine Learning? ¿Se utiliza en la industria?

¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?

¿Cuáles son los pasos básicos del procesamiento de texto en el procesamiento del lenguaje natural para la similitud de texto?

Cómo optimizar una red neuronal convolucional para hacer una clasificación de imágenes