¿Cuál de estos maestros ofrece más oportunidades laborales en Europa, ciencia de datos, inteligencia artificial o informática en general? La tecnología cambia la vida futura

Gracias por la A2A Fed. La respuesta va a ser larga, por lo que exijo toda su atención:

Voy a aclarar los diversos roles del científico de datos y cómo la ciencia de datos se compara y se superpone con campos relacionados como el aprendizaje automático, el aprendizaje profundo, la inteligencia artificial, las estadísticas, el IoT, la investigación de operaciones y las matemáticas aplicadas. Como la ciencia de datos es una disciplina amplia, empiezo describiendo los diferentes tipos de científicos de datos que uno puede encontrar en cualquier entorno empresarial: incluso podría descubrir que usted mismo es un científico de datos, sin saberlo. Como en cualquier disciplina científica, los científicos de datos pueden tomar prestadas técnicas de disciplinas relacionadas, aunque hemos desarrollado nuestro propio arsenal, especialmente técnicas y algoritmos para manejar conjuntos de datos no estructurados muy grandes de manera automatizada, incluso sin interacciones humanas, para realizar transacciones en tiempo real o para hacer predicciones.

1. Diferentes tipos de científicos de datos

Para comenzar y obtener una perspectiva histórica, puede leer mi artículo sobre 9 tipos de científicos de datos, publicado en 2014, o mi artículo donde comparo ciencia de datos con 16 disciplinas analíticas, también publicado en 2014.

Los siguientes artículos, publicados durante el mismo período de tiempo, siguen siendo útiles:

Científico de datos versus arquitecto de datos
Científico de datos versus ingeniero de datos
Científico de datos versus estadístico
Científico de datos versus analista de negocios

Más recientemente (agosto de 2016) Ajit Jaokar discutió el científico de datos tipo A (Analytics) versus tipo B (Builder):

El científico de datos tipo A puede codificar lo suficientemente bien como para trabajar con datos, pero no es necesariamente un experto. El científico de datos de Tipo A puede ser un experto en diseño experimental, pronóstico, modelado, inferencia estadística u otras cosas que generalmente se enseñan en los departamentos de estadística. Sin embargo, en términos generales, el producto del trabajo de un científico de datos no son los “valores p y los intervalos de confianza”, como a veces parece sugerir las estadísticas académicas (y lo es a veces para los estadísticos tradicionales que trabajan en la industria farmacéutica, por ejemplo). En Google, los científicos de datos de tipo A son conocidos como estadísticos, analistas cuantitativos, analistas de ingeniería de soporte de decisiones o científicos de datos, y probablemente algunos más.
Científico de datos tipo B: El B es para construir. Los científicos de datos tipo B comparten algunos antecedentes estadísticos con el tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El científico de datos tipo B está interesado principalmente en usar datos “en producción”. Construyen modelos que interactúan con los usuarios, y a menudo ofrecen recomendaciones (productos, personas que quizás conozcas, anuncios, películas, resultados de búsqueda). Fuente: haga clic aquí .

También escribí sobre los ABCD de optimización de procesos de negocios donde D significa ciencia de datos, C para informática, B para ciencia de negocios y A para ciencia analítica. La ciencia de datos puede o no implicar codificación o práctica matemática, como puede leer en mi artículo sobre ciencia de datos de bajo nivel frente a alto nivel. En una startup, los científicos de datos generalmente usan varios sombreros, como ejecutivo, minero de datos, ingeniero de datos o arquitecto, investigador, estadístico, modelador (como en el modelado predictivo) o desarrollador.

Si bien el científico de datos generalmente se presenta como un codificador experimentado en R, Python, SQL, Hadoop y estadísticas, esto es solo la punta del iceberg, popularizado por los campos de datos que se centran en enseñar algunos elementos de la ciencia de datos. Pero al igual que un técnico de laboratorio puede llamarse a sí mismo físico, el físico real es mucho más que eso, y sus dominios de experiencia son variados: astronomía, física matemática, física nuclear (que es química límite), mecánica, ingeniería eléctrica, procesamiento de señales (también un subcampo de la ciencia de datos) y muchos más. Lo mismo puede decirse de los científicos de datos: los campos son tan variados como la bioinformática, la tecnología de la información, las simulaciones y el control de calidad, las finanzas computacionales, la epidemiología, la ingeniería industrial e incluso la teoría de números.

En mi caso, durante los últimos 10 años, me especialicé en comunicaciones de máquina a máquina y de dispositivo a dispositivo, desarrollando sistemas para procesar automáticamente grandes conjuntos de datos, para realizar transacciones automatizadas: por ejemplo, comprar tráfico de Internet o generar contenido automáticamente . Implica desarrollar algoritmos que funcionen con datos no estructurados, y está en la intersección de la IA (inteligencia artificial), IoT (Internet de las cosas) y la ciencia de datos. Esto se conoce como ciencia de datos profundos. Es relativamente libre de matemática e implica una codificación relativamente pequeña (principalmente API), pero es bastante intensivo en datos (incluidos los sistemas de datos de construcción) y se basa en una nueva tecnología estadística diseñada específicamente para este contexto.

Antes de eso, trabajé en la detección de fraudes con tarjetas de crédito en tiempo real. Al principio de mi carrera (alrededor de 1990) trabajé en la tecnología de detección remota de imágenes, entre otras cosas para identificar patrones (o formas o características, por ejemplo, lagos) en imágenes satelitales y para realizar la segmentación de imágenes: en ese momento mi investigación fue etiquetada como computacional estadísticas, pero las personas que hacen exactamente lo mismo en el departamento de informática de al lado en mi universidad de origen, llamaron a su investigación inteligencia artificial. Hoy en día, se llamaría ciencia de datos o inteligencia artificial, siendo los subdominios procesamiento de señales, visión por computadora o IoT.

Además, los científicos de datos se pueden encontrar en cualquier parte del ciclo de vida de los proyectos de ciencia de datos, en la etapa de recopilación de datos o en la etapa de exploración de datos, hasta el modelado estadístico y el mantenimiento de los sistemas existentes.

2. Aprendizaje automático versus aprendizaje profundo

Antes de profundizar en el vínculo entre la ciencia de datos y el aprendizaje automático, analicemos brevemente el aprendizaje automático y el aprendizaje profundo. El aprendizaje automático es un conjunto de algoritmos que se entrenan en un conjunto de datos para hacer predicciones o tomar medidas con el fin de optimizar algunos sistemas. Por ejemplo, los algoritmos de clasificación supervisada se utilizan para clasificar a los clientes potenciales en perspectivas buenas o malas, a los fines del préstamo, con base en datos históricos. Las técnicas involucradas, para una tarea dada (por ejemplo, agrupación supervisada), son variadas: ingenuas Bayes, SVM, redes neuronales, conjuntos, reglas de asociación, árboles de decisión, regresión logística o una combinación de muchas. Para obtener una lista detallada de algoritmos, haga clic aquí. Para obtener una lista de problemas de aprendizaje automático, haga clic aquí.

Todo esto es un subconjunto de la ciencia de datos. Cuando estos algoritmos están automatizados, como en el pilotaje automatizado o en los automóviles sin conductor, se llama IA y, más específicamente, aprendizaje profundo. Haga clic aquí para ver otro artículo que compara el aprendizaje automático con el aprendizaje profundo. Si los datos recopilados provienen de sensores y si se transmiten a través de Internet, entonces se trata de aprendizaje automático o ciencia de datos o aprendizaje profundo aplicado a IoT.

Algunas personas tienen una definición diferente para el aprendizaje profundo. Consideran el aprendizaje profundo como redes neuronales (una técnica de aprendizaje automático) con una capa más profunda. La pregunta se le hizo a Quora recientemente, y a continuación hay una explicación más detallada (fuente: Quora)

La IA ( inteligencia artificial ) es un subcampo de la ciencia de la computación, creada en la década de 1960, y estaba (se preocupa) por resolver tareas que son fáciles para los humanos, pero difíciles para las computadoras. En particular, una llamada IA fuerte sería un sistema que puede hacer cualquier cosa que un humano pueda hacer (quizás sin cosas puramente físicas). Esto es bastante genérico e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajo creativo (hacer arte o poesía), etc.
El PNL ( procesamiento del lenguaje natural ) es simplemente la parte de la IA que tiene que ver con el lenguaje (generalmente escrito).
El aprendizaje automático tiene que ver con un aspecto de esto: dado un problema de IA que puede describirse en términos discretos (por ejemplo, a partir de un conjunto particular de acciones, cuál es el correcto), y dada una gran cantidad de información sobre el mundo, figura averiguar cuál es la acción “correcta”, sin que el programador la programe. Normalmente, se necesita algún proceso externo para juzgar si la acción fue correcta o no. En términos matemáticos, es una función: introduce algo de entrada y desea que produzca la salida correcta, por lo que todo el problema es simplemente construir un modelo de esta función matemática de alguna manera automática. Para hacer una distinción con AI, si puedo escribir un programa muy inteligente que tenga un comportamiento humano, puede ser AI, pero a menos que sus parámetros se aprendan automáticamente de los datos, no es aprendizaje automático.
El aprendizaje profundo es un tipo de aprendizaje automático que es muy popular ahora. Se trata de un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de cierto tipo, y donde algunos de estos bloques se pueden ajustar para predecir mejor el resultado final.

¿Cuál es la diferencia entre el aprendizaje automático y las estadísticas?

Este artículo intenta responder la pregunta. El autor escribe que la estadística es aprendizaje automático con intervalos de confianza para las cantidades que se predicen o estiman. Tiendo a estar en desacuerdo, ya que he construido intervalos de confianza amigables para los ingenieros que no requieren ningún conocimiento matemático o estadístico.

3. Ciencia de datos versus aprendizaje automático

El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico (los datos de la encuesta se pueden recopilar manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

integración de datos
arquitectura distribuida
automatizar el aprendizaje automático
Visualización de datos
tableros y BI
ingeniería de datos
despliegue en modo de producción
decisiones automatizadas basadas en datos

Por supuesto, en muchas organizaciones, los científicos de datos se centran en solo una parte de este proceso. En lo que respecta a las consultas relacionadas con el trabajo, la relación se superpone porque los campos se superponen. Depende de ti de qué lado quieres elegir.

Espero que ayude 🙂

¡Salud!

Ciencia de datosEuropaInteligencia Artificial