¿Por qué hay tantos científicos de datos falsos e ingenieros de aprendizaje automático?

Decir que hay una gran cantidad de científicos de datos falsos es asumir que sabes cómo es una versión real de esta posición. Si publicara su pregunta sobre cómo conocemos a un científico de datos real cuando la vea , se encontrará con la misma incertidumbre.

Por ejemplo, ¿cuál de estos es el científico de datos “más real”?

  • Un doctorado en inteligencia artificial que nunca ha trabajado en software de producción empresarial;
  • Un físico con profundo conocimiento en simulaciones físicas, pero sin experiencia en modelado basado en datos;
  • Un estadístico experto en muestreo, interpretación y estimación, pero que solo ha trabajado en modelos paramétricos;
  • Un neurocientífico con vasta experiencia en el diseño de experimentos de investigación, que nunca ha escrito una línea de código;
  • Un graduado con una Maestría en Aprendizaje Automático que nunca ha validado un modelo frente a usuarios del mundo real;
  • Un desarrollador de software que comprende las mejores prácticas, que nunca ha intentado probar un software con salida no determinista;
  • Un recién graduado de Data Science cuya “experiencia” proviene de cursos y talleres;
  • Un matemático que se centra en la teoría de la optimización pero no puede explicar su relevancia a las partes interesadas sin antecedentes técnicos.

¿A quién elegirias? Nadie puede decir con razón quién en esta o en cualquier otra lista sería el mejor Científico de Datos, o cualquier otro tipo de practicante de aprendizaje automático. Data Science está en su infancia, convirtiéndose en el campo que debe ser para soportar la próxima generación de productos. El desarrollo de productos es mucho más complejo que un conjunto de teorías básicas que solo tienen sentido en el vacío. Más desafiante que un enfoque académico para diseñar un algoritmo de aprendizaje que nunca ve la luz del día. Más intenso que un análisis de taller sobre cómo crear un modelo utilizando conjuntos de datos limpios.

Esta es la razón por la cual no hay UNA persona o UN trasfondo que pueda definirse como “real”. Al igual que cualquier sistema exitoso en la naturaleza, Data Science se beneficia de la variedad , donde diferentes antecedentes y opiniones pesan sobre cómo resolver problemas. La única métrica de “real” es la auténtica pasión que uno tiene que aportar al proceso de resolución de problemas y poner este nuevo tipo de producto frente a personas reales. La ciencia de datos no es donde vive la elegancia matemática o el diseño académico inicial. Es un mundo desordenado, que es mucho más complejo que cualquier cosa para la que un grado o antecedentes específicos puedan prepararte. Los únicos “falsos” que viven aquí son aquellos que persiguen el salario por encima del aprendizaje, o que piensan que “inteligente” se define por su capacidad de arrojar fórmulas ingenuas en una pizarra que nadie usa. Esos individuos no duran mucho, y se filtran por el proceso natural de mantener nuestros esfuerzos responsables ante lo único que importa; construyendo un producto que la gente quiere usar.

Data Science está adquiriendo importancia, ya que solo ahora estamos sentando las bases de este campo. Puedo decirte que si entras en Data Science pensando que funcionará como el aprendizaje automático académico, vas a fracasar. Si cree que la creación de productos de aprendizaje automático se ve exactamente igual que la Agile convencional, va a fallar. Si cree que la validación estadística es la verdadera señal para que los datos funcionen dentro de una aplicación predictiva, va a fallar. Y si crees que las matemáticas son más importantes que los conceptos de alto nivel, todos pueden entender que vas a fracasar.

Obtener ROI del mundo real de nuestros esfuerzos proviene de la variedad y la abstracción. Se necesita una combinación de muchas habilidades y muchos antecedentes para llegar a una pieza tangible de software que mejore la experiencia de sus usuarios. Ninguna compañía tiene Data Science “resuelto”, o puede afirmar que posee la innovación para los productos que cambian el juego del mañana. Si le apasiona usar datos y trabajar con equipos de personas para crear algo que está cambiando la naturaleza misma de cómo usamos la tecnología, entonces únase a nosotros. Es complejo, desordenado, lleno de errores y está muy lejos de los entornos idealizados detrás de las torres de marfil. Pero también vale la pena. Eso es lo real.

Aquí ya hay algunas respuestas excelentes, así que permítanme abordarlo desde una perspectiva de “Matemáticas”.

Aquí hay un par de razones por las que ve muchos charlatanes en este campo (también se aplica a muchas otras profesiones):

  • Porque no mucha gente:
    1. realmente entiendo estadísticas,
    2. saber cómo usar correctamente las estadísticas,
    3. Comprenda lo que puede y lo que no puede hacer con las estadísticas.

    Entonces, básicamente, solo porque una persona pueda ejecutar una Red Neural, un Bosque Aleatorio, un proceso de Suavizado Exponencial, o incluso una simple Regresión Lineal, no significa que esa persona entienda lo que está haciendo. Y el problema con esto es que si no conoce los límites de sus modelos, algo eventualmente explotará.

    Aquí hay algunas lecturas interesantes que me han ayudado en el pasado a comprender lo que está sucediendo allí, lo que otras personas están haciendo mal y qué debo tener en cuenta:

    1. Cuidado con los grandes errores de Big Data
    2. ¿Qué sucede si las variables explicativas y de respuesta se ordenan independientemente antes de la regresión? y / o aprendizaje automático | Noticias Hacker
    3. El cuarto cuadrante: un mapa de los límites de las estadísticas
    4. No log-transformar los datos de recuento. • r / estadísticas
    5. El problema está más allá de la psicología: el mundo real es más aleatorio que los análisis de regresión
    6. El proyecto estadístico Fat Tails

    No estoy exactamente seguro de lo que quiere decir con científicos de datos e ingenieros de ML “falsos”.

    Pero me gustaría compartir una historia de un chico que conocí. Él era el dueño del restaurante en India, entré y comenzó a hablar al ver la camiseta Tux de mi Linux.

    En 1980, completó B. Com (Licenciatura en Comercio) y fue a visitar Bangalore para una fiesta de graduación con amigos. Fue entonces cuando le habló a un chico sobre la próxima gran cosa llamada computadoras. Se le informó de un curso especial de capacitación en informática para Contabilidad que lo ayudará a conseguir un buen trabajo. Entonces, se unió al instituto para el curso. Además el curso fue gratis.

    Se unió al curso junto con todos sus amigos del collage. 2 meses después, es ingeniero de sistemas. El cuarto mes, viajaba a Estados Unidos junto con 10 de sus amigos del collage. Todos obtuvieron un pasaporte estadounidense y 1 hombre se casó con una niña blanca. De la pandilla, él es el único que regresó a la India.

    Cuando le pregunté sobre su trabajo, dijo que solo trabajaba en Unix y que no sabía nada más. Nunca se molestó en actualizarse en su tiempo libre y todas las actualizaciones a su conocimiento formaban parte de la capacitación de su empresa.

    Supongo que es una especie de ingenieros “falsos” a los que te refieres. Es bastante común, cuando una nueva tecnología está disponible y hay una gran demanda. El listón se establece muy bajo para satisfacer la creciente demanda. Se corregirá a tiempo.

    Hay muchos charlatanes porque se puede ganar mucho dinero y fingir es fácil.

    Las personas aprenden a calcular una línea de mejor ajuste durante la escuela secundaria. Imagine obtener un salario de seis cifras por usar las matemáticas de nivel secundario. En realidad, es aún más fácil que eso: ni siquiera necesita calcular los coeficientes ya que cualquier paquete estadístico lo hará por usted.

    No hay ninguna calificación que pueda distinguir a una persona competente de un falsificador. Intente seguir un tutorial en línea sobre aprendizaje automático en R o Python. Ahora repita en el contexto de su empresa. ¡Voila, eres ingeniero de ML! A menos que la persona que evalúa a este charlatán sepa lo que está haciendo, no tiene forma de probar la profundidad del conocimiento del candidato.

    Creo que se arreglará a tiempo. En primer lugar, los gerentes de línea desarrollarán el conocimiento suficiente sobre cómo realizar una entrevista efectiva. En segundo lugar, a medida que aumenta la oferta, la paga disminuirá, y las personas que estaban en el campo por dinero fácil irán a otro lado.

    Culpables Curso masivo abierto en línea y Academia de campo de entrenamiento

    Una revista popular publicada Data Scientist es el trabajo más genial del siglo. Desde entonces, la carrera está apagada. Cuando todos quieren hacer Data Science, ¡el mercado real está en crear cursos! ¿Cómo tienes maestros para algo tan nuevo y volátil? Los campos de entrenamiento están ganando más dinero que los científicos de datos. Si bien hay muchos que están inscritos, muy pocos se absorben en la industria.

    ¿Por qué es esta diferencia?

    Muy pocas personas están preparadas para el mercado y tienen las habilidades necesarias. Además, los roles de los científicos de datos están altamente influenciados por el conocimiento del dominio. Una persona con 5 años de experiencia en la industria financiera puede ser un buen científico de datos en comparación con un desarrollador de software que recientemente cambió al rol de científico de datos.

    Otra razón es que los nuevos DS no son fundamentalmente fuertes. Los campos de entrenamiento los preparan para la industria al enfocarse demasiado en el lenguaje (R, scikit learn, numpy, etc.) en lugar de los fundamentos. Curiosamente, un chico del campo de entrenamiento puede escribir un código de aprendizaje automático usando el kit de ciencia. Aprender en k significa agrupación o regresión logística, pero me sorprendería si eres capaz de escribir incluso un Naïve Bayes puramente en Python.

    ¿Puedes explicar las redes neuronales en términos de un clasificador hiperplano? ¿Qué es la transformación del espacio de características? ¿Por qué SVM tiene buena resistencia al efecto atípico?

    Estoy de acuerdo en que los científicos de datos no tienen que escribir su propia implementación de algoritmos en la rutina diaria, pero carecen de esta comprensión fundamental. Por ejemplo, trabajo en la Web y uso Express como servidor de back-end, sé lo que se utiliza un servidor para procesar solicitudes y proporcionar respuestas de activos. Si me pide que escriba una versión pequeña del servidor, podré escribirla por usted (no es tan sofisticado como express, sino un modelo de trabajo básico)

    Todos estos factores han llevado a una industria fabricada masiva para DS. Los gigantes tecnológicos y algunas compañías están haciendo un gran trabajo en DS y ML, el resto está por debajo del promedio. El siguiente gráfico casi muestra el problema.

    Hay algunas falsificaciones legítimas, probablemente muchas, pero lo veré desde el otro lado como alguien que siente que estoy fingiendo.

    Soy programador y hasta ahora trabajo con los datos que tengo para los proyectos que tengo según sea necesario, mis habilidades reflejan principalmente lo que he hecho y todo lo demás sigue siendo teórico. Todo, a un alto nivel, sobre ciencia de datos y aprendizaje automático tiene sentido para alguien con una formación matemática razonable. Esta es la misma sensación que cuando los nuevos programadores comienzan a programar y dicen “programar es fácil, seguir las reglas, escribir algunas cosas, funciona”. No saben lo que no saben. La realidad es que hay mucho que aprender y la única forma de aprender la mayor parte es hacerlo, en el desordenado mundo real, no solo tutoriales paso a paso. Entonces sí, están fingiendo porque no han hecho suficientes proyectos de ciencia de datos y aprendizaje automático para ser realmente buenos en eso.

    Hay un fuerte atractivo para reclamar estas habilidades porque el incentivo está ahí. Combina esto con el efecto de tipo Dunning-Kruger anterior y llegarás a donde estamos. A medida que crezca el campo, habrá más personas que tengan experiencia real y se elevará el listón para la contratación, pero para muchos trabajos que necesitan personas con estas habilidades no pueden exigir años de experiencia probada porque simplemente no ha habido tiempo suficiente para que muchas de esas personas existan (existen y son buscadas, pero no lo suficiente). Entonces sí, hay falsificadores, pero parece natural en este punto. Estoy seguro de que suceden cosas similares al comienzo de cualquier campo (¿desarrollo web hace 20 años?). Algunas resultarán ser falsas hasta que las escribas y otras probablemente sean falsas, pero presumiblemente las personas que contratan obtienen lo mejor pueden y, si quieren pagar por científicos de datos probados, pueden subir la apuesta y encontrar algunos, de lo contrario arrojarán algunos falsificadores al problema y verán quién trabaja (suponiendo que tenga al menos una persona alrededor que pueda notar la diferencia).

    Quiero agregar otro ángulo a las excelentes respuestas que ya están aquí.

    Como alguien que ha entrevistado a muchos (> 70) candidatos para mi equipo de ciencia de datos a lo largo de los años, hay un mecanismo de falla que sigue apareciendo: el científico de datos aislado.

    Todas las empresas quieren hacer DS en estos días. Muchos de ellos reclutan a una sola persona para este puesto, y aquí comienza la cadena del fracaso:

    • Los gerentes de contratación no son de este campo y, por lo tanto, no pueden evaluar a los candidatos correctamente. Por lo general, es muy fácil impresionar si sabe usar algunas frases exageradas (“oh, diseñé una red con LSTM que funciona con RNN y CNN para hacer análisis de series de tiempo en datos de acciones históricas y logró predecir el precio de algo”) . Este es el punto de decirles “genial, por favor expliquen” o incluso “¿por qué los usaron de esta manera?”. Los gerentes de contratación generalmente no lo hacen y no pueden.
    • El nuevo DS comienza a funcionar. Hay muchos datos con los que jugar y, por lo tanto, en relativamente poco tiempo, presenta excelentes presentaciones de análisis de datos con las que todos están muy impresionados. En la mayoría de los casos, también es fácil obtener algo de ganancia utilizando técnicas de datos muy simples, por lo que asegura su lugar en la organización.
    • No existe un proceso de revisión real para los proyectos de ciencia de datos (ya que no hay nadie en el equipo que lo haga). No hay nadie a quien preguntar: ¿es esto lo correcto? ¿Estoy interpretando los resultados correctamente?
    • No hay nadie para que el DS aprenda de / con. Ella va a reuniones y toma todos los cursos de Coursera que puede tener en sus manos. Sin embargo, ella no recibe consejos y trucos de prácticas del mundo real.
    • Ella continúa durante varios años como “científica de datos en jefe” (ya que ella es la única) y recibe una buena compensación.
    • Todo se rompe cuando intenta postularse a una nueva empresa con un grupo de ciencia de datos real.

    Creo que esto representa la mayoría de los candidatos fallidos que he visto a lo largo de los años. Pero no me gusta el término “falso”, ya que implica algunas malas acciones de su parte y esto generalmente no es culpa de DS. Muchos de ellos entienden el problema con la posición en la que se encuentran e intentan mudarse a compañías con grupos más grandes.

    Es el tema candente actual, supongo. Es uno de esos campos que tiene parámetros tan vagamente definidos que puedes obtener con solo decir algunas palabras grandes y elegantes.

    Intenté suerte con la IA casi todos los años desde 1990. También trabajé en algunos proyectos de ‘datos profundos’ y en algunos proyectos de ‘aprendizaje automático’.

    Hasta ahora, nunca he visto nada que diría que realmente esté aprendiendo. De hecho, la mayoría de las veces es directamente teórico. Algunos de los ‘mejores’ conceptos de IA que he escuchado nunca llegaron a la fase de implementación. Tomé IA en la universidad. Francamente, lo único que saqué de esa clase fue que el profesor podría haber sido una “IA temprana”. Ah, y que las preguntas y respuestas necesarias para engañar a la mayoría de las personas para que piensen que algo es una IA encajaría fácilmente en 1Gb. Pero eso no es aprender.

    Aquí está mi opinión cuando alguien me dice que tiene una máquina de ‘aprendizaje profundo’ o una IA o un bla, bla, bla: ¡muéstramelo! Muéstrame algo que pueda mirar y pensar, oye, eso es casi realista.

    Creé una IA que APRENDE de ti para una serie de juegos de póker (para VTIGames.com), pero eran peores jugadores que una solución basada en reglas. Actualmente estoy reescribiendo algunos de ellos para usar un conjunto de reglas más grande, para que las personas sientan que son mejores jugadores. Sin embargo, me gustó la idea de la IA para el póker, porque intenté crear una que * engañara * al jugador. Intencionalmente, ocasionalmente, actuando como si tuvieran una mano mejor que la que tenían, si sintieran que el jugador se estaba volviendo demasiado audaz. Pero incluso eso es básicamente más reglas. ¿Cuándo se convierten las reglas y las reglas en “aprendizaje”?

    Para otro ejemplo, esto es lo que yo llamo IA estocástica que uso para algunos de mis juegos, cuando quiero vida salvaje que actúa como la vida silvestre. Sin embargo, de ninguna manera es un sistema de aprendizaje. Tiene “memoria” limitada, pero realmente no aprende nuevos trucos. Es lo suficientemente inteligente como para actuar como un insecto tonto. Pero sí siente el mundo que lo rodea y puede usar ese conocimiento para esconderse de los enemigos o usarlo para atraparlos. ¿Eso es IA? Lo suficientemente cerca para mí. Pero no se va a apoderar del mundo.

    No creo en la IA en este momento. Entonces, para mí, todos lo están fingiendo. Apreciaré el día en que se demuestre que estoy equivocado. Sé que ese día se acerca, porque estoy tratando de resolverlo, yo mismo, y muchas otras personas mucho más inteligentes también lo son.

    Pero no creo que esté aquí todavía. En este momento, si alguien se jacta de afirmar que ha inventado una IA, o que su máquina aprende, o que sus datos son realmente profundos, estoy de acuerdo con eso, siempre que tengan algo que demostrar.

    Un último pensamiento: decidir cómo saber si algo es aprendizaje automático o no es intrínsecamente complicado. Aquí hay un buen artículo escrito por un tipo que podría saber algo al respecto. Considere al autor, considere cuándo lo escribió, y considere que muchas de sus preguntas sin respuesta siguen siendo válidas:

    Maquinaria de computación e inteligencia AM Turing

    -Chilton Webb

    ¡La ciencia de datos es un gran campo! Hay habilidades básicas, conocimientos y habilidades prácticas que necesita para comenzar. Sin embargo, una vez que pasa la entrevista, lo que una empresa está buscando hacer puede requerir cualquier cantidad de habilidades y técnicas específicas. Y el aprendizaje automático no es lo mismo que la ciencia de datos. Muchas de las personas que parecen científicos de datos en papel son los verdaderos “falsificadores”.

    La “caja de herramientas del científico de datos reales” no contiene lenguajes de programación, marcos, habilidades matemáticas o conocimiento algorítmico. El científico es la caja de herramientas.

    Un cierto tipo de persona está dispuesta a suspender la incredulidad, mirar la imagen completa para considerar un pequeño rincón, formular planes contradictorios sobre cómo obtener la información que necesitan de un montón de basura, elegir uno, trabajar en ello, fallar repetidamente, atenúe su dirección y trabaje hacia una solución significativa. Resolver problemas bien es un arte y una habilidad. Comunicar sus resultados claramente y aplicarlos es exigente, pero esencial en la ciencia de datos.

    La entrega de un proceso basado en datos es frustrante, iterativo y un proceso no lineal. Se necesita cierta persona para cavar y hacerlo bien. Un buen jefe ve las cualidades de una mente y un espíritu superiores al doctorado o las habilidades de programación o matemáticas. ¿Tiene esta persona lo que se necesita para jugar el juego largo y qué tan rápido podemos llevarlos a donde los necesitamos?

    Muy a menudo, estas cualidades no vienen en el pedigrí que ves solicitado en las ofertas de trabajo. Y no tenemos programas de capacitación o credenciales como los médicos, no hay rotaciones, no hay un método oficial de aprendizaje. No le darías un láser a un graduado de medicina y te diría que te hicieras una cirugía cerebral … pero son médicos. Los científicos de datos crecen de la misma manera, de lo simple a lo complejo.

    Todos aprendemos en el trabajo, el título es solo una herramienta de investigación, incluso un título matemático riguroso podría no producir un científico de datos sólido. Entonces, encontrar la arcilla adecuada para esculpir es en sí mismo un experimento de probabilidad. Sus científicos de datos se acercarán a usted de dos maneras, sin necesidad de mentores y experiencia, costosamente con años de trabajo detrás de ellos y después de una búsqueda amenazante.

    Puede valer la pena contratar lo que podría pensar que es falso y desarrollar las habilidades adecuadas si la persona tiene la base de rocas para que esto suceda mientras obtiene un trabajo útil en el proceso si la alternativa es buscar durante 18 meses, pagar más y aún espere a que la nueva persona aprenda lo que necesita que sepan.

    Y debido a que la buena ciencia de datos es un deporte de equipo … es importante reconocer a las personas que contribuirán de manera que enciendan al resto de su equipo. Un programador y científico de datos algorítmicos justos con habilidades matemáticas decentes puede ser un genio para averiguar dónde buscar, qué datos usar y cómo integrar y escalar algo a nivel humano. Tenerla en tu equipo podría ser más valioso que un dios vector de soporte más.

    Lo que parece falso para usted podría no ser … y muchos científicos de datos consideran que otros son falsos porque no ven el valor de las habilidades no computacionales. Eso es un error!

    Los ingenieros de software con los que he hablado, que han seguido la ruta de ‘construir una implementación de aprendizaje profundo en 11 líneas de Python’, simplemente no saben lo que no saben. Parecen ver su ignorancia del aprendizaje automático como algo que se puede superar mediante la abstracción de la misma manera que su ignorancia del lenguaje ensamblador se supera mediante la abstracción al codificar en lenguajes de alto nivel.

    Tal vez algún día haya herramientas y bibliotecas de ML que abstraigan todo, desde la selección del algoritmo, hasta la selección de características, validación cruzada y pruebas. Pero todavía no estamos allí, por lo que parece que vamos a tener mucha gente realizando magia negra ML por algún tiempo.

    Publicado:

    Algunas aclaraciones para los interesados: http://www.mlopt.com/?p=6538

    Debido a que la demanda es muy alta y la mayoría de los gerentes de contratación no saben lo que están buscando.

    Muchos trabajos de ciencia de datos que saben lo que están haciendo requieren una maestría y una experiencia considerable o un doctorado. ¿Cuántas personas obtendrán un doctorado en estadística? No muchos en absoluto. De los que obtienen doctorados, ¿cuántos saben programar? Un pequeño número de mierda.

    Los ingenieros de aprendizaje automático son como científicos de datos, pero informáticos y aprenden modelos estadísticos.

    Hay una idea errónea en algunas áreas de que el teorema del límite central convierte cualquier modelo en una distribución normal, por lo que no necesita más que las estadísticas básicas. Esto es descaradamente falso. Pero existe Pero esto es en parte por qué obtienes desajustes DS y MLE. Es un área gris de la que las personas se aprovechan, queman empresas, lo que hace que sea más difícil contratar a las verdaderas.

    Para convertirse en un verdadero científico de datos, primero debe ser un científico de datos, porque es un área de experiencia en la que el conocimiento es casi inútil sin experiencia.

    Si necesita ser un científico de datos para convertirse en uno, su mejor oportunidad para satisfacer esta precondición paradójica es fingirlo.

    Como escribió Max Chistokletov en su respuesta, muchas personas lo fingen hasta que lo logran .

    Pero entonces, ¿cuándo termina la fase de simulación? Dado que la ciencia de datos requiere más que solo experiencia documentada, sino también altas capacidades intelectuales, un gran porcentaje de esos científicos de datos falsos hasta que lo logras nunca lo logran.

    Eso, combinado con la creciente popularidad de la tendencia de “big data”, puede explicar la percepción de que hay tantos científicos de datos falsos.

    Una respuesta simple -> Porque están en alta demanda.

    He entrevistado a muchos candidatos que han implementado el modelo de regresión pero no pueden establecer claramente cuándo utilizar un árbol de decisión versus regresión logística para el problema de clasificación.

    Poca tecnología. Gigantes y Statups le han mostrado al mundo cómo el Aprendizaje Automático puede ayudar a las empresas mejorando las decisiones / la experiencia del usuario / las tasas de conversión / la orientación al cliente, etc. mediante el uso de datos recopilados, todas las otras compañías se han unido a la Carrera.

    Aunque muy pocos están probando el éxito y otros no, principalmente debido a que el científico de datos “falso” está en acción o a los casos de uso “incorrectos” creados por empresas que piensan que es un problema de ciencia de datos que podría haberse manejado fácilmente como un problema de informática.

    Vi en la industria demasiados casos de uso incorrecto implementados y fallados, y demasiados científicos de datos falsos tratando de resolverlo cuando deberían guiar a la administración hacia el caso de uso correcto con los datos. La mayoría de las industrias de hoy, independientemente de sus dominios, se encuentran en esta misma fase desde donde veo.

    Solo unos pocos Tech. Las empresas impulsadas con buenas implementaciones de casos de uso bien informados pudieron ayudar a sus negocios a usar datos.

    Otra razón principal del surgimiento de Fake Data Scientist son los videos en línea / cursos pequeños / cursos intensivos en los que el estudiante no es evaluado adecuadamente, ya que hay muchas maneras, aparte de aprender el concepto, para borrar los exámenes que ingresan en el campo novedoso de DS. [Sin señalar ningún curso específico, ya que también hay algunos buenos cursos en línea que evalúan bien a los estudiantes antes de otorgarles el certificado de finalización]

    De este modo, muchas empresas pequeñas y grandes caen presas de esto y terminan sin obtener resultados de sus datos.

    En la mayoría de los casos, el problema se trata del nombre falso del trabajo en lugar de la calificación. Simplemente, en lugar de nombrar a las personas que realizan investigaciones reales sobre el procesamiento de datos y los métodos de aprendizaje automático como científicos de datos, ahora todos los que tienen algo relacionado con alguna manipulación de datos primitiva se llaman científicos de datos. De esta manera, a muchas personas les gustan los analistas, ingenieros regulares o incluso algún personal técnico que coloca datos en la hoja de datos y llama a alguna función que se llama erróneamente científico de datos, lo que hace que la palabra de moda del científico de datos sea como el título.
    Creo que los empleadores tampoco juegan el último papel: para atraer a las personas a algunos puestos regulares, simplemente deles un nombre “sexy” como “científico de datos” a pesar de que las tareas realizadas bajo este papel no tienen nada que ver con la ciencia.

    El científico de datos … suena como un científico solitario – mago … Según el analista de investigación Michael Ferguson de UK Intelligent Business Strategies, el científico de datos es solo una pieza de una unidad mucho más grande: el equipo de ciencia de datos, que involucra ingeniería de datos, análisis de negocios, software ingeniería, arquitectura de TI, estadística, matemáticas y otros.

    Yo diría que un Data Scientist es a menudo un “Jack de todos los oficios, Master of One” … debido a la complejidad de la ciencia de datos, que involucra las contribuciones de muchas personas, en una serie de roles diferentes. Los científicos de datos rara vez trabajan en aislamiento.

    Entonces, si escuchas a alguien decir “Soy un científico de datos”, no olvides preguntar: ¿cómo está tu equipo?

    Los “científicos de datos” son tan buenos como su propio aprendizaje humano y, en lugar del aprendizaje automático, uno debería centrarse en un mejor aprendizaje humano para lograr un mejor aprendizaje automático. Las personas que contratan “científicos de datos” si ellos mismos no saben lo suficiente solo contratarán a aquellos que “solo saben lo suficiente”.

    Se sabe que hasta el 56% de los candidatos a empleos se encuentran en su currículum y en esas habilidades aún más fibrosas (no creerá cuántas personas mienten en sus currículums). Muchos mienten al poner palabras clave que son las “palabras clave del día” que parecen relacionarse con los salarios más altos / más altos con la esperanza de tratar de pasar de los “guardianes” del trabajo. El hecho más triste es que muchos de los “guardianes” de recursos humanos en sí mismos no están tan bien informados técnicamente como deberían estar en “eliminar” falsos candidatos, confiando en algoritmos de selección de reanudación de máquina.

    Muchas veces un gerente de contratación y / o los jefes técnicos no quieren verse mal después de darse cuenta de que pueden haber contratado a la persona incorrecta / falsa y pueden quedarse con la “manzana mala” con la esperanza de que puedan capacitar a la persona y / o que la persona sin experiencia aprenderá / entrenará más a sí misma. Otras veces, las empresas / startups son tan “ciegas” (y / o desesperadas) al querer alcanzar un objetivo elevado que contratan a cualquiera que aparentemente “cumple con los requisitos” y luego se dan cuenta de su error o sufren las consecuencias cuando su nuevo empleado puede ” t entregar.

    Supongo que los entrevistadores tampoco conocen el aprendizaje automático. Cualquiera puede preguntarle qué biblioteca usa o qué algoritmos aprendió a implementar en el último tutorial. Pero muy pocas personas harán preguntas más teóricas como:

    • ¿Cuál es la maldición de la dimensionalidad?
    • ¿Cuál es la dimensión VC?
    • ¿Cómo funciona una máquina de vectores de soporte (quiero decir en el interior)?
    • ¿Cómo prevenir el sobreajuste?
    • ¿Cuál es el dilema de explotación-exploración en RL?

    Creo que si dominas estas preguntas, entonces es realmente fácil entender lo que estás haciendo y no te equivocarás fácilmente.

    La pregunta implícitamente significa que algunas personas presentan científicos de datos falsos o ingenieros de aprendizaje automático. Como campo dentro del mercado, con demanda de educación y habilidades, estas profesiones proyectan una perspectiva favorable. Y las personas en diferentes estudios, como las empresas, ven a quienes estudian ciencia de datos o aprendizaje automático , como personas con habilidades demandadas. Pueden hacer productos o postularse en las compañías actuales, para darles a estos negocios una ventaja competitiva. El valor de tales científicos de datos e ingenieros de aprendizaje automático sin estandarización, regulación o mercado justo, significa que las personas pueden fingir , retratar habilidades infladas o presentar posiciones falsificadas a la profesión. Esto tiene sentido como motivación para que alguien se aproveche del valor que han hecho las personas que han estudiado ciencia de datos y aprendizaje automático . Simplemente no tenemos estadísticas exactas, o el número observado de personas que afirman falsamente su profesión.

    Siempre hay personas que intentan aprovecharse de la situación y empujarlo.

    Lo que ves no es exclusivo de la ciencia de datos. También hay ingenieros de software y empresarios falsos. Lo atribuyo a “fingir hasta que lo hagas” como un consejo profesional algo común en los Estados Unidos.

    Por la misma razón, hay muchas personas que simulan ingeniería de TI y software. Son muy hábiles para “hablar en voz alta” y / o las empresas contratantes hablan sobre sus “logros” pasados, que generalmente son imaginarios. Además, ninguna empresa hoy está dispuesta a responder a una solicitud de referencia.

    More Interesting

    Tengo 28 años y he estado trabajando como auditor financiero durante los últimos 5 años. Quiero saltar al área de ciencia de datos y blockchain y seguir mi carrera en estos campos. ¿Cómo puedo hacer eso?

    ¿Cuál es la diferencia entre un científico de datos y un profesional de inteligencia de negocios?

    ¿Cuál es la configuración recomendada para una aplicación de Big Data?

    ¿Se cuestiona la utilidad de las estadísticas tradicionales debido a las técnicas modernas de aprendizaje automático y la prevalencia de Big Data?

    ¿Vale la pena viajar desde Delhi a Bangalore para la conferencia The Fifth Elephant de HasGeek?

    Tengo mi doctorado y trabajo en un observatorio. ¿Debo dejar atrás mi carrera como científico académico? ¿Debo dar el salto a la industria como científico de datos, o la ciencia de datos es solo una moda?

    ¿Es correcto hacer un curso sobre big data? ¿Cómo puedo asegurar un trabajo como nuevo después de hacer un curso de Big Data?

    ¿Qué tan difícil es ser admitido en el campo de entrenamiento de ciencia de datos de Insight?

    ¿Cuáles son los principales tipos diferentes de diagramas de flujo?

    ¿Cómo se pueden combinar las técnicas de minería de texto con los sistemas de recuperación de información?

    ¿Qué bibliotecas de Python se usan comúnmente en el mundo del análisis de datos / ciencia de datos?

    ¿Alguien está haciendo capacitación en Big Data y Hadoop en DataFlair? ¿Es una buena idea hacer el curso?

    ¿Cuáles son las áreas básicas de conocimiento matemático y estadístico con las que un científico debería sentirse muy cómodo y cómo las aprende?

    ¿Vale la pena hacer ciencia de datos?

    ¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?