¿Cómo es ser un científico de datos en IBM?

Usted tiene acceso a un kit de software sin igual, así como a consultores y expertos de proyectos y soporte de servicios / industria. Junto con los $ 6b en fondos de investigación para respaldar los 22 años continuos de encabezar las listas mundiales de patentes.

Si piensa en una empresa, organización o institución, probablemente tengan algo de IBM en su infraestructura. Por lo tanto, cualquier empresa en cualquier lugar podría ser un cliente potencial.

Los problemas que se analizan en entornos y espacios tradicionales y no tradicionales son, por lo tanto, sorprendentes.

Cáncer y oncología, optimización de activos de alto nivel, niños en cuidados intensivos de enfermería intensiva, marketing e innovación digital, ciencias sociales, psicología, comportamiento humano, comportamiento animal, protección contra delitos financieros, soluciones de seguridad, criptografía, vigilancia y otros servicios de emergencia, solución más innovadora diseños para startups y empresas que innovan sus modelos de negocio … entiendes el punto.

También hay problemas menos atractivos para resolver, casos de negocios económicos, pronósticos, modelos estadísticos tradicionales y soluciones de informes.

Si tiene la suerte de trabajar en IBM Research, estos problemas se vuelven aún más agudos. Incluso podría estar contribuyendo a innovaciones de código abierto junto con su trabajo diario.

IBM puede proporcionar a un científico de datos oportunidades inigualables. Solo depende de lo que le interese y su capacidad / habilidad. Seguro que no te aburrirías si eres bueno en lo que haces.

Big DataData ScienceIBM

¿Qué tipo de análisis de datos puedo hacer en las redes sociales usando R?

Como analista de negocios de TI, ¿cómo pasar de un fondo de depósito de datos a análisis de datos y proyectos de inteligencia empresarial?

¿Cuál es la diferencia entre los datos espacio-temporales con otro tipo de datos?

¿Cuál es el mejor instituto de capacitación en ciencia de datos en el área de Kondapur / Madhapur en Hyderabad?

¿Hay empresas en la India que empleen estudiantes universitarios y los capaciten en Big Data Analytics / Data Science?

¿Qué tipo de proyectos paralelos de ciencia de datos se sugieren para un estudiante de pregrado?

Fui científico de datos en el laboratorio de investigación de IBM TJ Watson durante 6 años recién salido de la universidad (con un doctorado) trabajando en el grupo de Modelado predictivo en el ‘departamento de matemáticas’ entre 2004 y 2010. Mi título oficial era Miembro del personal de investigación, lo que parece poco impresionante pero es el verdadero negocio.

En ese momento (y esto podría haber cambiado un poco desde entonces) cada trabajo de investigación (no solo ciencia de datos) tenía una serie de componentes: los primeros 3 eran con mucho los más importantes y se esperaba que todos participaran en todos ellos, pero tal vez con diferente asignación de tiempo:

investigación fundamental (medida por publicaciones en publicaciones revisadas por pares)
trabajo interno del proyecto (lo llamamos la moneda azul) con otros grupos de IBM
trabajo de proyecto externo (para dólares verdes …) con algunos de los clientes de consultoría de IBM
visibilidad en el campo (organización de talleres, oratoria, etc.) generando IP (patentando su trabajo de investigación o proyecto)
una variedad de ‘cosas’ internas como participar en el diseño de la perspectiva tecnológica global anual, entrevistar candidatos, supervisar a los estudiantes de verano, apoyar las relaciones académicas

Entonces, en términos de hacer ciencia de datos:

Investigación fundamental: Básicamente cualquier cosa que pueda publicar en conferencias como NIPS, ICML, KDD y similares. Podría ser puramente teórico o muy aplicado según el trabajo de su proyecto. Publiqué alrededor de 3 artículos por año en KDD y generalmente 2 estaban basados en mis proyectos y uno podría ser un poco más abstracto. En mi caso, la mayor parte de esta investigación fue directamente sobre aprendizaje automático y modelado predictivo.

Trabajo del proyecto: la principal diferencia entre el trabajo interno y externo del proyecto fue principalmente la duración del proyecto y qué tan cerca estuvo usted de trabajar con las partes interesadas. Los proyectos internos pueden abarcar desde 2 semanas hasta 10 años. Trabajo con muchos grupos diferentes: inteligencia de mercado, desarrollo de software, grupo de servidores, producción de chips, detección de fraude (comercio), etc. Los externos fueron manejados por el brazo de consultoría global y generalmente solo obtuvimos un conjunto de datos y alguna descripción de el problema sin necesariamente conectarse directamente con los clientes (no puedo mencionar sus nombres, pero digamos fortune 500).

Visibilidad: Nuestro grupo fue infame durante 2007 y 2009 por participar y ganar concursos de minería de datos (Copa KDD 3 veces, INFORMS dos veces, desafío ILP, etc.). Más tarde comenzamos a organizarlos.

Estilo de trabajo técnico: al contrario de lo que respondieron otros, mi experiencia con el entorno informático no fue tan sorprendente (pero para que quede claro, no me importó). La realidad de mis 6 años allí fue que hice el 99% de mi trabajo en mi computadora portátil … Ahora es cierto que esto es un poco antes del día y edad de los grandes datos. La mayoría de los conjuntos de datos con los que tuvimos que trabajar no eran más de 2–3 Gigs y pude manejar esto muy bien. De hecho, las máquinas UNIX a las que tenía acceso (estándar) eran mucho más lentas que mi computadora portátil de 2 GHz, por lo que no me lo perdí. Por el lado positivo, tenemos total flexibilidad en la elección de las armas, lo que significa que podríamos usar cualquier herramienta (gratuita) que nos gustara y tanto en R, Perl / Python, etc. Algunos de los miembros de nuestro grupo trabajaron en GPU y Blue Gene, pero eso estaba lejos de ser estándar y el soporte era bastante limitado.

El acceso a los datos de IBM era lento e implicaba obstáculos excesivos, como era de esperar en una organización grande y antigua. Del mismo modo, encontrar un experto que realmente entendiera los datos fue difícil, ya que muchos de los ingenieros que los construyeron habían avanzado en su carrera. Por cierto: nada de lo que describo aquí es particularmente malo: esta es la realidad en la mayoría de las empresas con una infraestructura de TI que tiene más de 10 años. De hecho, estoy seguro de que fue mucho mejor que el promedio.

Ambiente general de trabajo: Realmente disfruté trabajando en la investigación de IBM, la libertad de elegir en qué quería trabajar, los desafíos en constante cambio de diferentes proyectos, la relevancia práctica de lo que hicimos para trabajar, el ambiente realmente colegial y no político , las personas súper inteligentes con las que trabajé. Claramente le debo a IBM mi carrera: fue (y tal vez sigue siendo) un gran punto de partida para una vida como científico de datos.

Claudia Perlich

Trabajo para IBM y en 2012 estuve en Nueva York con cientos de doctores y científicos de IBM. Todos están ocupados trabajando en patentes, tecnología de datos y muchos otros temas tecnológicos. IBM tiene más patentes que la mayoría de cualquier otra compañía e IBM gasta mucho dinero en investigación.

Mihail Ponomarev

Bueno, es bastante bueno ser un científico de datos en IBM, ya que la tarea del científico de datos está relacionada con todo sobre el manejo de datos, estadísticas, modelado de datos de diferentes maneras utilizando diferentes técnicas, pero para obtener más información, visite el sitio http://www.troytec.com

Mihail Ponomarev

More Interesting

¿Cuál es la mejor institución para aprender un curso de análisis de negocios / ciencia de datos en Hyderabad?

¿Cuáles de los cursos de Machine Learning tienen las mejores tareas y están disponibles en la web?

¿Cuál es la mejor estadística para buscar una correlación entre los datos de tipo Likert y los datos nominales (sí / no)?

Quiero aprender ciencia de datos en un mes. ¿Cómo lo hago?

¿Cómo se relacionan la ciencia de datos y el aprendizaje automático, si es que están relacionados?

¿Cuáles son los usos de big data en el software de recursos humanos?

¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?

¿En qué es más fácil convertirse en desarrollador web o científico de datos?

¿Cuál es el mejor IDE de Python para análisis de datos / ciencia?

¿Cómo debo ir de donde estoy ahora a una carrera en ciencia de datos?