¿Cómo es ser un científico de datos en IBM?

Usted tiene acceso a un kit de software sin igual, así como a consultores y expertos de proyectos y soporte de servicios / industria. Junto con los $ 6b en fondos de investigación para respaldar los 22 años continuos de encabezar las listas mundiales de patentes.

Si piensa en una empresa, organización o institución, probablemente tengan algo de IBM en su infraestructura. Por lo tanto, cualquier empresa en cualquier lugar podría ser un cliente potencial.

Los problemas que se analizan en entornos y espacios tradicionales y no tradicionales son, por lo tanto, sorprendentes.

Cáncer y oncología, optimización de activos de alto nivel, niños en cuidados intensivos de enfermería intensiva, marketing e innovación digital, ciencias sociales, psicología, comportamiento humano, comportamiento animal, protección contra delitos financieros, soluciones de seguridad, criptografía, vigilancia y otros servicios de emergencia, solución más innovadora diseños para startups y empresas que innovan sus modelos de negocio … entiendes el punto.

También hay problemas menos atractivos para resolver, casos de negocios económicos, pronósticos, modelos estadísticos tradicionales y soluciones de informes.

Si tiene la suerte de trabajar en IBM Research, estos problemas se vuelven aún más agudos. Incluso podría estar contribuyendo a innovaciones de código abierto junto con su trabajo diario.

IBM puede proporcionar a un científico de datos oportunidades inigualables. Solo depende de lo que le interese y su capacidad / habilidad. Seguro que no te aburrirías si eres bueno en lo que haces.

Fui científico de datos en el laboratorio de investigación de IBM TJ Watson durante 6 años recién salido de la universidad (con un doctorado) trabajando en el grupo de Modelado predictivo en el ‘departamento de matemáticas’ entre 2004 y 2010. Mi título oficial era Miembro del personal de investigación, lo que parece poco impresionante pero es el verdadero negocio.

En ese momento (y esto podría haber cambiado un poco desde entonces) cada trabajo de investigación (no solo ciencia de datos) tenía una serie de componentes: los primeros 3 eran con mucho los más importantes y se esperaba que todos participaran en todos ellos, pero tal vez con diferente asignación de tiempo:

  1. investigación fundamental (medida por publicaciones en publicaciones revisadas por pares)
  2. trabajo interno del proyecto (lo llamamos la moneda azul) con otros grupos de IBM
  3. trabajo de proyecto externo (para dólares verdes …) con algunos de los clientes de consultoría de IBM
  4. visibilidad en el campo (organización de talleres, oratoria, etc.) generando IP (patentando su trabajo de investigación o proyecto)
  5. una variedad de ‘cosas’ internas como participar en el diseño de la perspectiva tecnológica global anual, entrevistar candidatos, supervisar a los estudiantes de verano, apoyar las relaciones académicas

Entonces, en términos de hacer ciencia de datos:

Investigación fundamental: Básicamente cualquier cosa que pueda publicar en conferencias como NIPS, ICML, KDD y similares. Podría ser puramente teórico o muy aplicado según el trabajo de su proyecto. Publiqué alrededor de 3 artículos por año en KDD y generalmente 2 estaban basados ​​en mis proyectos y uno podría ser un poco más abstracto. En mi caso, la mayor parte de esta investigación fue directamente sobre aprendizaje automático y modelado predictivo.

Trabajo del proyecto: la principal diferencia entre el trabajo interno y externo del proyecto fue principalmente la duración del proyecto y qué tan cerca estuvo usted de trabajar con las partes interesadas. Los proyectos internos pueden abarcar desde 2 semanas hasta 10 años. Trabajo con muchos grupos diferentes: inteligencia de mercado, desarrollo de software, grupo de servidores, producción de chips, detección de fraude (comercio), etc. Los externos fueron manejados por el brazo de consultoría global y generalmente solo obtuvimos un conjunto de datos y alguna descripción de el problema sin necesariamente conectarse directamente con los clientes (no puedo mencionar sus nombres, pero digamos fortune 500).

Visibilidad: Nuestro grupo fue infame durante 2007 y 2009 por participar y ganar concursos de minería de datos (Copa KDD 3 veces, INFORMS dos veces, desafío ILP, etc.). Más tarde comenzamos a organizarlos.

Estilo de trabajo técnico: al contrario de lo que respondieron otros, mi experiencia con el entorno informático no fue tan sorprendente (pero para que quede claro, no me importó). La realidad de mis 6 años allí fue que hice el 99% de mi trabajo en mi computadora portátil … Ahora es cierto que esto es un poco antes del día y edad de los grandes datos. La mayoría de los conjuntos de datos con los que tuvimos que trabajar no eran más de 2–3 Gigs y pude manejar esto muy bien. De hecho, las máquinas UNIX a las que tenía acceso (estándar) eran mucho más lentas que mi computadora portátil de 2 GHz, por lo que no me lo perdí. Por el lado positivo, tenemos total flexibilidad en la elección de las armas, lo que significa que podríamos usar cualquier herramienta (gratuita) que nos gustara y tanto en R, Perl / Python, etc. Algunos de los miembros de nuestro grupo trabajaron en GPU y Blue Gene, pero eso estaba lejos de ser estándar y el soporte era bastante limitado.

El acceso a los datos de IBM era lento e implicaba obstáculos excesivos, como era de esperar en una organización grande y antigua. Del mismo modo, encontrar un experto que realmente entendiera los datos fue difícil, ya que muchos de los ingenieros que los construyeron habían avanzado en su carrera. Por cierto: nada de lo que describo aquí es particularmente malo: esta es la realidad en la mayoría de las empresas con una infraestructura de TI que tiene más de 10 años. De hecho, estoy seguro de que fue mucho mejor que el promedio.

Ambiente general de trabajo: Realmente disfruté trabajando en la investigación de IBM, la libertad de elegir en qué quería trabajar, los desafíos en constante cambio de diferentes proyectos, la relevancia práctica de lo que hicimos para trabajar, el ambiente realmente colegial y no político , las personas súper inteligentes con las que trabajé. Claramente le debo a IBM mi carrera: fue (y tal vez sigue siendo) un gran punto de partida para una vida como científico de datos.

Trabajo para IBM y en 2012 estuve en Nueva York con cientos de doctores y científicos de IBM. Todos están ocupados trabajando en patentes, tecnología de datos y muchos otros temas tecnológicos. IBM tiene más patentes que la mayoría de cualquier otra compañía e IBM gasta mucho dinero en investigación.

Bueno, es bastante bueno ser un científico de datos en IBM, ya que la tarea del científico de datos está relacionada con todo sobre el manejo de datos, estadísticas, modelado de datos de diferentes maneras utilizando diferentes técnicas, pero para obtener más información, visite el sitio http://www.troytec.com