El aprendizaje automático y la ciencia de datos tratan de agregar valor al cliente. Por ejemplo:
- Una compañía de préstamos quiere determinar automáticamente qué prestatarios pagarán el préstamo y cuáles no.
- Un fondo de cobertura quiere encontrar rápidamente buenas oportunidades comerciales.
- Una cadena de restaurantes quiere averiguar qué elementos del menú están teniendo éxito y cuáles deben cortarse.
- Facebook quiere generar noticias dinámicas rápidamente.
A ninguna de las compañías anteriores le importa si su modelo está en R o Python. Les importa si el modelo funciona y agrega valor al negocio.
En términos prácticos, esto significa que usted elige el idioma que:
- ¿Qué ejercicio debo dar a mis alumnos en un curso de Big Data?
- Cómo iniciar una nueva empresa de ciencia de datos en un país en desarrollo como Bangladesh
- ¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?
- ¿Qué tan importante es el cálculo para la ciencia de datos?
- Cómo comenzar a participar y prepararse en hackatones para la ciencia de datos
- Es más barato desarrollar el análisis o algoritmo. Esto consta de dos partes:
- El lenguaje que requiere que los científicos de datos pasen la menor cantidad de tiempo aprendiendo cómo hacer el análisis. Por ejemplo, si las necesidades comerciales requieren un algoritmo avanzado de aprendizaje automático, y sus científicos de datos solo saben cómo hacer aprendizaje automático en Python, usted elige Python.
- El lenguaje que requiere menos tiempo para desarrollar el análisis.
- Es fácil de integrar con otros componentes de la empresa. Si la empresa tiene un sitio web y quiere mostrar perfiles de riesgo de prestatario en vivo, entonces un lenguaje que se integre bien con el sitio web tiene sentido para el análisis.
- Se adapta a las necesidades comerciales de la empresa. Por ejemplo, si la empresa quiere construir un motor en tiempo real para ejecutar rápidamente las operaciones, el lenguaje debe ser lo más rápido posible. Si una empresa quiere un aprendizaje profundo, el idioma debe ser compatible.
Python tiende a ser favorecido sobre R en situaciones donde el lenguaje necesita integrarse con otros componentes de la compañía, donde el resto de la compañía ya está usando Python (es decir, para un servidor web), y donde la ingeniería de datos es más importante que el aprendizaje automático y análisis. Enseñamos Python en Dataquest por estos motivos.
En última instancia, ambos idiomas son importantes para la ciencia de datos, pero espero que esta publicación muestre que el idioma es a menudo la última opción que debe hacer en un nuevo proyecto de aprendizaje automático o ciencia de datos.