Tu premisa es defectuosa.
He realizado algunos proyectos de aprendizaje automático en R yo mismo. Uno de mis proyectos académicos recientes es el modelado de temas usando la asignación de Dirichlet latente. Es un buen algoritmo de aprendizaje generativo probabilístico, no supervisado, para aprender temas en un corpus de texto que probablemente hayan generado el texto. También he usado K-Means, Registic Logistic y GLM en R.
Aquí hay una pequeña demostración divertida de K-Means que escribí rápidamente en R, como un ejercicio de transformación de datos cuando estaba entrenando a alguien:
- ¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?
- ¿Qué pila de tecnología usa Akinator?
- Los hiperparámetros del modelo de sintonización no encontraron los parámetros óptimos que uso en mi modelo. ¿Por qué?
- Cómo construir y trazar una gráfica de vecinos más cercanos
- ¿Dónde usamos las matemáticas discretas y la probabilidad en informática?
[No, no existen los K-Means buenos o malos, la trama tenía la intención de mostrar que K-Means no funciona muy bien en datos separables no linealmente, a menos que, por supuesto, podamos transformarlos en datos separables linealmente en especial casos y luego usar K-means. Todavía necesita hacer una elección sensata para los puntos de partida para asegurarse de que esto funcione.]
Del mismo modo, he trabajado en conjuntos de datos clínicos y genéticos utilizando Python y Scala (pista: Spark).
Muchas publicaciones de investigación usan R ya que existen herramientas como `RSweave` /` knitr` que se integran bien con RStudio y pueden usarse para producir documentos que faciliten la investigación reproducible. Del mismo modo, Python tiene muchos entornos de notebook como Jupyter (iPython) y Zeppelin para administrar el código y facilitar la investigación reproducible.
El uso depende de muchos factores, como la tarea en cuestión, la experiencia y el conjunto de habilidades del analista / científico de datos / programador que trabaja en la tarea y la infraestructura técnica disponible (Big Data / no Big Data; Hadoop + Spark + Fancy Visualization Tools / MATLAB / R) etc.
Tanto Python como R han creado un ecosistema robusto para ciencia de datos, estadísticas y aprendizaje automático. Ninguno de los dos es superior o inferior al otro, y mucho menos brillantemente o totalmente.