Creo que hay dos razones principales.
Primero: sin historia, sin tradición, sin confianza .
Los CRO confían principalmente en SAS, porque está formalmente validado y tiene una larga historia de uso exitoso. Y debido a una premisa totalmente falsa, la FDA requiere SAS para cualquier presentación. Por estas razones, los CRO no han confiado en R durante años. He estado luchando fuertemente contra muchos mitos y FUD [1] durante mucho tiempo para aumentar la conciencia sobre este tema. Hoy en día la situación es mucho mejor. Muchos (si no la mayoría) de los principales CRO usan R en sus cálculos y también en presentaciones.
- ¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?
- ¿Los másteres en ciencia de datos son lo mismo que el análisis empresarial?
- ¿Qué curso de ciencia de datos es mejor para un principiante, el nanodegree analista de datos de Udacity o el curso de ciencia de datos?
- ¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?
- ¿Qué es la secuencia de clics?
Otro punto en esta historia es que R (precedido por S) ganó una posición muy alta en la medicina basada en evidencia (que es un superconjunto de investigación clínica) en los últimos 30 años. Algunos de los creadores de R son bioestadísticos, desde el principio hubo un gran énfasis en la implementación de métodos bioestadísticos en este campo [2]. Se han llevado a cabo miles de investigaciones científicas y se han escrito miles de artículos científicos basados en cálculos realizados en R. Hoy en día, es realmente difícil encontrar un tema bioestadístico en StackOverflow y sitios similares donde al menos una respuesta proporcionada no esté basada en R . Las compañías farmacéuticas más grandes crean herramientas especializadas en R [3].
Pero incluso entonces R no tiene tan buena recepción como SAS.
Ahora solo puede imaginar cuán cautelosamente este mundo extremadamente conservador considera herramientas completamente nuevas, especialmente si son lenguajes de uso general (opuestos a R) y prácticamente no tienen antecedentes de uso detrás …
La segunda razón es la falta de:
- Implementación buena y confiable de muchos métodos estadísticos (¿por qué usar una herramienta, en la que tiene que implementar la mayoría del kit de herramientas usted mismo?) específicos para esta área [4]
- capa de metadatos (¡R sufre el mismo problema!)
- validación formal (R también sufre este problema, sin embargo, hay empresas comerciales que proporcionan instalaciones validadas de R [5]; esto no es un anuncio, solo una referencia)
Este es, como dije, un ambiente muy conservador . Pueden pasar muchos años antes de que su recepción cambie. No espere que el mundo de la investigación clínica siga y comparta el entusiasmo mundial sobre Python u otras herramientas nuevas, como Julia, por ejemplo.
No significa que Python no se use allí en absoluto. Python se usa en varias áreas de biociencias, en genética, por ejemplo. Es una buena herramienta para automatizar tareas. Pero no esperaría presentaciones hechas con Python. No dentro de la próxima década …
Notas al pie
[1] Miedo, incertidumbre y duda – Wikipedia
[2] R en investigación clínica y medicina basada en evidencia
[3] http://www.cioreview.com/news/gs…
[4] ¿Cuáles son algunos paquetes R populares que aún no se han portado a Python?
[5] Productos | Soluciones de mango