¿Por qué, en su opinión, tantas compañías de investigación clínica se niegan a usar Python en lugar de SAS o R?

Creo que hay dos razones principales.

Primero: sin historia, sin tradición, sin confianza .

Los CRO confían principalmente en SAS, porque está formalmente validado y tiene una larga historia de uso exitoso. Y debido a una premisa totalmente falsa, la FDA requiere SAS para cualquier presentación. Por estas razones, los CRO no han confiado en R durante años. He estado luchando fuertemente contra muchos mitos y FUD [1] durante mucho tiempo para aumentar la conciencia sobre este tema. Hoy en día la situación es mucho mejor. Muchos (si no la mayoría) de los principales CRO usan R en sus cálculos y también en presentaciones.

Otro punto en esta historia es que R (precedido por S) ganó una posición muy alta en la medicina basada en evidencia (que es un superconjunto de investigación clínica) en los últimos 30 años. Algunos de los creadores de R son bioestadísticos, desde el principio hubo un gran énfasis en la implementación de métodos bioestadísticos en este campo [2]. Se han llevado a cabo miles de investigaciones científicas y se han escrito miles de artículos científicos basados ​​en cálculos realizados en R. Hoy en día, es realmente difícil encontrar un tema bioestadístico en StackOverflow y sitios similares donde al menos una respuesta proporcionada no esté basada en R . Las compañías farmacéuticas más grandes crean herramientas especializadas en R [3].

Pero incluso entonces R no tiene tan buena recepción como SAS.

Ahora solo puede imaginar cuán cautelosamente este mundo extremadamente conservador considera herramientas completamente nuevas, especialmente si son lenguajes de uso general (opuestos a R) y prácticamente no tienen antecedentes de uso detrás …

La segunda razón es la falta de:

  1. Implementación buena y confiable de muchos métodos estadísticos (¿por qué usar una herramienta, en la que tiene que implementar la mayoría del kit de herramientas usted mismo?) específicos para esta área [4]
  2. capa de metadatos (¡R sufre el mismo problema!)
  3. validación formal (R también sufre este problema, sin embargo, hay empresas comerciales que proporcionan instalaciones validadas de R [5]; esto no es un anuncio, solo una referencia)

Este es, como dije, un ambiente muy conservador . Pueden pasar muchos años antes de que su recepción cambie. No espere que el mundo de la investigación clínica siga y comparta el entusiasmo mundial sobre Python u otras herramientas nuevas, como Julia, por ejemplo.

No significa que Python no se use allí en absoluto. Python se usa en varias áreas de biociencias, en genética, por ejemplo. Es una buena herramienta para automatizar tareas. Pero no esperaría presentaciones hechas con Python. No dentro de la próxima década …

Notas al pie

[1] Miedo, incertidumbre y duda – Wikipedia

[2] R en investigación clínica y medicina basada en evidencia

[3] http://www.cioreview.com/news/gs…

[4] ¿Cuáles son algunos paquetes R populares que aún no se han portado a Python?

[5] Productos | Soluciones de mango

Dos razones principales Responsabilidad y legado.

Responsabilidad:

Si algo sale mal en SAS, entonces podría ser culpa de SAS si alguna vez alguna vez codificó incorrectamente una de las funciones. Como SAS lo sabe, validan su código ampliamente.

R y Python son de código abierto y se actualizan constantemente, lo que significa que abundan los errores. En su mayoría, esto se debe a problemas de versiones y las matemáticas subyacentes son en su mayoría estables, puede que tarde un poco en funcionar, pero si algo no funciona. Bueno, es de código abierto y gratuito, así que es tu culpa por confiar en él sin validarlo.

Legado:

Ya hay una gran cantidad de código SAS diseñado explícitamente para trabajar con bases de datos muy grandes en uso. Piense en todos los datos del paciente en los EE. UU. R tendrá dificultades para procesar eso, pero ese es el tipo de datos con el que se creó SAS. Esto no es un problema, ya que las computadoras domésticas pueden contener archivos más grandes que SAS procesados ​​en el pasado. Aún así, puede ver en la estructura de SAS que se hizo para analizar laboriosamente conjuntos de datos muy grandes donde entran en juego los problemas de memoria.