¿Por qué la biblioteca de estadísticas de Python es tan limitada en métodos bioestadísticos avanzados en comparación con R, mientras que la biblioteca de Python de Machine Learning es mucho mejor?

Respuesta corta : R y las bibliotecas se centran (principalmente) en comprender datos e inferencias. Python y las bibliotecas se centran (principalmente) en el procesamiento de datos escalables con canalizaciones de extremo a extremo. Los estadísticos y la comunidad de investigación parecen preferir R para el análisis estadístico.

Respuesta larga

Históricamente, R es popular entre los estadísticos y bioinformáticos. Muchas bibliotecas se centran en soluciones exactas en comparación con las iterativas basadas en SGD o similares. Por ejemplo, la función `lm` de R se calcula mediante descomposición QR. La comunidad de investigación prefiere R, a pesar de sus idiosincrasias, principalmente debido a la simplicidad y las bibliotecas arcanas de R (implementadas principalmente sin escalabilidad en mente, que probablemente nunca se implementarán en Python u otros lenguajes). Por ejemplo, la interfaz de fórmula hace que los estadísticos / matemáticos se sientan como en casa, facilita la creación rápida de prototipos y la comprensión de los datos. Para datos grandes, la interfaz de fórmula es ineficiente en comparación con proporcionar [matemáticas] X [/ matemáticas] y [matemáticas] Y [/ matemáticas] (que están preprocesadas).

Python comenzó como un competidor de perl , inicialmente se usó para trabajos no estadísticos. Las bibliotecas estadísticas / ML se construyeron recientemente como (en comparación con R) con los cimientos de numpy / scipy / pandas y scikits . El éxito de python en comparación con R en el espacio de aprendizaje automático se debe principalmente a implementaciones unificadas (como scikit-learn ) y mejores prácticas de programación. Para hacer lo mismo, uno ha recorrido un conjunto de paquetes en R, aunque caret y mlr han hecho un trabajo encomiable. La mayoría de las bibliotecas de aprendizaje profundo tienen interfaces de python, lo que reduce la barrera de entrada para que los ingenieros de software la usen en el estilo API.

Editar: `lm` usa descomposición QR y no [matemática] (X’X) ^ – 1 [/ matemática]) directamente. Gracias a Adrian por la corrección.

AprendizajeAprendizaje automáticoProgramación informáticaPython (lenguaje de programación)R (lenguaje de programación)

Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1

Cómo visualizar Kernel CNN con una profundidad mayor de 3

¿Qué consejo daría Yoshua Bengio a los jóvenes investigadores que ingresan al campo del aprendizaje automático?

¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?

¿Cuáles son las principales similitudes y diferencias entre los alumnos basados en instancias y las máquinas de vectores de soporte?

¿Cuál es el mejor idioma para aprender a entrar en la ciencia de datos o big data en los requisitos actuales como graduado de comercio?

En primer lugar, todo depende de los contribuyentes de la biblioteca que están trabajando en el avance de estas bibliotecas. Los contribuyentes de estas dos bibliotecas son diferentes y, por lo tanto, la diferencia en el alcance.

En segundo lugar, R se desarrolla básicamente para el análisis de datos profundos solo mientras que Python tiene un alcance amplio que abarca desde el análisis de datos hasta el desarrollo de software y UI y Dios sabe qué. Si lo único que se supone que R hace mejor, no funcionará como se espera, ¿por qué alguien lo usará? En la biblioteca de aprendizaje automático de Python tiene interacciones mejores y fáciles con fuentes externas, por lo tanto, Python parece mejor en la biblioteca de aprendizaje automático.

Ashish Baboo

More Interesting

¿Qué enfoque de aprendizaje automático recomendaría realizar OCR (reconocimiento de caracteres) en un sistema de reconocimiento automático de matrículas?

¿Cuáles son las principales diferencias entre econometría y aprendizaje automático?

¿Es posible utilizar el aprendizaje automático para hacer un programa que pueda programar?

Dado el mismo tamaño de lote, ¿hay algún beneficio en transferir la capacitación CNN de una sola GPU a múltiples GPU (para un tamaño de lote de 128 en 4 GPU, cada GPU procesará 32 muestras)?

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

Cómo detectar si una imagen contiene uno o más rostros humanos

¿Cómo determinaría si el error de cuando ejecuta su algoritmo de aprendizaje automático es de alto sesgo o alta varianza (también conocido como corte o sobreajuste)?

¿Cuáles son algunas ideas importantes / brillantes en el aprendizaje automático?

¿Qué consejo le darías a los estudiantes de doctorado que comienzan su doctorado en aprendizaje automático?

¿El antiguo guardia de IA ha frenado la investigación de aprendizaje automático en el MIT?