¿Cómo sabemos si los paquetes Python o R son correctos?

Esta es una razón importante por la que algunas corporaciones dudan en adoptar R, Python y otras herramientas similares. Siempre existe el riesgo de que errores no corregidos estropeen su análisis o generen resultados incorrectos cuando confía en el software gratuito creado por voluntarios.

Sin embargo, si ya es usuario de R o Python, hay algunas formas de mitigar ese riesgo. Por ejemplo, los paquetes / bibliotecas conocidos tienden a ser más seguros porque generalmente son mantenidos por equipos de programadores bien administrados que han examinado a fondo el código y responden rápidamente a los problemas. La gran base de usuarios de esos paquetes asegura que los errores obvios ya hayan sido detectados, reportados y corregidos. De hecho, las bibliotecas SciPy y NumPy de uso común probablemente están tan bien examinadas como las herramientas propietarias como SAS y MATLAB.

Pero si confía en paquetes / bibliotecas menos conocidos, entonces debe tener más cuidado. Esto es especialmente cierto para R, donde hay muchos paquetes oscuros creados por todo tipo de personas. Esos paquetes pueden no siempre estar bien implementados. Y si encuentra un error, es posible que el responsable de mantenimiento no siempre sea receptivo para solucionarlo.

Tenga en cuenta que el software propietario tampoco es perfecto. Estoy seguro de que MATLAB, SAS, STATA, etc. tuvieron problemas cuando se presentaron por primera vez. Con el tiempo, sin embargo, los problemas se corrigieron y sus productos mejoraron. El producto sólido que ve hoy es el resultado de décadas de mejora continua por parte de equipos de profesionales remunerados.

La gente odiará esta respuesta, pero tú no. Si es lo suficientemente importante para usted como para que sea realmente preciso, tendrá que construirlos desde la fuente y recorrerlo todo. Si no le gusta cómo se configura o funciona la fuente, es posible que deba crear la suya propia.

La respuesta corta que todos odiarán y pensarán es egoísta: = D

Para la mayoría de las personas no importa porque nunca verificarán y no necesitan todos los resultados precisos de lo que están haciendo o vendiendo de todos modos. Y realmente no hay mucho de malo en eso, no me malinterpretes. Pero sí, depure la fuente y, si no es lo suficientemente bueno, use otra cosa. Y dices que es imposible saberlo todo, estás parcialmente en lo correcto. Pero mantenga su kit de herramientas pequeño, bien conocido y efectivo, ¿verdad? Ser un maestro en el crecimiento productivo de capital bajo su control con un conjunto más pequeño de herramientas es mucho mejor que tratar de esperar que pueda saber más. Sin embargo, aún comienza con la fuente y presiona para aprender más constantemente.

Solo mis pensamientos. Esperemos que ayuden a comenzar la discusión.

Le daré una respuesta simple y corta: “valide cruzada” sus resultados de Matlab con Python y R (espero que entienda el chiste). Después de obtener algo de confianza en sus resultados, deje de usar Matlab.

Otro comentario, Matlab, Python y R tienen errores. No hay escapatoria.

Haga el trabajo usted mismo y luego compare los resultados.

^ La mejor manera de aprender los módulos de aprendizaje automático de sklearn.

Y, en muchos casos, estas son herramientas de código abierto con muchos contribuyentes. En otras palabras, los principales proyectos tienden a priorizar la verificación del trabajo y la responsabilidad de los demás.

Bueno, Numpy and R se usa para trabajos analíticos y de simulación muy serios por parte de grandes compañías e instituciones académicas, por lo que, por supuesto, se prueban rigurosamente y se pueden usar de manera segura.

¿Por qué preguntas de todos modos?

Muchos de los paquetes como numpy son de código abierto y gratuitos para que cualquier persona los inspeccione. Creo que hay muchas personas que los mantienen y también revisan las solicitudes de extracción entrantes.

Estamos de vuelta en. ¿Confía en el código cerrado multicorpo o en los chicos de la comunidad de código abierto?

R / Py son de código abierto: son controlados por muchas más personas cada día. Es como comparar un libro de texto comercial con una revista revisada por pares.