¿Cómo sabemos si los paquetes Python o R son correctos?

Esta es una razón importante por la que algunas corporaciones dudan en adoptar R, Python y otras herramientas similares. Siempre existe el riesgo de que errores no corregidos estropeen su análisis o generen resultados incorrectos cuando confía en el software gratuito creado por voluntarios.

Sin embargo, si ya es usuario de R o Python, hay algunas formas de mitigar ese riesgo. Por ejemplo, los paquetes / bibliotecas conocidos tienden a ser más seguros porque generalmente son mantenidos por equipos de programadores bien administrados que han examinado a fondo el código y responden rápidamente a los problemas. La gran base de usuarios de esos paquetes asegura que los errores obvios ya hayan sido detectados, reportados y corregidos. De hecho, las bibliotecas SciPy y NumPy de uso común probablemente están tan bien examinadas como las herramientas propietarias como SAS y MATLAB.

Pero si confía en paquetes / bibliotecas menos conocidos, entonces debe tener más cuidado. Esto es especialmente cierto para R, donde hay muchos paquetes oscuros creados por todo tipo de personas. Esos paquetes pueden no siempre estar bien implementados. Y si encuentra un error, es posible que el responsable de mantenimiento no siempre sea receptivo para solucionarlo.

Tenga en cuenta que el software propietario tampoco es perfecto. Estoy seguro de que MATLAB, SAS, STATA, etc. tuvieron problemas cuando se presentaron por primera vez. Con el tiempo, sin embargo, los problemas se corrigieron y sus productos mejoraron. El producto sólido que ve hoy es el resultado de décadas de mejora continua por parte de equipos de profesionales remunerados.

Análisis deCiencia de datosdatosProgramación informáticaPythonR

¿Debo usar big data como tema de investigación para mi tesis? ¿Cuál es la diferencia entre cloud computing y big data?

¿Cómo deben usarse los grandes datos?

¿Qué tipo de predicción puede ser posible usando la ciencia de datos en LinkedIn?

¿Hay personas trabajando en big data en salud en India?

Cómo subir mi sitio web en los resultados de búsqueda

¿Qué tan difícil es ser admitido en el campo de entrenamiento de ciencia de datos de Insight?

La gente odiará esta respuesta, pero tú no. Si es lo suficientemente importante para usted como para que sea realmente preciso, tendrá que construirlos desde la fuente y recorrerlo todo. Si no le gusta cómo se configura o funciona la fuente, es posible que deba crear la suya propia.

La respuesta corta que todos odiarán y pensarán es egoísta: = D

Para la mayoría de las personas no importa porque nunca verificarán y no necesitan todos los resultados precisos de lo que están haciendo o vendiendo de todos modos. Y realmente no hay mucho de malo en eso, no me malinterpretes. Pero sí, depure la fuente y, si no es lo suficientemente bueno, use otra cosa. Y dices que es imposible saberlo todo, estás parcialmente en lo correcto. Pero mantenga su kit de herramientas pequeño, bien conocido y efectivo, ¿verdad? Ser un maestro en el crecimiento productivo de capital bajo su control con un conjunto más pequeño de herramientas es mucho mejor que tratar de esperar que pueda saber más. Sin embargo, aún comienza con la fuente y presiona para aprender más constantemente.

Solo mis pensamientos. Esperemos que ayuden a comenzar la discusión.

Benjamin Wiseman

Le daré una respuesta simple y corta: “valide cruzada” sus resultados de Matlab con Python y R (espero que entienda el chiste). Después de obtener algo de confianza en sus resultados, deje de usar Matlab.

Otro comentario, Matlab, Python y R tienen errores. No hay escapatoria.

Mike Sopko

Haga el trabajo usted mismo y luego compare los resultados.

^ La mejor manera de aprender los módulos de aprendizaje automático de sklearn.

Y, en muchos casos, estas son herramientas de código abierto con muchos contribuyentes. En otras palabras, los principales proyectos tienden a priorizar la verificación del trabajo y la responsabilidad de los demás.

Drew Rice

Bueno, Numpy and R se usa para trabajos analíticos y de simulación muy serios por parte de grandes compañías e instituciones académicas, por lo que, por supuesto, se prueban rigurosamente y se pueden usar de manera segura.

¿Por qué preguntas de todos modos?

Mike Sopko

Muchos de los paquetes como numpy son de código abierto y gratuitos para que cualquier persona los inspeccione. Creo que hay muchas personas que los mantienen y también revisan las solicitudes de extracción entrantes.

Estamos de vuelta en. ¿Confía en el código cerrado multicorpo o en los chicos de la comunidad de código abierto?

Benjamin Wiseman

R / Py son de código abierto: son controlados por muchas más personas cada día. Es como comparar un libro de texto comercial con una revista revisada por pares.

Benjamin Wiseman

More Interesting

Para Big Data, ¿cómo podría uno aprenderlo desde cero?

¿Cuál es el mejor marco de Python para el procesamiento en paralelo (procesamiento SMP y de clúster)?

¿Hay buenos entrenamientos sobre Scrum para Data Science / Agile Data Science?

Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante

¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?

Cómo engañar a los algoritmos de 'Big Data' para evitar el perfil y la orientación precisos de mí mismo

Usando datos y experiencia, estadísticamente, ¿cuál de ellos es más preciso y por qué?

¿Puedo usar el algoritmo de aumento de gradiente para datos con tiempo (año) y latitudes y longitudes como predictores?

¿Cómo es trabajar en una empresa de consultoría en ciencia de datos?

¿Qué idioma debería preferir para la ciencia de datos?