¿Cuáles son las razones por las que Pandas aún no puede convertirse en el kit de herramientas más poderoso para el análisis de datos?

Pandas ha sido una adición muy significativa al kit de herramientas Python. Le permite a Python traer muchas fortalezas de R.

Personalmente, creo que Pandas es un kit muy poderoso. Sin embargo, la razón por la que no se usa ampliamente en la industria es porque es una adición relativamente reciente (creo que en algún lugar de 2008). Cambiar un ecosistema completo (p. Ej., En una organización, laboratorios de investigación) es un proceso lento y solo comienza unos años después de que la herramienta de lenguaje se haya enriquecido en funciones. Esto se debe a que las personas agregan sus propias capas de códigos y aplicaciones sobre la oferta principal.

Por ejemplo, me he encontrado con algunos investigadores, que tienen sus algoritmos completos codificados en R que se pueden usar en forma de biblioteca. Entonces, cualquier persona nueva que ingrese a sus laboratorios termina siendo parte del ecosistema R.

La segunda razón es que, por lo general, los sistemas de código abierto son menos preferidos por las industrias donde existen grandes requisitos de auditoría (por ejemplo, BFSI). Necesitan un seguimiento auditable de los cambios en las versiones y, por lo tanto, prefieren sistemas propietarios como SAS.

Creo que el uso de Pandas se volverá cada vez más convencional, pero no debemos esperar que reemplace las herramientas existentes en el corto plazo.

Espero que esto responda a su pregunta.

Gracias,
Kunal

Pandas es una herramienta increíble, y sí, también se usa ampliamente en la industria.

O al menos, en el lugar donde estoy trabajando, Pandas se usa ampliamente como una herramienta de análisis exploratorio.
Como Harshit Sharma mencionó, Pandas + Scikit-learn = Awesomeness.

Cuando se trata de la parte de limpieza y munging de datos, Pandas es una herramienta realmente maravillosa.

La disponibilidad de una gran cantidad de tutoriales en la web, y el desarrollo continuo, promete un Pandas mucho más fuerte y mejor para el análisis de datos.

Pandas es una de las herramientas que personalmente uso ampliamente en el análisis de datos. Es realmente útil en la validación y verificación de datos. Slice y dados son prácticos, por lo que también es fácil remodelar los datos, leer y escribir en cdv, pero pierde el modelo de estadísticas y es bueno cuando se usa junto con scikit-learn.

Todos tienen su elección personal cuando se trata de análisis de datos. R también proporciona una amplia gama de paquetes de datos y, al mismo tiempo, con casi todas las funciones proporcionadas por los pandas, por lo que prefiero R solo cuando mi trabajo se basa por completo en R, o bien pandas + scikit-learn en Python.

Cuando hablas de python, se ha convertido en un arma poderosa.
Mucha gente todavía está atrapada en R. Una vez que la gente comienza a migrar de R a Python, ganaría más tracción.

More Interesting

¿Cuál es la demanda de big data?

¿Cuáles son los peores gráficos que has encontrado?

¿Qué se necesita para que los datos sean espaciales?

¿Cuáles son los grandes proyectos de datos en torno a craigslist?

¿Qué es la ciencia de datos y el análisis y cómo puede beneficiar a las empresas?

¿Cuáles son los datos más valiosos cuando un usuario aleatorio de Internet usa su sitio web?

¿Cómo incorporan las empresas consultoras de alta dirección la experiencia en ciencia de datos en sus modelos de entrega actuales?

¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?

¿Cuánto debería cobrar un estadístico por el análisis de big data?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área

¿Dónde puedo obtener un conjunto de datos de muestra de la competencia de Deloitte, Kaggle, para predecir la pérdida de clientes en los dominios de seguros de vida?

¿Qué lo motivó a convertirse en gerente de ciencia de datos en lugar de permanecer en el papel de un científico de datos senior?

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

Soy un graduado de ingeniería actualmente colocado en TCS. ¿Cómo debo comenzar a aprender Análisis de datos?