Hay varias herramientas / paquetes que recientemente se hicieron muy populares. Sin duda, “scikit-learn: machine learning en Python” es uno de ellos. Como definieron su producto:
Scikit-learn integra algoritmos de aprendizaje automático en el mundo científico de Python , muy unido, basándose en numpy, scipy y matplotlib. Como módulo de aprendizaje automático, proporciona herramientas versátiles para la minería y el análisis de datos en cualquier campo de la ciencia y la ingeniería. Se esfuerza por ser simple y eficiente , accesible para todos y reutilizable en diversos contextos.
Contiene toneladas de algoritmos de aprendizaje supervisados y no supervisados, métodos de conjunto y muchos métodos de muestreo y optimización también están disponibles. Recientemente comenzaron la adición de “Procesamiento de imagen en Python” al paquete que nuevamente contiene muchos algoritmos útiles, como la coincidencia de plantillas y muchos más …
Para un proyecto amante de Python como Disco, sería una buena opción comenzar a experimentar con Big Data, aunque uno puede considerar migrar de él a Hadoop después de un tiempo. Pydoop es la API de Python para Hadoop que puede facilitar esta transición.
La imagen a continuación reúne la mayoría de las herramientas de Python para trabajar con Big Data:
- Cómo construir una aplicación web con capacidades de aprendizaje automático
- ¿Cuál es la regla de entrenamiento para redes de perceptrón de capa única con umbral?
- Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?
- ¿Necesita saber la teoría de la medida para hacer investigación de aprendizaje automático?
- ¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?
Además de Python, The R Project for Statistical Computing ofrece una gran colección de herramientas para aprovechar Big Data. La imagen a continuación también proporciona algunos nombres importantes alrededor de R:
fuente de imágenes: http://datacommunitydc.org/blog/…