¿Cuáles son las herramientas / software más utilizados para el aprendizaje automático / big data?

Hay varias herramientas / paquetes que recientemente se hicieron muy populares. Sin duda, “scikit-learn: machine learning en Python” es uno de ellos. Como definieron su producto:

Scikit-learn integra algoritmos de aprendizaje automático en el mundo científico de Python , muy unido, basándose en numpy, scipy y matplotlib. Como módulo de aprendizaje automático, proporciona herramientas versátiles para la minería y el análisis de datos en cualquier campo de la ciencia y la ingeniería. Se esfuerza por ser simple y eficiente , accesible para todos y reutilizable en diversos contextos.

Contiene toneladas de algoritmos de aprendizaje supervisados ​​y no supervisados, métodos de conjunto y muchos métodos de muestreo y optimización también están disponibles. Recientemente comenzaron la adición de “Procesamiento de imagen en Python” al paquete que nuevamente contiene muchos algoritmos útiles, como la coincidencia de plantillas y muchos más …
Para un proyecto amante de Python como Disco, sería una buena opción comenzar a experimentar con Big Data, aunque uno puede considerar migrar de él a Hadoop después de un tiempo. Pydoop es la API de Python para Hadoop que puede facilitar esta transición.
La imagen a continuación reúne la mayoría de las herramientas de Python para trabajar con Big Data:


Además de Python, The R Project for Statistical Computing ofrece una gran colección de herramientas para aprovechar Big Data. La imagen a continuación también proporciona algunos nombres importantes alrededor de R:


fuente de imágenes: http://datacommunitydc.org/blog/…

13 herramientas que todo desarrollador necesita saber para trabajar con Big Data

Ya sea que diseñe un sistema para el análisis de datos grandes o simplemente intente recopilar y procesar los datos de sus aplicaciones móviles, no tiene que prescindir de las herramientas de análisis de alta calidad. La buena noticia es que en este momento muchas compañías están lanzando herramientas en el mercado que tienen en cuenta las necesidades de los desarrolladores y sus habilidades respectivas.

Durante el año pasado, conocí muchas empresas nuevas, proyectos y herramientas diseñadas para proporcionar a los programadores herramientas de análisis avanzadas. En algunos casos, se implementó en forma de scripts simples, de los cuales había suficientes soluciones potentes. Y en otros, estas herramientas pueden acceder a tecnologías más accesibles, incluso en versiones posteriores, a su vez, de la mayor parte del trabajo sucio y facilita el trabajo adicional. Creo que esta es una tendencia significativa en esta área.

  • En el mundo actual de las aplicaciones móviles y mucho más que nunca, haga negocios con una aplicación bastante simple. Incluso en grandes empresas, los desarrolladores participan en la atracción de recursos, demostrando la mayor rentabilidad de sus aplicaciones o encontrando formas más rentables de monetizarla. A veces, esto incluso lleva a la introducción de algunos procesos de procesamiento de datos en la aplicación misma.
    En cualquier caso, si su trabajo se refiere a escribir código, y no a flujos de datos, probablemente necesitará un poco de ayuda. A continuación, traje 13 herramientas diseñadas para ayudarte en este difícil asunto. Como sucede a menudo con tales colecciones, también podría eliminar algunos buenos ejemplos, por lo que los invito a una discusión activa en los comentarios.

Para obtener más información, siga: 13 herramientas que todo desarrollador necesita saber para trabajar con Big Data

Utilizamos MLJAR: es una plataforma para la creación rápida de prototipos, el desarrollo y la implementación de algoritmos de reconocimiento de patrones. Funciona con muchos tipos de datos, básicamente todos los datos son matrices.

Solo necesita 3 pasos para crear los modelos de Machine Learning más precisos [1]

Notas al pie

[1] Plataforma para construir modelos de Machine Learning

Entonces, esta es una respuesta potencialmente extremadamente sesgada, porque es mi trabajo desarrollar este software … pero también lo uso MUCHO y se usa en ~ 5000 sitios institucionales en todo el mundo … SAS Enterprise Miner, si tiene acceso a él a través del trabajo o escuela – es bastante increíble Aquí hay un recurso para las personas interesadas en las capacidades de ML.

papel: Página en sas.com
código: Página en sas.com

Este es un ejemplo del tipo de cosas que puede hacer:

Este es un conjunto de 10 redes neuronales multiproceso (SMP o MPP) que se ejecutan simultáneamente. Tenga en cuenta que puedo usar código preconstruido donde quiera e inyectar mis propias modificaciones con el nodo de código SAS. Sé que no puedo escribir un ANN tan bueno como el SMP / MPP que tenemos disponible, así que solo uso ese algoritmo y luego hago modificaciones donde quiero más adelante en el flujo de trabajo.

Soy bastante nuevo en la comunidad de ciencia de datos, por lo que pensé que podría ser útil compartir algunas ideas y recursos que encuentro útiles mientras evaluaba qué herramientas enfocar mi tiempo de aprendizaje.

Amir proporcionó un buen resumen de las dos herramientas más populares para Data Science en la actualidad: R & Python. Aquí hay una excelente visualización de las diferencias entre R y Python:

¿Elegir R o Python para el análisis de datos? Una infografía

Para obtener información adicional sobre el uso relativo de estas y otras herramientas, KDNuggets realiza una encuesta anual de la comunidad de ciencia de datos:

R, Python Duel As Top Analytics, software de ciencia de datos – KDnuggets 2016 Resultados de la encuesta de software

Una advertencia importante es que el panorama del software para la ciencia de datos está creciendo a un ritmo increíble. Las nuevas herramientas y paquetes que hacen que el aprendizaje automático sea más potente y mucho más accesible para el laico (es decir, Google Cloud ML, Microsoft Azure ML, IBM Watson Analytics) están disponibles casi a diario. Queda por ver cuán ampliamente se adoptaron estas herramientas basadas en la nube (en su mayoría) basadas en GUI gratuitas.

Deeplearning4j es la herramienta de aprendizaje profundo más utilizada para JVM, Java y Scala. También es el marco de aprendizaje profundo más rápido en multi-GPU.

Aprendizaje profundo distribuido de código abierto para la JVM

También puede ver las herramientas que generalmente se usan en las competencias de Kaggle: Kaggle: ¿Qué herramientas usan los mejores participantes de Kaggle?

More Interesting

¿Cuál es la función de zeropad en CNN?

¿Necesito normalizar mis vectores de características antes de usar Deep Learning?

Cómo hacer la clasificación y agrupamiento de documentos en rapidMiner

¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?

Como ingeniero de ML en Quora, ¿alguna vez ha implementado un artículo de investigación en aprendizaje automático para resolver un problema técnico o de producto?

¿Qué cantidad de sistemas de recomendación se trata solo de usar el algoritmo correcto?

¿Cómo se usa el aprendizaje automático en la inversión?

¿Qué curso se sugiere para el aprendizaje automático que sea más un curso basado en proyectos?

¿Se están realizando estudios actuales que utilicen la minería de datos o el aprendizaje automático en campos científicos?

¿Qué computadora portátil debo obtener para aprender el aprendizaje automático, usando SAS, R, MATLAB, Python, etc.?

Cómo detectar texto / imágenes en una imagen de documento

¿Cuál es la mejor clase de Machine Learning en Penn?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

¿Qué tipo de antecedentes estadísticos debo tener para tomar el curso de Reconocimiento de patrones? Cual estadística Qué libro es útil para mi preparación?