¿Cuáles son algunos proyectos de ciencia de datos de código abierto en Python?

¡Aquí están los 20 mejores proyectos de código abierto de Python Machine Learning!

  1. Scikit-learn , 18845 commits, 404 contribuyentes,
    www.github.com/scikit-learn/scikit-learn
    scikit-learn es un módulo de Python para aprendizaje automático creado sobre http://SciPy. Cuenta con varios algoritmos de clasificación, regresión y agrupación que incluyen máquinas de vectores de soporte, regresión logística, Bayes ingenuos, bosques aleatorios, aumento de gradiente, k-means y DBSCAN, y está diseñado para interactuar con las bibliotecas numéricas y científicas de Python NumPy y SciPy.
  2. Pylearn2 , 7027 commits, 117 contribuyentes,
    www.github.com/lisa-lab/pylearn2
    Pylearn2 es una biblioteca diseñada para facilitar la investigación del aprendizaje automático. Es una biblioteca basada en Theano
  3. NuPIC , 4392 commits, 60 contribuyentes,
    www.github.com/numenta/nupic
    La Plataforma Numenta para Computación Inteligente (NuPIC) es una plataforma de inteligencia de máquina que implementa los algoritmos de aprendizaje HTM. HTM es una teoría computacional detallada de la neocorteza. En el núcleo de HTM se encuentran los algoritmos de aprendizaje continuo basados ​​en el tiempo que almacenan y recuerdan patrones espaciales y temporales. NuPIC es adecuado para una variedad de problemas, en particular la detección de anomalías y la predicción de fuentes de transmisión de datos.
  4. Nilearn , 2742 commits, 28 contribuyentes,
    www.github.com/nilearn/nilearn
    Nilearn es un módulo de Python para un aprendizaje estadístico rápido y fácil sobre datos de NeuroImaging. Aprovecha la caja de herramientas de Python scikit-learn para estadísticas multivariadas con aplicaciones como modelado predictivo, clasificación, decodificación o análisis de conectividad.
  5. PyBrain , 969 commits, 27 contribuyentes,
    www.github.com/pybrain/pybrain
    PyBrain es la abreviatura de aprendizaje de refuerzo basado en Python, inteligencia artificial y biblioteca de redes neuronales. Su objetivo es ofrecer algoritmos flexibles, fáciles de usar y aún potentes para las tareas de aprendizaje automático y una variedad de entornos predefinidos para probar y comparar sus algoritmos.
  6. Patrón , 943 confirmaciones, 20 contribuyentes,
    www.github.com/clips/pattern
    Pattern es un módulo de minería web para Python. Cuenta con herramientas para minería de datos, procesamiento de lenguaje natural, análisis de redes y aprendizaje automático. Es compatible con el modelo de espacio vectorial, agrupamiento, clasificación usando KNN, SVM, Perceptron
  7. Fuel , 497 commits, 12 contribuyentes,
    www.github.com/mila-udem/fuel
    Fuel proporciona a sus modelos de aprendizaje automático los datos que necesitan para aprender. tiene interfaces para conjuntos de datos comunes como MNIST, CIFAR-10 (conjuntos de datos de imágenes), las palabras de mil millones de Google (texto). Le brinda la capacidad de iterar sobre sus datos de varias maneras, como en minibatches con ejemplos aleatorios / secuenciales
  8. Bob , 5080 commits, 11 contribuyentes,
    www.github.com/idiap/bob
    Bob es una caja de herramientas gratuita de procesamiento de señales y aprendizaje automático. La caja de herramientas está escrita en una combinación de Python y C ++ y está diseñada para ser eficiente y reducir el tiempo de desarrollo. Se compone de una cantidad razonablemente grande de paquetes que implementan herramientas para el procesamiento de imágenes, audio y video, aprendizaje automático y reconocimiento de patrones.
  9. skdata , 441 commits, 10 contribuyentes,
    www.github.com/jaberg/skdata
    Skdata es una biblioteca de conjuntos de datos para aprendizaje automático y estadísticas. Este módulo proporciona acceso estandarizado de Python a problemas con los juguetes, así como conjuntos de datos de procesamiento de lenguaje natural y visión artificial.
  10. LECHE , 687 confirmaciones, 9 contribuyentes,
    www.github.com/luispedro/milk
    Milk es un kit de herramientas de aprendizaje automático en Python. Se centra en la clasificación supervisada con varios clasificadores disponibles: SVM, k-NN, bosques aleatorios, árboles de decisión. También realiza la selección de funciones. Estos clasificadores se pueden combinar de muchas maneras para formar diferentes sistemas de clasificación. Para el aprendizaje no supervisado, la milk compatible con la agrupación de medios k y la propagación de afinidad.

  1. IEPY , 1758 commits, 9 contribuyentes,
    www.github.com/machinalis/iepy
    IEPY es una herramienta de código abierto para la extracción de información centrada en la extracción de relaciones
    Está dirigido a usuarios que necesitan realizar Extracción de información en un gran conjunto de datos. científicos que desean experimentar con nuevos algoritmos de IE.
  2. Quepy , 131 commits, 9 colaboradores,
    www.github.com/machinalis/quepy
    Quepy es un marco de Python para transformar preguntas de lenguaje natural en consultas en un lenguaje de consulta de base de datos. Se puede personalizar fácilmente para diferentes tipos de preguntas en lenguaje natural y consultas de bases de datos. Por lo tanto, con poca codificación puede crear su propio sistema para acceder a su base de datos en lenguaje natural.
    Actualmente, Quepy brinda soporte para los lenguajes de consulta Sparql y MQL, con planes de extenderlo a otros lenguajes de consulta de bases de datos.
  3. Hebel , 244 commits, 5 contribuyentes,
    www.github.com/hannes-brt/hebel
    Hebel es una biblioteca para el aprendizaje profundo con redes neuronales en Python que utiliza la aceleración de GPU con CUDA a través de PyCUDA. Implementa los tipos más importantes de modelos de redes neuronales y ofrece una variedad de diferentes funciones de activación y métodos de entrenamiento como impulso, impulso de Nesterov, abandono y parada temprana.
  4. mlxtend , 135 commits, 5 contribuyentes,
    www.github.com/rasbt/mlxtend
    Es una biblioteca que consta de herramientas y extensiones útiles para las tareas diarias de ciencia de datos.
  5. nolearn , 192 commits, 4 contribuyentes,
    www.github.com/dnouri/nolearn
    Este paquete contiene varios módulos de utilidad que son útiles con las tareas de aprendizaje automático. La mayoría de los módulos funcionan junto con scikit-learn, otros son más útiles en general.
  6. Rampa , 179 confirmaciones, 4 colaboradores,
    www.github.com/kvh/ramp
    Ramp es una biblioteca de Python para la creación rápida de prototipos de soluciones de aprendizaje automático. Es un marco ligero de aprendizaje automático basado en pandas que se puede conectar con herramientas existentes de aprendizaje automático y estadísticas de Python (scikit-learn, rpy2, etc.). Ramp proporciona una sintaxis simple y declarativa para explorar características, algoritmos y transformaciones de manera rápida y eficiente.
  7. Feature Forge , 219 commits, 3 colaboradores,
    www.github.com/machinalis/featureforge
    Un conjunto de herramientas para crear y probar funciones de aprendizaje automático, con una API compatible con scikit-learn.
    Esta biblioteca proporciona un conjunto de herramientas que pueden ser útiles en muchas aplicaciones de aprendizaje automático (clasificación, agrupamiento, regresión, etc.), y particularmente útiles si usa scikit-learn (aunque esto puede funcionar si tiene un algoritmo diferente).
  8. REP , 50 commits, 3 contribuyentes,
    www.github.com/yandex/rep
    REP es un entorno para realizar investigaciones basadas en datos de manera coherente y reproducible. Tiene un contenedor de clasificadores unificados para una variedad de implementaciones como TMVA, Sklearn, XGBoost, uBoost. Puede entrenar clasificadores en paralelo en un clúster. Es compatible con tramas interactivas
  9. Python Machine Learning Samples , 15 commits, 3 contribuidores,
    www.github.com/awslabs/machine-learning-samples
    Una colección de aplicaciones de muestra creadas con Amazon Machine Learning.
  10. Python-ELM , 17 commits, 1 contribuyente,
    www.github.com/dclambert/Python-ELM
    Esta es una implementación de Extreme Learning Machine en Python, basada en scikit-learn.

¡Siga a Quora User para obtener más respuestas de Data Science!

Venga a ayudarnos a hacer que el aprendizaje automático sea trivial para la atención médica: HealthCatalyst / healthcareai-py

Busque en Problemas -> Se busca ayuda.

Haga un comentario en una tarea Se busca ayuda para iniciar una conversación. 🙂

Aquí hay una buena lista de proyectos increíbles en los que puedes contribuir usando Python: vinta / awesome-python

Contiene una sección para aprendizaje automático / ciencia de datos.