¿Dónde puedo encontrar el código fuente de los algoritmos de Data Science?

No existen los algoritmos de ciencia de datos . Así que repasemos qué es la ciencia de datos y citaré Wikipedia:

La ciencia de datos es un campo interdisciplinario sobre procesos y sistemas para extraer conocimiento o percepciones de datos en varias formas, ya sea estructuradas o no estructuradas, [1] [2] que es una continuación de algunos de los campos de análisis de datos como estadísticas, minería de datos, y análisis predictivo, [3] similar al descubrimiento de conocimiento en bases de datos (KDD).

Pero creo que lo que realmente está buscando es aprendizaje automático, aprendizaje profundo y algoritmos de inteligencia artificial.

Hay muchas implementaciones de estos algoritmos disponibles como soluciones de código abierto como scikit-learn, xgboost, dl4j, tensorflow, caffee, etc. La lista es realmente muy larga y puede encontrar más en GitHub.

Con respecto a otras partes del flujo de trabajo de la ciencia de datos y en cuanto a las herramientas de limpieza y disputa de datos, Python and R tiene herramientas muy impresionantes y también parte disponible de soluciones de código abierto, por ejemplo, Pandas, dplyr, etc.

La visualización de datos tiene sus propios conjuntos de herramientas y biblioteca disponibles con implementaciones de código abierto.

Personalmente, todas las herramientas que utilizo son de código abierto, desde disputas de datos hasta procesamiento de datos, visualización e implementación de datos, etc.

Google es tu amigo ! Y cualquier otro motor de búsqueda 🙂

Espero haber respondido tu pregunta.

¿Cómo escribo un código C completo, incluidos todos los bucles y las condiciones de la línea de límite para la eliminación del nodo en el árbol de búsqueda binario?

¿El problema de las reinas N tiene al menos una solución por cada N> 3?

¿Qué es el recorrido NAT y por qué debería usarlo?

Cómo escribir un programa para implementar la búsqueda binaria

¿Cuál es el mejor algoritmo de aprendizaje profundo sin supervisión para aprender características de los datos de secuencia biológica?

Dado un gráfico de N vértices con m1 bordes unidireccionales y m2 bordes bidireccionales, ¿cómo podemos dirigir los bordes bidireccionales de modo que no tengamos ninguna caminata cerrada?

Dependiendo de su idioma de elección, su mejor opción es R o Python. Como estoy más familiarizado con este último, le sugiero que eche un vistazo a la biblioteca Scikit-learn [1] (también conocida como sklearn) que está construida sobre numpy y scipy, implementa una serie de aprendizaje automático y ciencia de datos algoritmos, incluida la limpieza y preprocesamiento de datos, y se publica bajo la licencia de código abierto BSD

Notas al pie

[1] scikit-learn: aprendizaje automático en Python

Claudio Martella

Si está familiarizado con alguna de las bibliotecas populares en Python, R, Java o C ++, puede ir al sitio web del proyecto y debe haber un enlace al código fuente (probablemente alojado en Github).

Por ejemplo,

repositorio central de scikit-learn

scikit-learn / Implementación de regresión de cresta

Elias Abou Haydar

Scikitlearn una biblioteca ML de código abierto de Python tiene un código fuente muy bien documentado disponible en github. Puedes atravesarlo

Claudio Martella

More Interesting

¿Qué libro debo comprar para aprender sobre algoritmos: estructuras de datos y algoritmos simplificados por Narsimha Karumanchi o Introducción a los algoritmos (CLRS)?

¿Cómo se mejora un algoritmo de aprendizaje automático basado en la experiencia?

¿Cuál es la nueva actualización del algoritmo de Google?

¿Cómo se implementa la cola prioritaria en C ++? ¿Cómo se hace usando STL?

¿Puede un algoritmo descubrirse a sí mismo?