¿Dónde puedo encontrar el código fuente de los algoritmos de Data Science?

No existen los algoritmos de ciencia de datos . Así que repasemos qué es la ciencia de datos y citaré Wikipedia:

La ciencia de datos es un campo interdisciplinario sobre procesos y sistemas para extraer conocimiento o percepciones de datos en varias formas, ya sea estructuradas o no estructuradas, [1] [2] que es una continuación de algunos de los campos de análisis de datos como estadísticas, minería de datos, y análisis predictivo, [3] similar al descubrimiento de conocimiento en bases de datos (KDD).

Pero creo que lo que realmente está buscando es aprendizaje automático, aprendizaje profundo y algoritmos de inteligencia artificial.

Hay muchas implementaciones de estos algoritmos disponibles como soluciones de código abierto como scikit-learn, xgboost, dl4j, tensorflow, caffee, etc. La lista es realmente muy larga y puede encontrar más en GitHub.

Con respecto a otras partes del flujo de trabajo de la ciencia de datos y en cuanto a las herramientas de limpieza y disputa de datos, Python and R tiene herramientas muy impresionantes y también parte disponible de soluciones de código abierto, por ejemplo, Pandas, dplyr, etc.

La visualización de datos tiene sus propios conjuntos de herramientas y biblioteca disponibles con implementaciones de código abierto.

Personalmente, todas las herramientas que utilizo son de código abierto, desde disputas de datos hasta procesamiento de datos, visualización e implementación de datos, etc.

Google es tu amigo ! Y cualquier otro motor de búsqueda 🙂

Espero haber respondido tu pregunta.

Dependiendo de su idioma de elección, su mejor opción es R o Python. Como estoy más familiarizado con este último, le sugiero que eche un vistazo a la biblioteca Scikit-learn [1] (también conocida como sklearn) que está construida sobre numpy y scipy, implementa una serie de aprendizaje automático y ciencia de datos algoritmos, incluida la limpieza y preprocesamiento de datos, y se publica bajo la licencia de código abierto BSD

Notas al pie

[1] scikit-learn: aprendizaje automático en Python

Si está familiarizado con alguna de las bibliotecas populares en Python, R, Java o C ++, puede ir al sitio web del proyecto y debe haber un enlace al código fuente (probablemente alojado en Github).

Por ejemplo,

repositorio central de scikit-learn

scikit-learn / Implementación de regresión de cresta

Scikitlearn una biblioteca ML de código abierto de Python tiene un código fuente muy bien documentado disponible en github. Puedes atravesarlo