¿Cuál es el mejor marco de minería de datos?

Si conoce Java, entonces Apache Mahout (http://mahout.apache.org/) podría ser la mejor opción para usted.

Llegó con algoritmos de minería de datos que puede conectar y reproducir para su aplicación. Dichos algoritmos son:

Clasificación
¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?
¿Puedo usar el concepto de aprendizaje automático para predecir cuánta cantidad de comida cocinar por día en un restaurante?
¿Cuáles son los temas más comunes omitidos de los cursos de aprendizaje automático?
¿Pueden las redes neuronales convolucionales entrenarse para jugar al ajedrez realmente bien?
¿Cuáles son las características de un motor BS4?

Regresión logística (SGD)
Bayesiano
Support Vector Machines (SVM) (abierto: MAHOUT-14, MAHOUT-232 y MAHOUT-334)
Perceptron y Winnow (abierto: MAHOUT-85)
Red neuronal (abierta, pero MAHOUT-228 podría ayudar)
Bosques aleatorios (integrados – MAHOUT-122, MAHOUT-140, MAHOUT-145)
Máquinas de Boltzmann restringidas (abiertas, MAHOUT-375, GSOC2010)
Pasivo en línea agresivo (integrado, MAHOUT-702)
Impulso (en espera de confirmación de parche, MAHOUT-716)
Modelos ocultos de Markov (HMM) (MAHOUT-627, MAHOUT-396, MAHOUT-734) – La capacitación se realiza en Map-Reduce

Agrupamiento

Agrupación de dosel (MAHOUT-3 – integrado)
Agrupación de medias K (MAHOUT-5 – integrado)
Fuzzy K-Means (MAHOUT-74 – integrado)
Maximización de Expectativas (EM) (MAHOUT-28)
Agrupación de desplazamiento medio (MAHOUT-15 – integrado)
Agrupación jerárquica (MAHOUT-19)
Agrupación de procesos de Dirichlet (MAHOUT-30 – integrado)
Asignación de Dirichlet latente (MAHOUT-123 – integrado)
Agrupación espectral (MAHOUT-363 – integrado)
Minhash Clustering (MAHOUT-344 – integrado)
Agrupamiento de arriba hacia abajo (MAHOUT-843 – integrado)

Minería de Patrones

Algoritmo de crecimiento paralelo de FP (también conocido como minería de conjuntos de elementos frecuentes)

Regresión

Regresión lineal ponderada localmente (abierta)

Reducción de la dimensión

Descomposición del valor singular y otras técnicas de reducción de dimensiones (disponible desde 0.3)
Descomposición estocástica del valor singular con flujo de trabajo PCA (flujo de trabajo PCA ahora integrado)
Análisis de componentes principales (PCA) (abierto)
Análisis de componentes independientes (abierto)
Análisis discriminatorio gaussiano (GDA) (abierto)

Algoritmos Evolutivos

ver también: MAHOUT-56 (integrado)

Recomendaciones / Filtrado colaborativo

Recomendaciones no distribuidas (“Taste”) (integrado)
Filtrado colaborativo distribuido basado en elementos (integrado)
Filtrado colaborativo utilizando una factorización de matriz paralela (integrada)
Preguntas frecuentes por primera vez

Similitud de vectores

Mahout contiene implementaciones que permiten comparar uno o más vectores con otro conjunto de vectores. Esto puede ser útil si se trata, por ejemplo, de calcular la similitud por pares entre todos los documentos (o un subconjunto de documentos) en un corpus.

RowSimilarityJob: crea un índice invertido y luego calcula las distancias entre los elementos que tienen coincidencias. Este es un cálculo completamente distribuido.
VectorDistanceJob: ¿se une un lado del mapa entre un conjunto de vectores “semilla” y todos los vectores de entrada.

Se implementa sobre la plataforma Apache Hadoop, de modo que puede manejar gran cantidad de datos de su aplicación principal.