¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?

Aunque Weka se usa típicamente para la exploración basada en GUI y el aprendizaje automático en conjuntos de datos que se ajustan a la memoria, existen algunos algoritmos que pueden transmitirse desde un disco y también otros enfoques que unen Weka a Hadoop o Spark, que están diseñados para el procesamiento de grandes datos Tareas. Aquí hay enlaces a tutoriales e información sobre el tema de Weka y big data:

  • Manejo de grandes conjuntos de datos con Weka
  • Weka y Hadoop
  • Minería de Big Data usando Weka 3

Además, no tenga miedo de ser creativo y usar su propio enfoque personalizado. Esto suele ser más simple que usar lo que está disponible. En PaperRater, utilizamos nuestro propio marco Map Reduce para evitar la complejidad innecesaria de Hadoop y Spark.

Weka funciona bien en conjuntos de datos relativamente pequeños, de 100 MB a 1 GB de tamaño. Weka no es adecuado para conjuntos de datos “Big Data” que no caben en la memoria de una sola máquina y requieren un clúster de servidores para el procesamiento en paralelo.

Para agregar a la respuesta de Justin Fister, hay un breve tutorial sobre cómo manejar grandes conjuntos de datos con Weka para evitar la excepción de “falta de memoria”: clasificación de grandes conjuntos de datos.

También hay un paquete para Weka distribuido con Apache Spark- ariskk / distribuidoWekaSpark

More Interesting

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿Facebook utiliza el aprendizaje automático?

Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

¿Cuáles son algunas aplicaciones del aprendizaje semi-supervisado?

¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

¿Es posible entrenar a un RNN en una sola secuencia extremadamente larga?

¿Cuál es la mejor manera de hacer reconocimiento / clasificación de múltiples objetos en tiempo real usando OpenCV y GPU (CUDA)?

¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?

Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés

¿La IA y el aprendizaje automático implican mucha codificación?

¿La programación de Python es suficiente para el aprendizaje automático o deberíamos aprender R también?

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

¿Cuáles son las relaciones entre el aprendizaje automático, el aprendizaje profundo, el aprendizaje supervisado y el aprendizaje no supervisado?

Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

¿Cuál es el plan de estudios de maestría de Stanford en AI / ML?