¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

Independientemente del método que elija, el uso de solo una fracción del conjunto de datos tabulares no afectará drásticamente el rendimiento del modelo . Más de 100 mil filas es difícil ver grandes mejoras de AUC al agregar más datos.

Además, SVM es notoriamente lento .

Si puedes usar un algoritmo lineal

¿Es el sesgo entre las mejores universidades frente a otras universidades en los Estados Unidos tan malo como el sesgo de IIT frente al resto de la India?
¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?
¿Hay alguna manera fácil de configurar AWS para el aprendizaje profundo con Tensorflow y Keras?
¿Cómo y dónde podemos comenzar a implementar proyectos basados en el aprendizaje automático y qué idioma es preferible para el mismo?
¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?

Pruebe LinearSVR en lugar del núcleo lineal (u otro) dentro de SVR.
Pruebe SGDRegressor en lugar de SVR. Más rápido y puede hacer un aprendizaje incremental a través de partial_fit , por lo que todo el conjunto de datos no se guarda en la memoria. Requiere más afinación.

Si tiene que usar un algoritmo no paramétrico (por ejemplo, para la precisión del modelo)

Pruebe NuSVR en lugar de SVR. Puede restringir el número de vectores de soporte para una solución más rápida (pero menos precisa).
Prueba RandomForestRegressor. Puede ser rápido con poca necesidad de sintonización.

Aprendizaje automáticoConjuntos de datosestadísticas

¿Es estúpido cambiar de trabajo de programación en C a aprendizaje automático?

¿Cómo tratan SVM y ANN los valores atípicos?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

Cómo encontrar mi dispositivo si no había conexión a Internet

¿Qué necesitas para hacer aprendizaje automático?

El muestreo estratificado es bueno cuando tiene grupos raros y datos desequilibrados. Si no hay buena evidencia de que tenga resultados raros o predictores raros en sus datos, una muestra aleatoria simple será suficiente (y reducirá el tamaño de sus datos). Si es grande y desordenado, puede considerar usar un método con menos complejidad computacional (modelo de regresión penalizado como LASSO o red elástica) o una capacidad para ejecutarse dentro de un marco MapReduce (paquete de guardabosques de bosque aleatorio en R, por ejemplo). Eso reducirá el tiempo de cálculo y la memoria requerida.

Marimuthu Ananthavelu

El muestreo estratificado es más apropiado cuando el tamaño de la muestra es limitado y pequeños subgrupos o “estratos” pueden estar sobre o sub representados en la muestra y, por lo tanto, sesgar los resultados.

Para un tamaño de muestra decente y suponiendo que cada elemento del conjunto de datos es igualmente probable que se seleccione, el muestreo aleatorio simple suele ser el más apropiado. Otros métodos de muestreo tienden a emplearse solo cuando no es factible obtener una muestra verdaderamente aleatoria.

Marimuthu Ananthavelu

En mi opinión, una simple muestra aleatoria de sus datos originales debería funcionar bien. La muestra aleatoria simple es imparcial y, en teoría, la muestra que obtenga debería ser la misma que su conjunto de datos completo.

Si usa Python, puede notar la función train_test_split que hace la división por usted. Es la función que utilizo personalmente con más frecuencia cuando quiero dividir aleatoriamente los datos de mi tren en trenes y conjuntos de validación. La función tiene una opción para especificar el uso de la técnica de muestreo estratificado para los datos de clasificación. En mi opinión, esto podría ser útil para tareas de clasificación con etiquetas muy desequilibradas, ya que le asegura obtener algunas muestras de las clases menores.

En su caso, dado que mencionó el análisis de regresión, no estoy seguro de cómo va a hacer un muestreo estratificado (¿desea hacerlo en una de las variables x?). Probablemente una muestra aleatoria simple sería la mejor en este caso.

Levi Thatcher

Usaría una muestra de los datos. No estoy seguro de cómo se ven sus datos, por lo que no estoy seguro acerca de la estratificación, pero al menos usaría una simple muestra de datos randon.

Levi Thatcher

More Interesting

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

¿Quién usa OpenNLP?

¿Cuáles son sus 5 mejores técnicas empíricas para detectar BS?

¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

Cómo etiquetar objetivamente objetos con etiquetas que son subjetivas, en sistemas expertos

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Debo ir a la Universidad de Radboud o Groningen para Machine Learning?

¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?

¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?

¿Cuáles son algunos ejemplos de inteligencia artificial en sitios web?