El paquete randomForest utiliza una implementación de C + Fortran que solo admite índices enteros, por lo que cualquier marco de datos / tabla / matriz de datos con> 2 ^ 31 elementos (límite para enteros) da un error.
También randomForest calcula la matriz de proximidad para los datos que tiene n ^ 2 elementos de tamaño donde n es el no. de registros en sus datos, si obtiene este error en un conjunto de datos de menos de 2 ^ 31 elementos, mantener la proximidad y mantener los argumentos forestales como FALSO ayudaría.
PD: esta es una pregunta más adecuada para el desbordamiento de pila
- ¿Whatsapp es una aplicación de minería de datos?
- ¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?
- ¿Qué temas de estadística debo aprender antes de aprender ciencia de datos si soy de un entorno no estadístico?
- ¿Alguien ha tomado un curso inmersivo de ciencia de datos con la Asamblea General cuando ya había hecho algo lejos de las computadoras? ¿Pudieron encontrar un trabajo?
- ¿Vale la pena hacer big data o no?
Edición 1: si su modelo se ejecuta con éxito con pocos árboles, puede entrenar varios modelos con pocos árboles y combinarlos en paralelo para obtener un modelo con un no grande. de arboles
por ejemplo, la declaración a continuación entrena a 6 modelos con menos árboles que finalmente se combinan para obtener un bosque con 25000 árboles. Cada modelo en este contendría 4166–4167 árboles. Además, esto se ejecutará más rápido que una sola instrucción randomForest con 25k árboles, ya que utiliza múltiples núcleos.
rf <- foreach (ntree = rep (25000, 6), .combine = combine, .multicombine = TRUE, .packages = 'randomForest')% dopar% {randomForest (x, y, ntree = ntree)}