¿Qué es la discretización de características?

Una razón por la que creo que el rendimiento puede ser bajo es porque las características que discretizabas no están lo suficientemente extendidas. Para tomar un ejemplo extremo, si una característica en particular siempre estuvo entre 0 y 1, excepto en un caso, se disparó hasta 1000, y luego trató de agrupar esta característica en contenedores de tamaño 10, entonces perderá mucha información. Si esto sucede, entonces quizás una forma de discretizar sería ejecutar algo como kmeans para agrupar los valores de las características. En el ejemplo que acabo de dar, k significa con, por ejemplo, 5 grupos probablemente dividiría el intervalo 0 a 1 en 4 grupos pequeños, y dejaría un grupo en 1000.

Otra alternativa es hacer lo que se llama cuantización suave: en lugar de solo codificar el bin en el que cae una entidad determinada, puede codificar la distancia del valor de la entidad desde cada centro de bin.

Una cosa más simple para intentar es reducir o aumentar el número de contenedores, solo para asegurarse de que no esté demasiado o mal ajustado.

Una buena elección de intervalos para discretizar su función continua es clave para mejorar el rendimiento predictivo de su modelo.

A menos que tenga un buen conocimiento o intuición sobre los valores comunes tomados por la función, los intervalos elegidos a mano o de igual ancho probablemente no darán buenos resultados. Es mejor encontrar los intervalos correctos utilizando los datos existentes. Puede usar cuantiles (de modo que el mismo número de ejemplos va en cada segmento), o si ha etiquetado los datos, otra técnica común es encontrar los intervalos que maximizan la ganancia de información de discretizar la característica con respecto a la variable objetivo.

Luego, puede probar usando diferentes números de cubos y usar el que tenga mejor rendimiento en un conjunto de validación.

More Interesting

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Una red neuronal necesita un nodo de salida para cada cosa que pueda clasificar?

Cómo evaluar la reciente eliminación de recomendaciones para usar hilo dental

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cuáles son sus 5 mejores técnicas empíricas para detectar BS?

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

¿Debo saber Python y R para aprender Machine Learning?

¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?

¿SVM siempre supera a J48? Tengo un caso de uso donde J48 funciona mejor. ¿Significa que algo está mal con mi enfoque / implementación?

¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?

¿Por qué el aprendizaje profundo no tiene un mínimo local?

¿Cómo aprendo el aprendizaje automático y el procesamiento de imágenes para aplicaciones móviles? Por ejemplo, para usar los mismos efectos de filtro en aplicaciones iOS y Android, ¿debería usar Python?

¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?