¿Qué es la discretización de características?

Una razón por la que creo que el rendimiento puede ser bajo es porque las características que discretizabas no están lo suficientemente extendidas. Para tomar un ejemplo extremo, si una característica en particular siempre estuvo entre 0 y 1, excepto en un caso, se disparó hasta 1000, y luego trató de agrupar esta característica en contenedores de tamaño 10, entonces perderá mucha información. Si esto sucede, entonces quizás una forma de discretizar sería ejecutar algo como kmeans para agrupar los valores de las características. En el ejemplo que acabo de dar, k significa con, por ejemplo, 5 grupos probablemente dividiría el intervalo 0 a 1 en 4 grupos pequeños, y dejaría un grupo en 1000.

Otra alternativa es hacer lo que se llama cuantización suave: en lugar de solo codificar el bin en el que cae una entidad determinada, puede codificar la distancia del valor de la entidad desde cada centro de bin.

Una cosa más simple para intentar es reducir o aumentar el número de contenedores, solo para asegurarse de que no esté demasiado o mal ajustado.

Machine Learning

¿Se puede extraer información significativa de datos hash para el aprendizaje automático?

¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?

¿Cuáles son los temas que debo saber antes de comenzar el aprendizaje automático?

Cómo saber qué algoritmo usar y cuándo

¿Cuáles son los últimos desarrollos en clasificación?

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

Una buena elección de intervalos para discretizar su función continua es clave para mejorar el rendimiento predictivo de su modelo.

A menos que tenga un buen conocimiento o intuición sobre los valores comunes tomados por la función, los intervalos elegidos a mano o de igual ancho probablemente no darán buenos resultados. Es mejor encontrar los intervalos correctos utilizando los datos existentes. Puede usar cuantiles (de modo que el mismo número de ejemplos va en cada segmento), o si ha etiquetado los datos, otra técnica común es encontrar los intervalos que maximizan la ganancia de información de discretizar la característica con respecto a la variable objetivo.

Luego, puede probar usando diferentes números de cubos y usar el que tenga mejor rendimiento en un conjunto de validación.

Bharath Hariharan

More Interesting

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Una red neuronal necesita un nodo de salida para cada cosa que pueda clasificar?

Cómo evaluar la reciente eliminación de recomendaciones para usar hilo dental

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cuáles son sus 5 mejores técnicas empíricas para detectar BS?

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

¿Debo saber Python y R para aprender Machine Learning?