¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

Para los impacientes, la diapositiva particular que describe el método está aquí: Concursos de ciencia de datos ganadores, presentados por Owen Zhang

La codificación funciona así. Para una ID de característica dispersa dada, digamos que ha ocurrido 10 veces en los datos de entrenamiento, 7 de los cuales fueron positivos y 3 negativos.

Para un ejemplo de entrenamiento dado con esa ID escasa, digamos que fue positivo. Así que restamos el ejemplo positivo, dándonos 6 ejemplos positivos y 3 negativos en el entrenamiento de lo contrario, dándonos una relación de 2/3. Ahora multiplicamos ese 2/3 por un número aleatorio cerca de 1 (digamos, 1 + uniforme / 20) y sacamos 1.02. Nuestro valor de característica para esa fila es 2/3 * 1.02.

En el momento de la prueba, solo usa la media empírica de las etiquetas para esa ID dispersa. En nuestro caso, esto sería 7/10.

More Interesting

Intuitivamente, ¿cómo afecta el tamaño del mini lote al rendimiento del descenso de gradiente (estocástico)?

Cómo hacer una carrera desde el nivel más básico hasta el nivel profesional en ciencia de datos, aprendizaje automático y aprendizaje profundo

¿Es aconsejable automatizar el trabajo del presidente de la Fed con un software de aprendizaje automático dado que sus decisiones se basan principalmente en datos?

¿Qué opinas de la biblioteca de aprendizaje profundo de código abierto de Amazon 'DSSTNE' (pronunciado Destiny)?

Cómo aprender a limpiar datos usando R rápidamente

¿Es GitHub o GitLab más adecuado para una empresa de ciencia de datos / ML?

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?

¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

¿Puede un fármaco ser estadísticamente efectivo para toda la población, pero estadísticamente no es efectivo para todas las subpoblaciones (como hombres y mujeres) por separado?

¿Qué es el aprendizaje automático?

¿Qué son los espacios latentes en el aprendizaje de representación?

Cómo verificar si el objeto de una imagen existe en otra imagen

¿Cuál es el editor preferido para un tipo de aprendizaje automático que trabaja principalmente en Python?

¿Cómo podría usar el aprendizaje automático para clasificar los datos 1D?