¿Los datos de centrado y escalado siempre dan mejores modelos lineales?

¿Siempre? No. De hecho, para una llamada “regresión lineal simple”, una regresión con solo una variable X (independiente) y una Y (dependiente), realmente no hay diferencia.

Pero para cualquier otro tipo de modelo con el que se trate, especialmente los modelos con términos de “interacción”, el centrado puede marcar una gran diferencia, no solo para la convergencia, sino también para la interpretación. Y el escalado , por ejemplo, garantizar que todas las variables escaladas en intervalos tengan una desviación estándar unitaria, es enormemente importante si uno está haciendo un análisis bayesiano, ya que de lo contrario lo anterior es a menudo una suposición. [Las prioridades se utilizan para la regularización, es decir, el control de la complejidad, en muchos entornos de aprendizaje automático; poner un prior en un coeficiente cuando no tienes idea de su tamaño real es un poco loco, y la escala ayuda con eso.]

He leído críticas sobre el centrado y el escalado, y nunca he visto ningún punto real para ellos, ya que SIEMPRE puedes recuperar los coeficientes “sin escala” a través de una simple multiplicación, y es solo un poco más de trabajo desenfocarlos (si uno realmente desea) Nunca se “pierde” información a través de estos procedimientos, y se gana mucha estabilidad e interpretabilidad. Y tenga en cuenta que agregar nuevas covariables a un modelo existente es radicalmente más fácil cuando todo está centrado y escalado, ya que no se espera que los coeficientes existentes cambien mucho (a menos que haya una fuerte multicolinealidad). Entonces, es realmente el proverbial “almuerzo gratis”: sin inconvenientes.

Ciencia de datosdatos

Related Content

¿Cuáles son los mejores sitios para aprender ciencia de datos?

En el aprendizaje automático, ¿por qué utilizamos un tercio de los datos para las pruebas y dos tercios para la capacitación? ¿Es sentido común o hay una razón científica?

¿Cuáles son las perspectivas para el análisis de big data en India?

¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?

¿Cómo se pueden aplicar los grandes datos a los pronósticos económicos?

¿Cuál es la diferencia entre CLI y GUI en redes?

Al medir las métricas para una startup, ¿cómo se tiene en cuenta un rango de superposición?

Una de las principales necesidades de escalado aparece en los modelos de entradas múltiples, para evitar la influencia debido a la escala (por ejemplo: una entrada es concentraciones entre 0 y 1, la otra son temperaturas entre 300 K – 1000 K); el escalado no hace diferencia en modelos con una sola entrada.

Por lo tanto, el escalado no “siempre” da mejores modelos lineales.

Pieter Krsteff-Jantcheff

A2A, gracias.

Dudo que mejore la calidad del modelo lineal en sí, pero puede reducir los errores de coma flotante y proporcionar una mejor base para comparar múltiples modelos. Un ejemplo notable donde esta última ventaja se realiza es el Teorema del límite central: antes de estudiar la secuencia de las variables aleatorias, primero las centramos y escalamos por el st.d ..

Pieter Krsteff-Jantcheff

More Interesting

¿Los grandes datos están afectando nuestra privacidad?

¿Qué son las pruebas de Big Data y un ejemplo de ello?

¿Cuáles son las características clave de OLAP y las herramientas de minería de datos y cómo se puede usar para ayudar al descubrimiento del conocimiento?

En Machine Learning, ¿pueden dos variables con alta correlación tener signos de coeficientes (pesos) diferentes y por qué?

¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?

Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

¿Cuál es la mejor tecnología, ciencia de datos o big data?

¿Qué es un data mart?

Cómo convertirse en un científico de datos, sin las habilidades necesarias

Un instituto de capacitación me dijo que no hay trabajo para principiantes en big data, ¿es cierto? Me aconsejan que vaya a un curso de ciencias de datos, ¿qué debo hacer?

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

¿Vale la pena intentar hacer ciencia de datos si uno no tiene experiencia en informática, matemáticas o estadísticas?

¿Se puede utilizar la ciencia de datos para SEO?

Cómo dominar la programación de Python para trabajos de ciencia de datos

¿Cuáles son algunos algoritmos de recuperación de información de los que siempre debe tener una sólida comprensión y por qué?

Web Analytics