¿Cuáles son los libros de texto clásicos y de lectura obligatoria en las estadísticas?

Aquí está la lista que he compilado hasta ahora. Todavía no he leído todo esto.

Libros recomendados por Michael Jordan para estudiantes / investigadores de doctorado de ML, publicados originalmente en Aprendizaje sobre aprendizaje estadístico:

Personalmente, creo que todos en el aprendizaje automático deberían estar (completamente) familiarizados con esencialmente todo el material en el siguiente libro de estadísticas de nivel intermedio:
¿Qué puedo hacer para mejorar el proceso de clasificación con Weka o NLTK?
¿El evento IBM Watson vs. Jeopardy perjudicó los campos de aprendizaje automático e inteligencia humana?
¿Cuáles son algunos libros sobrevalorados en aprendizaje automático, estadísticas y aprendizaje profundo?
¿Cuál es la diferencia entre un enrutador CNC y un molinillo CNC?
¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

1.) Casella, G. y Berger, RL (2001). “Inferencia estadística” Duxbury Press.

Para un libro un poco más avanzado que es bastante claro sobre técnicas matemáticas, el siguiente libro es bastante bueno:
2.) Ferguson, T. (1996). “Un curso de teoría de muestras grandes” Chapman & Hall / CRC.

Tendrá que aprender algo sobre las asíntotas en algún momento, y un buen punto de partida es:
3.) Lehmann, E. (2004). “Elementos de la teoría de la muestra grande” Springer.

Esos son todos libros frecuentistas. También deberías leer algo bayesiano:
4.) Gelman, A. et al. (2003) “Análisis de datos bayesianos” Chapman & Hall / CRC.

y deberías comenzar a leer sobre el cálculo bayesiano:
5.) Robert, C. y Casella, G. (2005). “Métodos estadísticos de Monte Carlo” Springer.

En el frente de probabilidad, un buen texto intermedio es:
6.) Grimmett, G. y Stirzaker, D. (2001). “Probabilidad y procesos aleatorios” Oxford.

En un nivel más avanzado, un texto muy bueno es el siguiente:
7.) Pollard, D. (2001). “Una guía del usuario para medir la probabilidad teórica” Cambridge.
El libro de texto avanzado estándar es Durrett, R. (2005). “Probabilidad: teoría y ejemplos” Duxbury.

La investigación del aprendizaje automático también descansa en la teoría de la optimización. Un buen libro inicial sobre optimización lineal que lo preparará para la optimización convexa:
8.) Bertsimas, D. y Tsitsiklis, J. (1997). “Introducción a la optimización lineal” Athena.

Y luego puedes graduarte para:
9.) Boyd, S. y Vandenberghe, L. (2004). “Optimización convexa” Cambridge.

Obtener una comprensión completa del álgebra lineal algorítmica también es importante. En algún momento deberías sentirte familiarizado con la mayoría del material en
10.) Golub, G. y Van Loan, C. (1996). “Cálculos matriciales” Johns Hopkins.

Es bueno saber algo de teoría de la información. El clásico es:
11.) Portada, T. y Thomas, J. “Elementos de la teoría de la información” Wiley.

Finalmente, si desea comenzar a aprender algunas matemáticas más abstractas, es posible que desee comenzar a aprender algunos análisis funcionales (si aún no lo ha hecho). El análisis funcional es esencialmente álgebra lineal en dimensiones infinitas, y es necesario para los métodos del núcleo, para los métodos bayesianos no paramétricos, y para varios otros temas. Aquí hay un libro que me parece muy legible:
12.) Kreyszig, E. (1989). “Análisis funcional introductorio con aplicaciones” Wiley.

Hay más recomendaciones en los comentarios a esa publicación. Jordan actualizó sus recomendaciones en su página Reddit AMA en reddit.com [agregó algunos números y formatos para mayor claridad]:

Esa versión particular de la lista parece ser una de hace unos años; Ahora tiendo a agregar algunos libros que profundizan aún más en temas fundamentales. En particular, recomiendo

1) Libro de A. Tsybakov “Introducción a la estimación no paramétrica”
como una fuente muy legible para las herramientas para obtener límites inferiores en estimadores, y

2) “Lecturas introductorias sobre optimización convexa” de Y. Nesterov, muy legibles, como una forma de comenzar a comprender los límites inferiores en la optimización. Yo tambien recomiendo

3) “Asymptotic Statistics” de A. van der Vaart, un libro que enseñamos a menudo en Berkeley, como un libro que muestra cuántas ideas en inferencia (estimación M, que incluye la máxima probabilidad y la minimización empírica del riesgo: el bootstrap, semiparametrics, etc) reposan sobre la teoría del proceso empírico. También incluiría

4) “La inferencia a gran escala de B. Efron: métodos empíricos de Bayes para la estimación, prueba y predicción”, como un libro que invita a la reflexión.

No espero que nadie venga a Berkeley después de haber leído ninguno de estos libros en su totalidad, pero sí espero que hayan hecho algunas muestras y hayan pasado un tiempo de calidad con al menos algunas partes de la mayoría de ellos. Además, no solo creo que eventualmente deberías leer todos estos libros (o alguna lista similar que refleje tu propia visión de las bases), sino que creo que deberías leerlos tres veces, la primera vez que apenas entiendes, la segunda vez que comienzas a obtenerlo, y la tercera vez todo parece obvio.
Estoy en esto a largo plazo, tres décadas hasta ahora, y espero que algunas más. Creo que eso también es cierto para mis alumnos. De ahí el enfoque en las ideas fundamentales.

También recomiendo la Casella & Berger y Lehmann. Yo agregaría lo siguiente:

Hastie, Tibshirani y Friedman “Los elementos del aprendizaje estadístico”
Wasserman “Todas las estadísticas: un curso conciso en estadística”
Wasserman “Todas las estadísticas no paramétricas”
Blitzstein & Hwang “Introducción a la probabilidad”
Billingsley “Probabilidad y medida”
Pearl “Causalidad: modelos, razonamiento e inferencia”
Tukey (1977) “Análisis de datos exploratorios”
McCullagh y Nelder “Modelos lineales generalizados”
Agresti “Análisis de datos categóricos”
Hosmer & Lemeshow “Regresión logística aplicada”
Fisher “Métodos estadísticos para investigadores”
Mosteller y Tukey (1977) “Análisis y regresión de datos: un segundo curso en estadística”

ETA:
Tufte “La visualización de la información cuantitativa”
Shalizi “Análisis avanzado de datos desde un punto de vista elemental”

Libros de historia:
Stigler “La historia de la estadística”
Salsburg “The Lady Tasting Tea”

Probablemente me faltan algunos geniales, así que espero que alguien más publique los que me perdí.