Si tenemos la longitud de un sitio de reconocimiento de restricciones, ¿cómo podemos identificar la cantidad de este sitio en un genoma determinado?

Fácil. Puede determinar la frecuencia del sitio en general multiplicando la frecuencia de las bases componentes. Esto le da la frecuencia del sitio de restricción. Una vez que conozca la frecuencia, puede multiplicar eso por el tamaño del genoma para obtener una estimación del número esperado de sitios allí.

Sitio de ejemplo: CAGGCCTG

Si las bases mismas están distribuidas uniformemente (el genoma consiste en cantidades iguales de A, T, G, C), entonces la frecuencia de un nucleótido dado en una posición dada será 1/4. Esto significa que la frecuencia general del sitio de restricción es 1/4 * 1/4 * 1/4 * 1/4 * 1/4 * 1/4 * 1/4 * 1/4, o [matemáticas] 1 / (4 ^ 8) [/ math] – uno cada 65,536 bases, o ~ 0.0000153 por base del genoma. Si el genoma es de mil millones de bases (1 gigabase), esperará encontrar ~ 0.0000153 * 1,000,000,000 = 15,300 instancias de ese sitio de restricción exacto en el genoma.

Tenga en cuenta que las frecuencias de nucleótidos casi nunca se distribuyen de manera uniforme, por lo que en su cálculo de frecuencia, ajustará sus números para reflejar la composición genómica medida. Pero si está haciendo esto sin un conocimiento previo de la composición de nucleótidos, asumir una distribución uniforme de las bases suele ser una estimación segura.

Las desviaciones de la frecuencia esperada pueden apuntar a una biología interesante. El Proyecto Genoma Humano aprovechó el hecho de que los sitios NotI, GGCGCGCC, son significativamente más raros de lo que cabría esperar al multiplicar las frecuencias de las bases. Los sitios NotI son puntos de referencia útiles espaciados distantemente en el genoma. Si clonas un gen humano en un vector, flanquearlo con sitios NotI casi siempre significa que puedes extraer el gen sin cortarlo, porque los sitios NotI son muy raros.

¿Por qué son los raros? Tenga en cuenta que el sitio contiene dos dinucleótidos CG. Los mamíferos metilaron muchas C en este contexto. Las citocinas se delaminan espontáneamente a baja frecuencia a U, que las enzimas reparadoras pueden reconocer como incorrectas. Pero Meryl-C se deslamina a T, por lo que ahora no es obvio qué nucleótido está mal, T o G, que es lo opuesto. Por lo tanto, a menos que C (o el G opuesto) sea funcionalmente relevante, los dinucleótidos CG desaparecen del genoma, por lo que CGCG (y sus superesitios) son muy raros.