Generador lineal congruencial

Un generador lineal congruencial (GLC) es un algoritmo que permite obtener una secuencia de números pseudoaleatorios calculados con una función lineal definida a trozos discontinua. Es uno de los métodos más antiguos y conocidos para la generación de números pseudoaleatorios.[1]​ La teoría que sustenta el proceso es relativamente fácil de entender, el algoritmo en sí es de fácil implementación y su ejecución es rápida, especialmente cuando el hardware del ordenador puede soportar aritmética modular al truncar el bit de almacenamiento correspondiente.

Visualización de la generación de números pseudoaleatorios en el intervalo discreto utilizando un generador lineal congruencial. Las dos filas superiores muestran un generador con , y obteniéndose los números mostrados de izquierda a derecha hasta que se obtiene la semilla, y la secuencia repite. Una semilla de permite un ciclo de longitud pero una semilla de solo permite un ciclo de longitud . Utilizando y (fila inferior) se obtiene un ciclo de longitud para cualquier semilla.

Definición

La secuencia de números enteros está definida por la relación de recurrencia:

con donde (el módulo), (el multiplicador), (el incremento) y (la semilla o valor inicial) son números enteros no negativos.

Además a los números y se les impone las condiciones , , y .

Si , el generador es llamado frecuentemente Generador Congruencial Lineal Multiplicativo (GLMC) o generador de números pseudoaleatorios de Lehmer pero si , el generador es llamado Generador Congruencial Lineal Mixto (GLMC).[2]

Cada entero queda completamente determinado por las constantes y pues puede demostrarse por inducción matemática que para

Periodo

Se dice que un generador congruencial cumple un ciclo cuando el número entero , con , coincide con la semilla , cuando sucede esto, la secuencia de números generados se repetirá en el mismo orden.

El período de un generador congruencial se define como la longitud de un ciclo y dado que depende de y entonces el periodo máximo puede ser a lo más su módulo y en tal caso diremos que el generador congruencial tiene un periodo completo.

Si un generador congruencial tiene un periodo completo entonces para cualquier valor que tome la semilla en producirá un ciclo en algún orden pero si el generador no tiene un periodo completo, esto es, su periodo es menor a entonces la longitud del ciclo dependerá del valor escogido de la semilla .

Teorema

El generador congruencial lineal dado por

tendrá período completo para cualquier valor de la semilla en si y sólo si:[2][3]

  1. y son primos relativos, es decir, .
  2. es múltiplo de todos los factores primos de , es decir, para todo factor primo de .
  3. Si es múltiplo de entonces también lo es, es decir, .

Estas tres condiciones son conocidas como el Teorema Hull-Dobell.[4][5]

El Generador Congruencial Lineal Multiplicativo (GLMC) no cumple la primera condición, pues , por lo que no tienen periodo completo .

Aunque los GLC son capaces de producir números pseudoaleatorios que pueden pasar las pruebas de aleatoriedad, esta posibilidad es extremadamente sensible a la elección de los parámetros y .[aclaración requerida]

Históricamente, elecciones inadecuadas llevaron a implementaciones inefectivas de GLC. Un ejemplo que ilustra esta situación es el generador RANDU, que fue ampliamente utilizado a inicios de los 1970, y ha llevado a que en la actualidad, varios resultados sean puestos en entredicho por el uso de este GLC inefectivo.[6]

Parámetros de uso común

Los GLC más eficientes tienen un módulo igual a una potencia de 2, siendo más frecuentes o , porque esto permite que el operador módulo opere tan solo truncando todos los bits excepto los 32 o 64 bits más cercanos a la derecha (de hecho, esto puede lograrse simplemente al no computar en absoluto los bits más significativos). La siguiente tabla enlista los parámetros de varios GLC comúnmente usados, incluyendo las funciones "rand()" presentes en las bibliotecas runtime de varios compiladores.

Fuentem(multiplicador) a(incremento) cBits de salida en rand() o Random(L)
Numerical Recipes23216645251013904223
Borland C/C++232226954771bits 30..16 en rand(), 30..0 en lrand()
glibc (usado por GCC)[7]231 - 1110351524512345bits 30..0
ANSI C: Watcom, Digital Mars, CodeWarrior, IBM VisualAge C/C++[8]
C99, C11: Suggestion in the ISO/IEC 9899[9]
231110351524512345bits 30..16
Borland Delphi, Virtual Pascal2321347758131bits 63..32 de (semilla * L)
Turbo Pascal232134775813 (0x808840516)1
Microsoft Visual/Quick C/C++232214013 (343FD16)2531011 (269EC316)bits 30..16
Microsoft Visual Basic (6 and earlier)[10]2241140671485 (43FD43FD16)12820163 (C39EC316)
RtlUniform from Native API[11]231 − 12147483629 (7FFFFFED16)2147483587 (7FFFFFC316)
Apple CarbonLib, C++11's minstd_rand0[12]231 − 1168070ver MINSTD
C++11's minstd_rand[12]231 − 1482710ver MINSTD
MMIX by Donald Knuth26463641362238467930051442695040888963407
Newlib, Musl26463641362238467930051bits 63...32
VMS's MTH$RANDOM,[13]​ old versions of glibc23269069 (10DCD16)1
.Random en Java, POSIX [ln]rand48, glibc [ln]rand48[_r]248 − 125214903917 (5DEECE66D16)11bits 47...16

random0[14][15][16][17][18]

Si Xn es par, entonces Xn+1 será impar, y viceversa—el bit más bajo oscila a cada paso.

134456 = 2375812128411
POSIX[19]​ [jm]rand48, glibc [mj]rand48[_r]24825214903917 (5DEECE66D16)11bits 47...15
POSIX [de]rand48, glibc [de]rand48[_r]24825214903917 (5DEECE66D16)11bits 47...0
cc65[20]22365793 (1010116)4282663 (41592716)bits 22...8
cc6523216843009 (101010116)826366247 (3141592716)bits 31...16
Anteriormente de uso común: RANDU[6]231  655390

Como se puede observar, los GLC no siempre usan todos los bits en el valor que producen. Por ejemplo, la implementación de Java opera con valores de bits en cada iteración, pero solo retorna los bits más significativos. Esto se debe a que los bits superiores tienen periodos más largos que los inferiores (ver más abajo). Los GLC que usan esta técnica de truncado producen valores estadísticamente mejores en comparación a aquellos que no lo hacen.

Ventajas y desventajas

Los GLC son rápidos, y requieren poca memoria (normalmente 32 o 64 bits) para retener su estado. Esto los hace valiosos para simular flujos múltiples.

Hiperplanos de un generador lineal congruencial en tres dimensiones

Los GLC no deberían ser usados en aplicaciones para las que se requiera aleatoriedad de alta calidad. Por ejemplo, esta técnica es inadecuada para el uso en una simulación de Monte Carlo debido a la correlación serial de la secuencia (entre otros motivos). Tampoco deberían usarse para aplicaciones criptográficas; ejemplos de generadores más adecuados para esta función se pueden encontrar en Generador de números pseudoaleatorios criptográficamente seguro. Si un GLC es sembrado con un carácter e iterado una única vez, el resultado es un sencillo cifrado afín clásico, el cual puede ser descifrado con un análisis de frecuencia estándar.

Los GLC tienden a exhibir severos defectos. Por ejemplo, si un GLC es usado para elegir puntos en un espacio n-dimensional, los puntos yacerán ,a lo sumo, sobre (n!m)1/n hiperplanos (teorema desarrollado por George Marsaglia). Esto se debe a la correlación serial entre valores sucesivos en la secuencia Xn. La prueba espectral, la cual es una simple evaluación de la calidad de un GLC, está basada en este hecho.

Otro inconveniente del uso de esta técnica es que los bits de menor valor de la secuencia generada tienen un periodo mucho menor a la secuencia como un todo, si a le es asignado una potencia de 2. En términos generales, el bit menos significativo, ocupando el lugar en base en la secuencia de salida (tal que para un cierto entero ), se repite con periodo de, a lo sumo, .

Sin embargo, para varias aplicaciones los GLC son una buena opción. Un ejemplo puede verse en los sistemas embebidos, en los que la memoria disponible se ve severamente limitada. De manera similar, en un ambiente como una consola de videojuegos puede bastar referirse a los bits más significativos de la secuencia de salida. Los bits de menor orden de un GLC no deberían ser usados para ningún nivel de aleatoriedad si el valor m de dicho generador es una potencia de dos. En particular, cualquier GLC de ciclo completo cuando m es una potencia de 2 producirá alternativamente resultados pares e impares.

Comparación con otros generadores de números pseudoaleatorios

Los generadores basados en recurrencias lineales (como xorshift*) superan el desempeño de los GLC, incluso para un número total de estados pequeño, y si son adecuadamente perturbados en la señal de salida, pueden superar pruebas estadísticas difíciles. Varios ejemplos pueden encontrarse en la familia de generadores Xorshift.

El algoritmo Mersenne twister provee un periodo largo y uniformidad variada, pero no supera algunas pruebas estadísticas.[21]​ Una implementación común del Mersenne twister, usa un GLC para generar su semilla.[cita requerida]

Los generadores lineales congruenciales presentan el inconveniente de generar secuencias de salida cuyos bits presentan distintos niveles de aleatoriedad. Un generador que haga uso de un registro de desplazamiento con retroalimentación lineal produce un flujo de bits, cada uno realmente pseudoaleatorio,[22]​ y puede ser implementado en esencia, con la misma cantidad de memoria que un GLC, aunque usando más cómputos.

El registro de desplazamiento con retroalimentación lineal tiene una fuerte relación con los GLCs.[23]​Dados algunos valores en la secuencia, ciertas técnicas pueden predecir los siguientes valores en la secuencia, no solo para los GLC, sino también para cualquier otro generador congruencial polinomial.[23]

Referencias