NOTICIAS

¿Cómo ha cambiado el uso de las palabras en el tiempo?

Aleida Rueda
14/may/2015

En 1700, los cinco sustantivos más usados en español eran “fe”, “señor”, “cardenal”, “rey” y “dios”; en el año 2000, todos estos desaparecieron de los primeros lugares y han sido sustituidos por “parte”, “estado”, “años”, “vida” y “nacional”. Lo que ocurrió en esos tres siglos, la forma en que se ha modificado la frecuencia de las palabras año con año en seis idiomas distintos, ha sido modelado, por primera vez, por un grupo de físicos mexicanos.

Germinal Cocho, Jorge Flores y Carlos Pineda, investigadores del Instituto de Física, junto con Carlos Gershenson, del Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas, y Sergio Sánchez, de la Facultad de Ciencias, todos de la Universidad Nacional Autónoma de México, publicaron recientemente en PLOS One un estudio que aborda la evolución de las palabras utilizando herramientas de la física, la matemática, la estadística y la computación.


Los autores del artículo (de izq. a der): Sergio Sánchez, Carlos Pineda, Germinal Cocho, Jorge Flores y Carlos Gershenson. Foto: Isaac Chávez.

El primero de sus retos lo resolvió Google hace pocos años al anunciar que llevaría a cabo la maratónica tarea de escanear y digitalizar todos libros publicados desde 1500.

En el 2009 ya tenía un registro de 10 millones de libros así que los científicos procedieron a analizar la nada despreciable cantidad de 6.4x1011 palabras registradas en Google Books, provenientes de libros publicados desde 1700 en seis lenguajes: inglés, alemán, español, francés, italiano y ruso.

Luego hicieron listas de palabras, una para cada idioma y para cada año, ordenadas por su frecuencia con el fin de comparar cómo cambian los rangos en el tiempo.

“En una competencia, como un maratón, el rango k es simplemente el lugar en el que quedaron los competidores. El más rápido es el primero (k=1), y así hasta los más lentos. Para las palabras, el menor rango se da no por la velocidad sino por la frecuencia de uso de las palabras. Entonces la palabra más usada (“de” en español en el año 2000) tiene el menor rango y mientras menos se usen las palabras tendrán un mayor rango”, explica Carlos Gershenson.

Con este sistema encontraron que las palabras más usadas (menor rango) casi no cambian su lugar (en la misma analogía, los mejores corredores casi siempre quedan en los primeros lugares).

Mientras las palabras se usan menos, se incrementa el rango y la variación de su rango es mayor año con año (los corredores "del montón" casi no repiten el lugar en el que quedan en cada carrera).

Esto lo describieron a partir de un modelo Gaussiano de caminante aleatorio invariante de escala, una herramienta de la física estadística utilizada en diversos campos de las ciencias para encontrar ciertos patrones en sistemas complejos, es decir, aquellos que tienen varias componentes interconectadas.

La idea que utilizaron para modelar cómo cambia el rango de las palabras en el tiempo es una caminata aleatoria en la que se escoge al azar el tamaño del siguiente paso pero con cierta desviación estándar que nos dice qué tanto puede variar el paso.

“En el caso de nuestro modelo, la desviación estándar (el tamaño del paso) es proporcional al rango. Es decir, mientras más alto el rango (menos se use una palabra), potencialmente se moverá más lugares (de manera aleatoria) cada año. Las palabras más usadas (rangos menores) tienen pasos tan pequeños que en la práctica se mueven muy poco, tal como sucede en los datos estudiados”, explica Gershenson.

Por ejemplo, la palabra “the” (artículo en inglés) es una de bajo rango, porque su uso es muy frecuente y resulta que se ha mantenido así en todos los momentos de la historia, es decir, no hay cambios significativos en su uso en ninguno de los idiomas.

Pero hay otras cuyo uso es menos frecuente y entonces cambian en función de algún contexto histórico, como “dios” o “rey”, que eran palabras muy importantes pero cuya frecuencia ha disminuido actualmente. Cuando se fundó la ciudad, “Nueva York” comenzó a volverse muy popular, hubo un pico en su uso y después disminuyó. “Internet” es muy común pero antes ni siquiera existía, explica Carlos Pineda.

Su modelo les permitió definir varios tipos de rangos en el uso de las palabras y determinar tres regímenes: “cabeza”, “cuerpo” y “cola”, que corresponden a las palabras estructurales más comunes, las de uso general y las que son de uso más especializado, respectivamente.

El modelo no sólo permite identificar este tipo de regímenes, sino también hacerlo en todos los idiomas indoeuropeos disponibles en la base de datos de Google.

“Los lingüistas han estimado que existe un cuerpo de palabras común en todos los idiomas, un conjunto de palabras de uso frecuente que posibilita una comunicación básica que va desde las 1500 a las 3000 palabras. Este es el primer modelo que lo confirma”, explica Pineda.

Otra de las aportaciones es la posibilidad de hacer algunas predicciones estadísticas que pueden aportar mucha información a los lingüistas. Por ejemplo, explica Pineda, “si alguien desea saber en cuánto tiempo va a desaparecer la palabra “little”, podríamos ubicar la palabra en cierta parte de la escala y determinar un rango para su desaparición: 100 años; sería muy raro que desaparezca en un año pero también muy difícil que sobreviva 500 años”.

De acuerdo con Gershenson, se puede esperar que el comportamiento observado se mantenga y las palabras sigan cambiando de rango en proporción a su rango mismo (menor rango, menor cambio).

Sin embargo “no podemos predecir exactamente qué palabras incrementarán o disminuirán su uso, eso dependerá de mecanismos particulares que no podemos predecir. Como en un gas, podemos predecir su temperatura, pero no dónde se encontrará cada molécula”, concluye.


Lista de los sutantivos más utilizadas desde 1700. Fuente: artículo PlOS one.

Enlaces Relacionados