Con ecuaciones, físicos describen la evolución de las palabras

Arturo López
21/mar/2020

En el año 1800, la palabra “internet” no existía, pero a partir de 1971 apareció y su uso aumentó progresivamente. Así como ella, muchas otras palabras han cambiado, surgido o desaparecido a través del tiempo. Y un grupo de físicos del Instituto de Física se han dedicado varios años a describir cómo sucede esta evolución.

El análisis, publicado recientemente en Physica A, fue realizado por los científicos Germinal Cocho (el último en el que participó), Rosalío F. Rodríguez, Carlos Pineda, Jorge Flores, todos del Instituto de Física, en conjunto con Carlos Gershenson, del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas, y Sergio Sánchez, de la Facultad de Ciencias, ambos también adscritos al Centro de Ciencias de la Complejidad.

La mayor parte de los investigadores que participaron en el estudio. Foto: UCIF.

Lo que muestran en el trabajo es una forma de describir, con una ecuación y con base en el análisis de miles de libros escritos desde el año 1500 hasta 2018,cómo cambian las palabras a través del tiempo.

Según los autores, esta clase de estudios pueden resultar de enorme utilidad para las herramientas de predicción de textos como teclados de Google o Safari, la matriz de aprendizaje de las inteligencias artificiales y dentro de los estudios lingüísticos.

Palabras que “caminan” al azar

No es la primera vez que el grupo de investigadores analiza el lenguaje en el tiempo. En 2015, el equipo realizó otro trabajo enfocado en encontrar cómo se distribuían ciertas palabras en diferentes idiomas a través del tiempo, mientras que el actual busca describir la evolución de las palabras con una ecuación única.

“Son dos trabajos diferentes. Ambos ocupan un análisis acerca de propiedades estadísticas de lenguajes, pero desde ópticas distintas”, dijo a Noticias IFUNAM el investigador Carlos Pineda.

El nuevo trabajo está enfocado principalmente en algo conocido como “dinámica de rango”, es decir, cómo se comporta una palabra determinada a través del tiempo; a cada palabra analizada se le asigna un valor numérico y, dependiendo de en cuántos textos se repite en relación al tiempo, ese rango aumenta.

“Una palabra como internet, por ejemplo, no existía en 1800, pero de un momento a otro subió su popularidad; hay otras palabras que suben, bajan, de acuerdo a sucesos culturales (…), por ejemplo. Entonces esas palabras tienen un movimiento errático en el tiempo”, explica Pineda.

Esta clase de modelos, por ser erráticos y con elementos al azar, también son denominados procesos “estocásticos”. Estos procesos tienen un componente aleatorio y van evolucionando con relación a otra variable, que usualmente es el tiempo.

“Si tu miras, por ejemplo, a un borrachito, su movimiento es un proceso estocástico, porque va caminando y se mueve para allá y de pronto para acá. Es como un caminante aleatorio y lo puedes denominar como un proceso estocástico (…) las palabras también se mueven un poco como borrachitos”, dice el investigador.

Aun cuando la evolución de las palabras es un proceso aleatorio, el grupo de investigadores decidió explorar si podía ser descrito con una ecuación de movimiento estocástico y, para su sorpresa, encontraron que sí era posible.

Como resultado de su análisis, los investigadores descubrieron que la dinámica de rango para estos 6 idiomas diferentes describía una gráfica sigmoide similar.

Una función que se repite en todos lados

Otra razón para relacionar la evolución de las palabras es que, al utilizar una ecuación de movimiento estocástico para describir la diversidad de rango y graficar los resultados, esta gráfica describía una función sigmoide.

La función sigmoide es una de las más comunes en la naturaleza; describe una acción que progresa constantemente hasta cierto punto, donde se acelera y, después, vuelve a desacelerar. La aplicación de sigmoides sigue usualmente una etapa de aprendizaje, una de crecimiento y termina en una de declive, situaciones que describen una inmensa cantidad de procesos conocidos, tales como el ciclo de la vida, la historia de las civilizaciones o incluso la efectividad de las medicinas.

Que las palabras, cuyo movimiento estocástico es tan errático y azaroso en el tiempo, pudieran ser descritas mediante una ecuación estocástica y que, al graficar los resultados de esta ecuación aplicada a esas palabras arrojara una curva sigmoide, sugirió a los investigadores que debía existir una explicación tan simple y común para este fenómeno como el ciclo de la vida.

“Eso (la función sigmoide en las palabras) sugiere que debe existir una explicación sencilla. Porque si te aparece eso (una curva sigmoide) en el lenguaje y te aparece en la evolución o en la economía de los países y también te aparece en las estadísticas de la FIFA, seguramente hay algo detrás que es común en todos ellos”, explica Pineda.

Los investigadores utilizaron la herramienta Google N-Gram Viewer, un motor de búsqueda electrónica que grafica la frecuencia con la que una determinada palabra o un grupo de palabras se repiten en fuentes escritas desde el 1500 hasta 2018. La razón para utilizar este motor, según Carlos Pineda, es por la “gran cantidad de datos que tiene”, ya que es precisamente encontrar datos una de las partes más difíciles al realizar investigaciones para sistemas complejos.

Este buscador de Google muestra una gráfica que refleja la frecuencia con la que una palabra es mencionada en textos de diferentes años.

El siguiente paso: un modelo nulo

Para describir esta clase de fenómenos con mayor precisión, es necesario crear un modelo matemático que pueda descartar lo superfluo y conservar lo fundamental para entenderlo de manera sencilla. A esta clase de modelo se le denomina “modelo nulo”. El grupo trabaja ahora en un modelo nulo que les permita describir una gran cantidad de sistemas con comportamientos similares de una manera análoga y simplificada, ejemplos de estos sistemas pueden variar, desde estadísticas deportivas hasta modelos de movilidad urbana.

“Estamos trabajando con Carlos Gersherson y con Gerardo Íñiguez para tomar un montón de bases de datos, incluyendo lenguajes, deportes, hienas, países, el metro, un montón de cosas. Estamos tratando de encontrar propiedades “comunes” en todos estos y creando un modelo nulo concreto para describir todos estos sistemas”, concluye el investigador.