Ley de Zipf

 Aproximadamente el 50% del contenido de cualquier libro, artículo o conversación no será otra cosa que las mismas 50-100 palabras repetidas, mientras que aproximadamente la otra mitad serán palabras que aparezcan solamente una o dos veces

El lingüista de Harvard, George Zipf, en 1940 observó que la mayoría de las palabras, en un idioma, texto o conversación se repetían. Además se dió cuenta de que parecía existir un patrón en la frecuencia de uso de cada una de las palabras.

Zipf hizo el siguiente trabajo: Tomó un libro y contó el numero de veces que aparecía en él cada una de las palabras… Comprobó que la segunda palabra que más se repite aparece, aproximadamente, la mitad de veces que la primera, la tercera un tercio de veces que la primera, la cuarta, un cuarto de veces…

Zifp dedujo un patrón que se puede expresar del siguiente modo: La frecuencia de aparición de una palabra es proporcional al inverso de la posición que ocupa en el listado del número de apariciones de cada palabra.

Lo interesante es que esta tendencia aparece en todos los idiomas. Incluso en los "artificiales" como el esperanto.

En español, una de cada 16 palabras que aparecen en un texto es la palabra de. Las diez palabras más comunes, según la RAE son, de mayor a menor frecuencia de aparición: de, la, que, el, en,  y, a, los, se y del. En este caso, 1 de cada 4 palabras (25 %) que utilizamos se corresponderá con una de estas palabras. Es probable que este sea el motivo por el que se afirma que habitualmente utilizamos solo 800 palabras.

Activa los subtítulos en español, si lo deseas.

Pero no solo sucede esto en las palabras de un texto. También sucede en los apellidos de las personas. En España, el apellido más común es García, seguido de González, con la mitad de apariciones.

 Gráficas del ranking versus la frecuencia para las primeras 10 millones de palabras en 30 Wikipedias (descargas de octubre del 2015) en una escala logarítmica en los dos ejes.

Este patrón también se repite en otros fenómenos como el numero de habitantes de las ciudades, tráfico en internet, magnitud de los terremotos.

Se ha comprobado que sucede los mismo con el número de veces que se menciona cada mes del año, cada elemento químico de la Tabla Periódica o cada planeta del Sistema Solar.

Y no solo sucede en nuestro mundo… Analizando textos de Ciencia Ficción en los que se crean, artificialmente, nombres de planetas, personajes, sucede lo mismo.

La ley de Zipf forma parte de las leyes de la Bibliometría. La Bibliometría es una parte de la Cienciometría que aplica métodos matemáticos y estadísticos a toda la literatura de carácter científico y a los autores que la producen, con el objetivo de estudiar y analizar la actividad científica


Ismael Camarero

Para saber más:



Comentarios

Entradas populares de este blog

La garra de Arquímedes

Difusión: Ley de Fick

¿Cómo se mide la distancia desde la Tierra a la Luna?