Verborgen code in literatuur


boeken

Linguïst George Kingsley Zipf van Harvard universiteit deed in 1930 iets opmerkelijks. Hij liet wiskunde los op taal. Volgens de wet die hij formuleerde, gedragen woorden in boeken zich volgens een vast patroon. Zo komt het meest voorkomende woord twee keer zo vaak voor als het één-na meest voorkomende woord. Dat is weer twee keer zo frequent als het twee-na meest voorkomende woord; dat weer twee keer zo vaak voorkomt als het drie-na frequentste woord, enzovoort.

Onderzoeken die daarna zijn gehouden naar woordfrequentie in individuele boeken hebben Zipf gelijk gegeven. Sterker nog, de wet die hij opstelde bleek ook te kloppen voor zaken als de verdeling van tonen in een muziekstuk en het voorkomen van Chinese karakters. Een dergelijk patroon van evenredige afname van frequentie wordt sinds die tijd een Zipfdistributie genoemd. Statistici vinden het overal, zelfs bij inkomens en top 40 hits.

Spaanse onderzoekers waren benieuwd of Zipf wat betreft taal écht gelijk had. Zipf zelf moest nog met veel pijn en moeite woorden turven in papieren boeken. Nu hele bibliotheken zijn gedigitaliseerd en computers beschikbaar zijn voor het tellen, is een dergelijke analyse veel makkelijker. De taal- en literatuurwetenschappers van de Universitat Autònoma de Barcelona gebruikten de digitale Gutenberg bibliotheek en analyseerden daarin 30.000 Engelstalige boeken.

Wat blijkt? Zo’n 55 procent van de boeken houdt zich aan de wet van Zipf. De onderzoekers vermoeden dat in andere talen het percentage nog hoger ligt, aangezien het Engels weinig verbuigingen kent, zoals het Duits naamvallen heeft. Daardoor worden meer exact dezelfde woorden gebruikt, wat een verstoring van het patroon oplevert. Vooral in grote literatuur kwam de wet van Zipf tot zijn recht, werken van Shakespeare en Dickens waren volgens zijn patroon geschreven.

Het onderzoek is gepubliceerd in PlosOne.