Milyen kapcsolat lehet (ha egyáltalán van) két, semmiben sem egyező film között – ha sem témájuk, sem a stílusuk, sem a koruk, sem a műfajuk, szóval semmijük mégcsak nem is hasonlít egymásra? Erre keressük mi is a választ: a benne szereplő szavak átfedése alapján. A filmekben elhangzott szavak alapján készítünk statisztikákat, párosítjuk a filmeket a szavak gyakoriság alapján.
Résztvevő kutatók
Feles Dániel, Korsós Milán, Prekopcsák Zoltán
Összegyűjtöttünk magyar feliratfájlokat (összesen 435 db-ot), szótöveztük őket és csináltunk belőlük egy-egy szógyakorisági listát. Érthető módon minden film listáján a névelők, a kötőszavak és egyéb, számunkra haszontalan szavak szerepeltek a lista élén.
A valóban releváns szavak kiszűrésére a következőt találtuk ki: minden szóra kiszámoltuk, hogy filmenként átlagosan hányszor fordul elő, és az ettől való eltérést figyeltük. Tehát ha például a "háború" filmenként átlagosan 3.6-szor szerepel, és az adott filmben 10-szer, akkor ez a szó 6,4-es értéket kapott, viszont kidobtunk minden szót ami átlagosan 10-szer vagy többször szerepelt. Minden filmre kiválasztottuk így a száz legnagyobb értékű szót.
Pár példa ezekre:
Forrest Gump: forrest, gump, mama, rák, jenny, fut
Gyűrűk ura: gyűrű, frodó, gandalf, zsákos, megye, hobbit
24 1x01 rész: palmer, walsh, óra, jack, értékel, számla, szenátor
24 1x24 rész: lány, jack, bauer, meghal, kikötő, holttest, szenátor
Ezután a top 100-as listák alapján próbáltunk hasonlóságot megállapítani filmek között. Egy nagyon egyszerű megközelítéssel annyit tettünk, hogy minden filmpárra megkerestük a top 100-as listákban a közös szavakat és összeadtuk az értékeiket. Pár film és a hozzá leghasonlóbbak:
Die Another Day (CD1): Die Another Day CD2, Gosford Park, Blood Work, Spy Kids 2
Gyűrűk ura (CD1): Gyűrűk ura CD2, Két torony CD1, CD2
A jövőben szeretnénk azzal foglalkozni, hogy kiszűrjük az írásjeleket, tiltólistát írjunk az általános szavakról. Mivel ez a projekt igen nyelvspecifikus, ezért szeretnénk a filmeket angolul, az eredeti nyelven is megvizsgálni, aminek eredményeképpen valószínűleg más eredményre jutnánk. Vagyis célunk, hogy összeszedjünk minél több angol feliratot és azokra is megcsináljuk ugyanezeket a méréseket.


