Autor: Danijel Turina Datum: 2010-03-07 15:01:06 Grupe: hr.soc.religija Tema: Re: Vreme za testiranje Linija: 104 Message-ID: hn0bj2$594$5@ss408.t-com.hr |
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA512 Ged wrote: > Predlazem da se za svakog ucesnika konferencije religija uradi analiza > bogatstva recnika koji koristi u izrazavanju. Dovoljno je napraviti sasvim > jednostavan program kome u osnovi stoji dvodimenzionalna tabela. U jednu > dimenziju tabele se upisuje svaka nova rec na koju program naidje > pretrazivanjem arhive konferencijskih poruka. U drugoj dimenziji su redom > polja za sve (prave) osobe koje su ucestvovale. U celijama tabele se > inkrementira brojac svaki put kada neka osoba upotrebi rec koju program vec > poznaje, odnosno upise se novi red ako je rec nova. Potrebno je ignorisati > sve citate unutar poruka, delove pod znakovima navoda, i ne razlikovati > čćšđž od ccsdjz. Nije to baš tako jednostavno za napraviti. Napravio sam algoritam koji radi manje-više to čega si se ti sjetio, ali bez složene gramatičke analize i ručnog brisanja neoznačenih citata, bojim se da od toga nema ništa. Isto tako, neki korisnici koriste formatiranje koje moj algoritam ne čita (moš si mislit koji, Zec i Stanojević), neki koriste UTF-8, a neki su idioti koji ne znaju napisati dvaput istu riječ na isti način (pogodi koji su to). Analiza je sljedeća (skinuo sam u bazu zadnjih mjesec dana): http://www.danijel.org/skripte/frekvencija.html Skripta za frekvencijsku analizu po korisniku: http://www.danijel.org/skripte/userstat.php?user=Ged Umjesto "Ged" stavi bilo koji username (onako kako je napisan na tablici korisnika). Tako ćeš vidjeti što je definirano kao "riječ". Recimo, u slučaju Radoslava Price tablica riječi počinje ovako: a aaa aaaaa aaaaaa aaaaaaaa aaaaaaaaaa aaaaaaaaaaa aaaaaaaaajjj aaaaaaahaaaaaaa aaaaaajojjjjj aahhaaaa..a abeceda abel ad adacta adanas adresu advokat advokatura advokaturom advokaturu afera afere age agresije agresivna aha aha..da ahaaaaaaa ahaaaaaaaa ahaaaaaaaaa ahaaaaaaaaaa ahaaaaaaaaaaa ahaaaaaaaaaaaa ahaaaaaaaaaaaaa ahaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaaaaaaa ahaaaaaaaaaaaaaaaaaaaaaa ahhhhhha aj ajd ajde aje ajebat ajebatga ajebe ajjjjajjjajjjj ajojjjjj ajojjjjjjjj ajoojjjjj Ako nemam rječnik u kojem mogu dinamički provjeravati valjanost riječi, nemam drugog izbora nego takva sranja brojati pod riječi, pa onda ispada da je Prica pismena osoba budući da koristi puno "riječi". Goli algoritam bez semantičke verifikacije nije u stanju razlikovati "ajebe" od "akcelerator". - -- http://www.danijel.org/ -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.9 (GNU/Linux) iEYEAREKAAYFAkuTsaIACgkQU8G6/NHezOcXWgCg74sb8LcXyT3gtvGU4PrX/y/m fpsAn1fNvTBOI1rEe1ccazr2LI2f7LWo =p3Vd -----END PGP SIGNATURE----- |