Autor: Danijel Turina
Datum: 2010-03-07 15:01:06
Grupe: hr.soc.religija
Tema: Re: Vreme za testiranje
Linija: 104
Message-ID: hn0bj2$594$5@ss408.t-com.hr

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA512

Ged wrote:
> Predlazem da se za svakog ucesnika konferencije religija uradi analiza
> bogatstva recnika koji koristi u izrazavanju. Dovoljno je napraviti sasvim
> jednostavan program kome u osnovi stoji dvodimenzionalna tabela. U jednu
> dimenziju tabele se upisuje svaka nova rec na koju program naidje
> pretrazivanjem arhive konferencijskih poruka. U drugoj dimenziji su redom
> polja za sve (prave) osobe koje su ucestvovale. U celijama tabele se
> inkrementira brojac svaki put kada neka osoba upotrebi rec koju program vec
> poznaje, odnosno upise se novi red ako je rec nova. Potrebno je ignorisati
> sve citate unutar poruka, delove pod znakovima navoda, i ne razlikovati
> čćšđž od ccsdjz.

Nije to baš tako jednostavno za napraviti. Napravio sam algoritam koji
radi manje-više to čega si se ti sjetio, ali bez složene gramatičke
analize i ručnog brisanja neoznačenih citata, bojim se da od toga nema
ništa. Isto tako, neki korisnici koriste formatiranje koje moj algoritam
ne čita (moš si mislit koji, Zec i Stanojević), neki koriste UTF-8, a
neki su idioti koji ne znaju napisati dvaput istu riječ na isti način
(pogodi koji su to).

Analiza je sljedeća (skinuo sam u bazu zadnjih mjesec dana):
http://www.danijel.org/skripte/frekvencija.html

Skripta za frekvencijsku analizu po korisniku:
http://www.danijel.org/skripte/userstat.php?user=Ged

Umjesto "Ged" stavi bilo koji username (onako kako je napisan na tablici
korisnika). Tako ćeš vidjeti što je definirano kao "riječ". Recimo, u
slučaju Radoslava Price tablica riječi počinje ovako:

a
aaa
aaaaa
aaaaaa
aaaaaaaa
aaaaaaaaaa
aaaaaaaaaaa
aaaaaaaaajjj
aaaaaaahaaaaaaa
aaaaaajojjjjj
aahhaaaa..a
abeceda
abel
ad
adacta
adanas
adresu
advokat
advokatura
advokaturom
advokaturu
afera
afere
age
agresije
agresivna
aha
aha..da
ahaaaaaaa
ahaaaaaaaa
ahaaaaaaaaa
ahaaaaaaaaaa
ahaaaaaaaaaaa
ahaaaaaaaaaaaa
ahaaaaaaaaaaaaa
ahaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaaaaaaa
ahaaaaaaaaaaaaaaaaaaaaaa
ahhhhhha
aj
ajd
ajde
aje
ajebat
ajebatga
ajebe
ajjjjajjjajjjj
ajojjjjj
ajojjjjjjjj
ajoojjjjj

Ako nemam rječnik u kojem mogu dinamički provjeravati valjanost riječi,
nemam drugog izbora nego takva sranja brojati pod riječi, pa onda ispada
da je Prica pismena osoba budući da koristi puno "riječi". Goli
algoritam bez semantičke verifikacije nije u stanju razlikovati "ajebe"
od "akcelerator".

- --
http://www.danijel.org/
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (GNU/Linux)

iEYEAREKAAYFAkuTsaIACgkQU8G6/NHezOcXWgCg74sb8LcXyT3gtvGU4PrX/y/m
fpsAn1fNvTBOI1rEe1ccazr2LI2f7LWo
=p3Vd
-----END PGP SIGNATURE-----