Autor: Danijel Turina Datum: 2010-03-08 10:41:21 Grupe: hr.soc.religija Tema: Re: Vreme za testiranje Linija: 95 Message-ID: hn2go1$ljv$1@ss408.t-com.hr |
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA512 Ged wrote: > Danijel Turina wrote: > >> Nije to baš tako jednostavno za napraviti. Napravio sam algoritam koji >> radi manje-više to čega si se ti sjetio, ali bez složene gramatičke >> analize i ručnog brisanja neoznačenih citata, bojim se da od toga nema >> ništa. Isto tako, neki korisnici koriste formatiranje koje moj algoritam >> ne čita (moš si mislit koji, Zec i Stanojević), neki koriste UTF-8, a >> neki su idioti koji ne znaju napisati dvaput istu riječ na isti način >> (pogodi koji su to). > > > Imam par tehnickih pitanja. > > Koliko sam razumeo, ovo pokriva poslednjih mesec dana poruka konferencije > hr.soc.religija? Tacno? hr.soc.religija i hr.alt.magija. Budući da je magija trenutno manje-više neaktivna, poruke su uglavnom s religije. > Kako dolazis do baze podataka sa porukama? U mysql bazi sam napravio tablicu za to i onda sam s motzarella news servera skinuo zadnjih 30 dana poruka i ubacio ih u tu tablicu, a prilikom inserta sam počistio tijela poruka od quota i pgp potpisa. Zapravo iskoristio sam tablicu koju sam već otprije imao za komparativnu analizu mojih i felixovih poruka budući da to više nikome ne treba, ispraznio sam ju i u nju napucao nove poruke. Kad imam poruke u bazi, napravim grupiranje po useru i parsam poruku po poruku u php-u u array i onda to sortiram, izbrišem duplikate i ispišem statistiku. > googla? Ako je ovo poslednje, kako to radis (ne mislim na kod, vec na > princip koriscen za programski pristup tacno odredjenom skupu poruka na > Googlu)? Google groups je najzajebaniji sustav za pristup i oslanjanje na njega je veliki potencijalni problem, svi će zbog toga izgubiti podatke. Da google ima web servis ili komercijalni news server preko kojeg bi se moglo povući poruke, to bi bilo drugo pitanje, ali google je jednosmjerna ulica: možeš u njega upucati podatke, ali ih ne možeš dobiti van kad ti zatrebaju, ima samo human interface i to katastrofalno loš. > Koji jezik koristis za pisanje skripti? php. > Kada neka osoba citira deo teksta druge osobe, da li su u ovoj analizi > izbaceni svi citati sem neoznacenih? Kako prepoznajes citat? Izbačene su sve linije prefixirane sa >. Neoznačene citate ne mogu izbaciti automatskom metodom, zato poruke sadrže par velikih tekstova na engleskom. > Sta je problem u formatu Zecevih poruka? Ne znam, nisam previše ulazio u pokušaje analize, ali poruke mu izgledaju ovako: > grupi:hmjbbq$mlr$1@news1.carnet.hr... > =E6e vas > medicinskoj > > Zec koji nadgleda sve grupe, to ve=E6 zna. Stanojevićeve su iste: > =B9to > > (Evo i zasto Danijel ocajno nedostaje kada ga nema na newsima) :) Ne znam u čemu je fora ali jedino kod njih dvojice se to dešava pa mi se nije dalo ulaziti u detalje i to popravljati budući da kao proof of concept stvar radi ok. > Da li si mislio na format same > njegove poruke, ili na format citiranja tudjih tekstova unutar njegovih > poruka? On je grozan po pitanju citiranja, istina, ali mislim da je to zbog nečega drugoga što ima podešeno. - -- http://www.danijel.org/ -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.9 (GNU/Linux) iEYEAREKAAYFAkuUxkEACgkQU8G6/NHezOehKQCfXBH27VeFHEFCKuS8wsfE6tuB hEkAoIRkJN/J/hZMCDolAWLKpfl8K8Pu =ubHB -----END PGP SIGNATURE----- |