--- In php-italia@yahoogroups.com, "Francesco Dominidiato"
<francesco@...> ha scritto:
>
> Ciao Domenico,
> benvenuto tra noi! :)
> Cosa intendi esattamente con il termine multilingue? ..e in che modo
> vorresti verificarlo?
> In ogni caso ti rispondo in base a quello che ho intuito:
> Penso che tu voglia realizzare una specie di crawler o robot che,
datogli in
> pasto una url, determini se il sito puntato è presente in più di una
lingua.
> Premesso questo, vediamo quali sono le casistiche per un sito
multilingua:
> 1. autodetedct da parte del sito (GeoIP, Lingua del browser, ...)
> 2. selezione manuale dell'utente (Pagina con i link alle varie
ehi, hai consigliato cose "marziane" :-) ma non la più... mmm... ehehe
ok, non e' proprio la piu' semplice, pero' io propongo: si prendono
"n" pagine a caso del sito (crawlando) e si leggono le parole in esse
contenute (ovviamente escluso il codice html, js, ecc...) e si
confrontano le parole con dei corpora (sono dei file che contengono
tutte, o quasi, le parole di una lingua) di varie lingue. Si puo'
cosi' determinare con una sicurezza praticamente del 100% la lingua
del sito, invece se ci basiamo sul GeoIP... mi sa che le probabilità
di azzecarci sono molto basse.
Comunque tutti questi giochini li si puo' fare in python, perl, C,
Java... non c'e' che l'imbarazzo della scelta.
d