Google parla de Catalunya i del catal=E0 per explicar l'optimitzaci=F3 de
les seves cerques
Dijous, 27 de mar=E7 de 2008 a les 18:31
Informa: Guillem
Tecnologia
google_83.gifGoogle ha publicat aquesta setmana al seu bloc oficial un
article on explica com aquest cercador ha emprat l'incre=EFble volum de
dades que a***ula per crear models del llenguatge i de les lleng=FCes.
L'article explicita com un cop analitzades les dades es creen els
models que permeten interpretar les cerques millor per a cada llengua,
oferint correccions i cercant tamb=E9 expressions equivalents per
aquella cerca en una llengua determinada, quelcom que no ofereixen els
sistemes tradicionals de traducci=F3.
L'article, que ****ta per t=EDtol "Making search better in Catalonia,
Estonia and everywhere else", cita expl=EDcitament Catalunya i la
llengua catalana com a exemple de tot aix=F2. Google explica que quan un
usuari catal=E0 cerca "elecci=F3 barris BCN", Google li pro****ciona
tamb=E9
les p=E0gines que empren les paraules "resultats" o "eleccions", o
"Barcelona" enlloc de "BCN".
L'article explica tamb=E9 que els canvis en els models de lleng=FCes que
s'empraven en el passat s=F3n evidents, ja que aquests eren molt
incomplets i es limitaven a models constru=EFts a partir dels
diccionaris tradicionals. Per=F2 com que el model que empra Google es
basa en les interaccions dels usuaris amb el seu cercador, els
resultats que aquest pot oferir s=F3n "m=E9s precisos i comprensius", ja
que incor****en termes col=B7loquials, noms propis, i paraules noves que
no apareixen al diccionari.
Google usa bilions de do***ents web i l'historial de les seves cerques
per aglutinar el major nombre de dades possibles per a entendre millor
les lleng=FCes; analitzen com cerquen els usuaris i com empren els
resultats de les cerques. D'aquesta manera poden establir relacions
entre paraules segons l'idioma. A m=E9s a m=E9s les consultes no
s'analitzen individualment sin=F3 en global. Investigant com corregeixen
els usuaris les seves cerques, l'algoritme de Google ha apr=E8s paraules
relacionades, variants gramaticals i correccions ortogr=E0fiques.
Google explica tamb=E9 que per pro****cionar resultats m=E9s precisos, el
seu cercador constantment treballa en el desenvolupament de noves
t=E8cniques per als diferents idiomes, per establir-ne de millors. Ac=ED
cita de nou la llengua catalana, i la compara amb les cerques que es
fan en angl=E8s. L'article explica com en el cas de lleng=FCes que compten
amb molts do***ents i usuaris a la xarxa, com l'angl=E8s, el model de
llenguatge del cercador de Google =E9s extremadament acurat. En canvi
per a lleng=FCes amb menys usuaris i do***ents web, com el catal=E0, el
model triga m=E9s a "afinar-se". L'article compara les dades que es
recullen de diverses lleng=FCes, i afirma que per aconseguir una
quantitat de dades similar a la que s'aconsegueix analitzant les
cerques i do***ents en angl=E8s durant tot un dia, per a la llengua
catalana cal tot un any. I per a l'estoni=E0, calen m=E9s de dos anys i
mig per a igualar les dades d'un sol dia de cerques i do***ents en
angl=E8s.
Aix=ED doncs l'optimitzaci=F3 i la precisi=F3 de les cerques dep=E8n de la
quanitat de dades que s'obt=E9 de cada llengua, i per tant amb el temps
es van recollint m=E9s i m=E9s dades, que fan l'algoritme de cerca del
Google una mica millor cada dia que passa.
Not=EDcies relacionades:
* Activen oficialment el Google Andorra (Dimarts, 5 de febrer de
2008 a les 16:00)
* Google for=E7a el tancament del Google dels Pa=EFsos Catalans
(Divendres, 9 de novembre de 2007 a les 15:00)
* Arriba finalment el Google.cat (Dimecres, 7 de novembre de 2007
a les 9:00)
* L'iGoogle, en catal=E0 (Divendres, 12 d'octubre de 2007 a les
16:00)
* 9 anys de Google (Divendres, 28 de setembre de 2007 a les 15:00)


|