Seo optimizavimas
1.2. Paieškos sistemų darbo bendrieji principai
Paieškos sistema susideda iš šių pagrindinių komponentų:
„Spider“ (voras) – į naršyklę panaši programa, kuri persiunčia interneto puslapius.
„Crawler“ (krauler, „keliaujantis” voras) – programa, kuri automatiškai peržiūri visas nuorodas rastas puslapyje.
„Indexer“ (indeksatorius) – programa, kuri analizuoja interneto puslapius, parsiųsdintus vorais.
Database (duomenų bazė) – atsisiųsdintų ir apdorotų puslapių saugykla.
Search engine results engine (rezultatų pateikimo sistema) – randa duomenų bazėje paieškos rezultatus.
Web server (interneto-serveris) – interneto serveris, kuris yra atsakingas už sąveiką tarp vartotojo ir likusių paieškos sistemos komponentų.
Detalus paieškos mechanizmų įgyvendinimas gali skirtis vienas nuo kito (pavyzdžiui, komplektas „Spider + Crawler + Indexer“ gali būti įgyvendintas kaip vieninga programa, kuri parsisiųsdina žinomus interneto puslapius, analizuoja juos ir ieško, atsižvelgiant į nuorodas, naujų šaltinių), tačiau visoms paieškos sistemoms yra būdingos aprašytos bendros savybės.
Spider. Voras – tai programa, kuri parsiųsdina interneto puslapius tokiu pat būdu, kaip ir vartotojo naršyklė. Skirtumas tas, kad naršyklė atspindi puslapyje esančią informaciją (tekstą, grafiką, ir t. t.), voras gi neturi jokių vaizdinių komponentų ir dirba tiesiogiai su puslapio html-tekstu (jūs galite atlikti „html-kodo apžvalgą“ jūsų naršyklėje, kad pamatytumėte “neapdorotą“ html-tekstą).
Crawler. Išskiria visas nuorodas, esančias puslapyje. Jo užduotis – nustatyti, kur toliau turėtų eiti voras, remdamasis nuorodomis arba remdamasis iš anksto pateiktu adresų sąrašu. „Crawler“, remdamasis rastomis nuorodomis, atlieka naujų dokumentų, dar nežinomų paieškos sistemai, paiešką.
Indexer. Indeksatorius suskirsto puslapį į sudedamąsias dalis ir atlieka jų analizę. Išskiriami ir analizuojami įvairūs puslapių elementai tokie, kaip tekstas, antraštės, struktūros ir stiliaus ypatybės, specialios tarnybinės html-informacinės žymos ir t. t.
Database. Duomenų bazė – tai visų duomenų, kuruos paieškos sistema parsisiųsdina ir analizuoja, saugykla. Kartais duomenų bazę vadina paieškos sistemos indeksu.
Search Engine Results Engine. Rezultatų pateikimo sistema atlieka puslapių reitingavimą. Ji sprendžia, kokie puslapiai patenkinti vartotojo užklausą ir kokia tvarka jie turėtų būti surūšiuoti. Tai vyksta, remiantis paieškos sistemų reitingavimo algoritmais. Ši informacija yra vertingiausia ir įdomiausia mums – būtent su šiuo paieškos sistemos komponentu sąveikauja optimizuotojas, bandantis pagerinti tinklalapio pozicijas pateiktuose paieškos rezultatuose, todėl ateityje mes smulkiai apžvelgsime visus veiksnius, įtakojančius rezultatų reitingavimą.
Web server. Paprastai, serveryje yra html-puslapis, turintis įvesties laukelį, kuriame vartotojas gali užrašyti jį dominantį paieškos terminą. Interneto serveris taip pat yra atsakingas už html-puslapio formoje vartotojui pateiktus rezultatus.
2. Vidiniai reitingavimo veiksniai
Visus veiksnius, kurie įtakoja tinklalapio poziciją paieškos pateiktuose rezultatuose, galima suskirstyti į išorės ir vidaus. Vidaus reitingavimo veiksniai – tai tie, kuriuos kontroliuoja interneto-tinklo savininkas (tekstas, apipavidalinimas ir t. t.).
2.1. Interneto puslapių teksto apipavidalinimas
2.1.1. Teksto, esančio puslapyje, apimtis
Paieškos sistemos vertina tinklalapius turtingus informacijos turiniu. Bendruoju atveju, turėtumėte siekti padidinti tinklalapio teksto apimtį.
Optimaliais turėtų būti laikomi puslapiai, kuriuose yra 500-3000 žodžių arba 2 – 20 KB teksto (nuo 2 iki 20000 simbolių).
Puslapis, kurį sudaro tik keli sakiniai, turi mažiau galimybių patekti į paieškos sistemų TOPUS.
Be to, didelis teksto kiekis puslapyje padidina puslapio matomumą paieškos sistemose dėka retų ar atsitiktinių paieškos frazių, tai kai kuriais atvejais gali sąlygoti nemažą lankytojų srauto padidėjimą.
2.1.2. Raktažodžių skaičius viename puslapyje
Raktažodžiai, frazės turi būti sutinkami tekste bent 3-4 kartus. Viršutinė riba priklauso nuo bendros puslapio apimties – kuo didesnė bendra apimtis, tuo daugiau pasikartojimų galima aptikti.
Atskirai vertėtų apžvelgti situaciją, susijusią su paieškos frazėmis, tai yra žodžių dariniais sudarytais iš kelių raktažodžių. Geriausi rezultatai buvo stebimi, jeigu frazė būdavo sutinkama tekste keletą kartų būtent kaip frazė (t. y. visi žodžiai drauge reikiama tvarka), o be to žodžiai iš frazės pasitaikydavo tekste keletą kartų atskirai. Taip pat, turi egzistuoti šioks toks skirtumas (disbalansas) tarp kiekvieno žodžio sudarančio frazę nukreipimų skaičiaus.
Aptarsime situaciją remdamiesi pavyzdžiu. Tarkime, kad mes optimizuojame puslapį naudodami frazę „DVD grotuvas“. Tai geras variantas – frazė „DVD grotuvas” sutinkama tekste 10 kartų, be to, žodis „DVD“ sutinkamas atskirai dar 7 kartus, žodis „grotuvas” dar 5 kartus. Visi skaičiai šiame pavyzdyje yra sąlyginiai, bet puikiai pateikia bendrą idėją.
2.1.3. Raktažodžių tankis
Raktažodžių tankis puslapyje rodo žodžio naudojamo tekste santykinį dažnį. Tankis matuojamas procentais. Pavyzdžiui, jei pasirinktas žodis yra sutinkamas 5 kartus 100 žodžių puslapyje, tai šio žodžio tankis lygus 5%. Per mažas tankis sąlygos tai, kad paieškos sistema nesuteiks šiam žodžiui reikiamos reikšmės. Per didelis tankis gali įjungti šlamšto-filtrą paieškos sistemoje (tai yra puslapio vieta bus dirbtinai pažeminta paieškos rezultatuose dėl besaikiai dažno raktinių frazių naudojimo).
Raktinio teksto tankis, kuris laikomas optimaliu, yra 5-7%. Frazių, sudarytų iš keleto žodžių, atveju jums reikia apskaičiuoti bendrą visų raktažodžių sudarančių frazę, tankį ir įsitikinti, kad ji telpa į nustatytus rėmus.
Praktika rodo, kad raktažodžių tankis tekste didesnis nei 7-8%, nors ir nesąlygojantis kokių nors neigiamų pasekmių, bet taip pat ir ypatingos reikšmės daugeliu atvejų neturi.
2.1.4. Raktažodžių vieta puslapyje
Labai paprasta taisyklė – kuo arčiau yra raktažodis arba frazė dokumento pradžios, tuo didesnę svarbą jie įgyja paieškos sistemų požiūriu.
2.1.5. Teksto stilistiškas apipavidalinimas
Paieškos sistemos teikia ypatingą dėmesį tekstui vienu ar kitu būdu išskirtam puslapyje. Galima pateikti šias rekomendacijas:
– naudokite raktažodžius antraštėse (tekstas, išskirtas informacinėmis žymomis „H“, ypač „h1“ ir „h2“). Šiuo metu CSS (Cascading Style Sheets) panaudojimas leidžia pakeisti teksto, išskirto šiomis žymomis, išvaizdą, todėl informacinės žymos „H“ panaudojimas yra ne toks svarbus kaip anksčiau, tačiau nekreipti į jį dėmesio bet kuriuo atveju, neverta;
– išskirkite raktažodžius paryškintu šriftu (ne visame tekste, žinoma, bet taip išskirti 2-3 kartus puslapyje vertėtų). Tam rekomenduojama naudoti informacinę žymą „stiprus”, vietoje tradicinės informacinės žymos „B“ (bold).
2.1.6. Informacinė žyma „TITLE“
Viena iš svarbiausių informacinių žymų, kuriai paieškos sistemos suteikia didelę reikšmę. Būtina panaudoti raktažodžius informacinėje žymoje „TITLE“ (antraštė).
Be to, nuorodoje į jūsų tinklalapį, pateiktoje paieškos sistemų rezultatuose, bus pateiktas tekstas iš informacinės žymos „TITLE“, taip kad tai yra lyg ir puslapio vizitinė kortelė.
Būtent naudojantis šia nuoroda paieškos sistemos lankytojas užsuka į jūsų tinklalapį, todėl informacinės žymos „TITLE“ sudėtyje turėtų būti ne tik raktažodžiai, bet taip pat ji turėtų būti ir informatyvi, ir patraukli.
Kaip taisyklė, į paieškos sistemos pateiktus rezultatus patenka 50-80 simbolių iš informacinės žymos „TITLE“, todėl antraštės dydį pageidautina apriboti šiuo ilgiu.
2.1.7. Raktažodžiai nuorodų tekste
Taip pat labai paprasta taisyklė – naudokite raktažodžius nukreipiančiųjų nuorodų iš jūsų puslapių tekste (tiek į kitus vidinius jūsų tinklalapio puslapius, tiek ir į kitus tinklo šaltinius), tai gali suteikti jums nedidelį privalumą reitingavimo metu.
2.1.8. „ALT“ vaizdų informacinės žymos
Bet kuris paveikslėlis puslapyje turi specialų atributą “alternatyvus tekstas”, kuris yra nustatomas informacinėje žymoje „ALT”. Šis tekstas bus rodomas ekrane tuo atveju, jeigu parsisiųsdinti paveikslėlio nepavyks arba jeigu paveikslėlio demonstracija bus užblokuota naršyklės.
Paieškos sistemos atsimena informacinės žymos reikšmę „ALT“, apdorojant (indeksuojant) puslapį, tačiau nenaudoja jo, reitinguojant paieškos rezultatus.
Šiuo metu yra tikrai žinoma, kad paieškos sistema “Google” atsižvelgia į informacinės žymos „ALT“ tekstą tų paveikslėlių, kurie yra nuorodos, nukreipiančios į kitus puslapius, o likusi dalis informacinių žymų „ALT“ yra ignoruojamos. Apie kitas paieškos sistemas tikslių duomenų nėra, tačiau galima tikėtis kažko panašaus.
Apskritai verta duoti tokį patarimą – naudoti raktažodžius informacinėse žymose „ALT“ galima ir reikėtų, nors iš esmės tai nėra svarbu.
2.1.9. Meta informacinė žyma „Description“
Meta informacinė žyma „Description“ yra specialiai skirta puslapio aprašymo užduočiai atlikti. Ši informacinė žyma niekaip neįtakoja reitingavimo, tačiau, nepaisant to, yra labai svarbi. Daugelis paieškos sistemų (ir iš dalies didžiausia „Google”) pateikia informaciją iš šios informacinės žymos paieškos rezultatuose, jei ši žyma yra puslapyje ir jos turinys atitinka puslapio turinį ir paieškos užklausą.
Galima užtikrintai pasakyti, kad aukštos vietos paieškos rezultatuose ne visada užtikrina didelį lankytojų skaičių. Jei jūsų konkurentų aprašymas paieškos rezultatuose bus patrauklesnis nei jūsų tinklalapio, tai paieškos sistemos lankytojai pasirinks būtent juos, o ne jūsų šaltinį.
Todėl tinkamai sudaryti meta-informacinę žymą „Description“ yra labai svarbu. Aprašymas turi būti trumpas, bet informatyvus ir patrauklus, jo sudėtyje turi būti raktažodžiai, būdingi šiam puslapiui.
2.1.10. Meta informacinė žyma „Keywords“
Šis meta-informacinė žyma iš pradžių buvo skirta šio puslapio raktažodžiams nurodyti. Tačiau šiuo metu ji beveik nenaudojama paieškos sistemose.
Tačiau, nepaisant to, verta prisiminti, kad ši informacinė žyma yra čia „dėl viso pikto“. Užpildant vertėtų laikytis šių taisyklių: pridėti tik tuos raktažodžius, kurie realiai yra puslapyje.
2.2. Tinklalapio struktūra
2.2.1. Tinklalapio puslapių skaičius
Bendra taisyklė – kuo daugiau, tuo geriau. Tinklalapio puslapių skaičiaus padidėjimas pagerina jo matomumą paieškos sistemose.
Be to, palaipsnis naujos informacinės medžiagos patalpinimas tinklalapyje yra paieškos sistemomis vertinamas, kaip tinklalapio plėtra ir tai gali suteikti papildomų privalumų reitingavimo metu.
Tokiu būdu, stenkitės talpinti tinklalpyje kuo daugiau informacijos – naujienas, pranešimus spaudai, straipsnius, naudingus patarimus ir t. t.
2.2.2. Navigacijos meniu
Kaip taisyklė, kiekvieno tinklalapio sudėtyje yra navigacijos meniu. Naudokite raktažodžius nuorodų meniu, tai suteiks papildomos vertės tiems puslapiams į kuriuos nukreipia nuoroda.
2.2.3. Raktažodis puslapio pavadinime
Manoma, kad raktažodžių panaudojimas puslapio html-failo pavadinime gali teigiamai įtakoti jo pozicijas paieškos rezultatuose. Žinoma, tai galioja tik anglų kalbos užklausoms.
2.2.4. Venkite subkatalogų
Jei jūsų tinklalapyje būdingas saikingas puslapių skaičius (keliasdešimt), tai geriau, kad jie būtų pagrindinėje tinklalapio direktorijoje. Paieškos sistemos tokius puslapius laiko itin svarbiais.
2.2.5. Vienas puslapis – viena raktinė frazė
Stenkitės optimizuoti kiekvieną puslapį, naudodami savą raktinę frazę. Kartais jūs galite pasirinkti 2-3 giminingas frazes, bet neverta optimizuoti vieno puslapio naudojant 5-10 frazių vienu metu, greičiausiai jokio rezultatų negausite.
2.2.6. Tinklalapio pagrindinis puslapis
Optimizuokite pagrindinį tinklalapio puslapį (domeno vardas, index.html) naudodami svarbiausias jums frazes. Šis puslapis turi didžiausias tikimybę patekti į paieškos sistemų TOPUS.
Remiantis mano pastebėjimais, į pagrindinį tinklalapio puslapį gali užeiti iki 30-40% nuo bendro paieškos srauto.
2.3. Paplitusios klaidos
2.3.1. Antraštės grafika
Labai dažnai tinklalapio dizaine yra naudojama antraštės grafika (Header), tai yra paveikslėlis per visą puslapio plotį, kuriame, kaip taisyklė, yra įmonės logotipas, pavadinimas ir kai kuri kita informacija.
Neverta to daryti! Viršutinė puslapio dalis yra labai vertinga sritis, kur galima patalpinti svarbiausius raktažodžius. Grafinio paveikslėlio atveju ši vieta prapuola veltui.
Kai kuriais atvejais pasitaiko visai kvailų situacijų: antraštėje pateikiama informacija teksto pavidalu, bet didesnio vizualaus patrauklumo tikslu ji sukuriama kaip paveiksliukas (tai yra pateiktas tekstas negali būti įvertintas Google).
Geriausia būtų panaudoti kombinuotą variantą – grafinis logotipas puslapio viršuje yra, bet užima ne visą plotį. Likusioje dalyje talpinama teksto antraštė su raktažodžiais.
2.3.2. Grafinis navigacijos meniu
Situacija yra panaši į ankstesnį atvejį, tai yra jūsų tinklalapio vidinių nuorodų sudėtyje taip pat turėtų būti raktažodžių, tai suteiktų papildomą pranašumą reitingavimo metu. Jei navigacijos meniu, kad atrodytų patraukliau, yra pateiktas grafikos pavidalu, tai paieškos sistemos negalės atsižvelgti į nuorodų tekstą.
Jei atsisakyti grafinio meniu neįmanoma, nepamirškite bent jau aprūpinti visus paveikslėlius teisingomis informacinėmis žymomis „ALT“.
2.3.3. Navigacija naudojant skriptus
Kai kuriais atvejais navigacija (naršymas) tinklalapyje yra atliekamas naudojant skriptus. Reikėtų atsiminti, kad paieškos sistemos negali perskaityti ir vykdyti skriptų. Taigi nuoroda, pateikta naudojantis skriptą, bus neprieinama paieškos sistemai ir paieškos robotas neperžvelgs jos.
Tokiais atvejais būtina įprastu būdu dubliuoti nuorodas, kad naršymas tinklalapyje būtų prieinamas visiems – ir jūsų lankytojams, ir paieškos sistemų robotams.
2.3.4. Sesijos identifikatorius
Kai kuriuose tinklapiuose įprasta naudoti sesijos identifikatorių – tai yra kiekvienas lankytojas užsukęs į tinklalapį įgyja unikalų parametrą &session_id =, kuris yra pridedamas prie kiekvieno tinklalapio puslapio, kuriame jūs lankotės, adreso.
Sesijos identifikatoriaus panaudojimas leidžia patogiai rinkti statistinius duomenis apie tinklalapio lankytojų elgesį bei gali būti naudojamas kai kuriems kitiems tikslams.
Tačiau paieškos roboto požiūriu puslapis su nauju adresu – tai naujas puslapis. Kiekvieną kartą užsukdamas į tinklalapį, paieškos robotas gaus naują sesijos identifikatorių ir lankydamas tuos pačius puslapius, kaip ir anksčiau, suvoks juos kaip naujus puslapius.
Griežtai kalbant, paieškos sistemų sudėtyje yra algoritmų, skirtų veidrodžiams bei puslapiams su tuo pačiu turiniu “suklijuoti”, todėl tinklalapiai, kurie naudoja sesijos identifikatorius, vis dėlto bus indeksuojami. Tačiau tokių tinklalapių indeksavimas yra sudėtingas ir kai kuriais atvejais gali vykti nekorektiškai. Todėl tinklapyje naudoti sesijos identifikatorius nerekomenduojama.
2.3.5. Peradresavimas
Peradresavimas apsunkina tinklalapio analizę atliekamą paieškos sistemų robotų pagalba. Nenaudokite peradresavimų, jeigu tam nėra jokių aiškių priežasčių.
2.3.6. Paslėptas tekstas
Pastaruosius du punktus galima greičiau priskirti ne klaidoms, bet tyčinei paieškos sistemų apgaulei, tačiau juos vis dėlto verta paminėti.
Paslėpto teksto panaudojimas (teksto spalva atitinka fono spalvą, pavyzdžiui, balta ant balto) leidžia jums “pripumpuoti” puslapį reikiamais raktažodžiais, nepažeidžiant puslapio logikos ir dizaino. Toks tekstas yra nematomas lankytojams, tačiau gali būti kuo puikiausiai perskaitytas paieškos robotų.
Tokių “pilkų” optimizavimo metodų naudojimas gali sąlygoti tinklalapio uždraudimą – tai yra priverstinį tinklalapio pašalinimą iš paieškos sistemos indekso (duomenų bazės).
2.3.7. Vieno pikselio nuorodos
Grafikos vaizdų-nuorodų, kurių dydis yra 1 * 1 pikselių (tai yra faktiškai nematomų lankytojams), panaudojimas paieškos sistemų yra vertinamas kaip bandymas apgauti ir taip pat gali sąlygoti tinklalapio uždraudimą.
3. Išorės reitingavimo veiksniai
3.1. Kodėl yra atliekama išorinių nuorodų tinklalapyje apskaita
Kaip galite matyti iš ankstesniame skyriuje pateiktų duomenų, beveik visi veiksniai įtakojantys reitingavimą yra kontroliuojami puslapio autoriaus. Tokiu būdu paieškos sistema nesugeba atskirti tikrai aukštos kokybės dokumento nuo puslapio, specialiai sukurto remiantis paieškos fraze ar net puslapių sugeneruotų roboto ir visai neturinčių naudingos informacijos. Todėl reitinguojant puslapius, vienas iš svarbiausių veiksnių yra išorės nuorodų analizė kiekviename vertinamame puslapyje. Tai yra vienintelis veiksnys, kurio nekontroliuoja tinklalapio autorius.
Logiška manyti, kad, kuo daugiau yra išorės nuorodų tinklalapyje, tuo įdomesnis šis tinklapis bus lankytojams. Jei kitų tinklalapių savininkai tinkle pateikė nuorodą į vertinamą šaltinį, tai reiškia, kad šis šaltinis yra pakankamos kokybės. Atsižvelgiant į šį kriterijų, paieškos sistema taip pat gali nuspręsti, kokios vertės yra tas ar kitas dokumentas.
Taigi, egzistuoja du pagrindiniai veiksniai, kuriais remiantis puslapiai, esantys paieškos sistemų duomenų bazėje, bus atmetami pateikiant rezultatus. Tai atitikimas (tai yra, kaip peržiūrimas puslapis yra susijęs su užklausos tema – veiksniai aptarti ankstesniame skyriuje), išorės nuorodų skaičius ir kokybė. Pastarasis veiksnys dar buvo pavadintas nuorodų citavimu, nuorodų populiarumu arba indeksavimu.
3.2. Nuorodų (indekso ir citavimo) svarba
Nesunkiai matyti, kad paprasta išorės nuorodų apskaita nesuteikia mums pakankamos informacijos tinklalapiui įvertinti. Akivaizdu, kad nuoroda iš tinklalapio www.microsoft.com turėtų reikšti daug daugiau, nei nuoroda iš jūsų puslapio www.hostingcompany.com/ nuorodą ~ myhomepage.html, todėl lyginti tinklalapių populiarumo, tik atsižvelgiant į išorinės nuorodas, negalima – būtina taip pat įvertinti ir nuorodų svarbą.
Norėdams įvertinti išorės nuorodų, tenkančių tinklalapiui skaičių ir kokybę, paieškos sistemos įvedė citavimo indekso sąvoką.
Citavimo indeksas arba IC – tai bendra skaitmeninių rodiklių reikšmė, kuri vertina to ar kito šaltinio populiarumą, tai yra kažkokį puslapio svarbos absoliutų dydį. Kiekviena paieškos sistema naudoja savo algoritmus savo citavimo indeksui apskaičiuoti, kaip taisyklė šie rodikliai niekur neskelbiami.
Be įprasto citavimo indekso, kuris yra absoliutus rodiklis (tai yra tam tikras konkretus skaičius), įvedamas terminas palyginamasis citavimo indeksas, kuris yra santykinis dydis, tai yra rodo pasirinkto puslapio populiarumo santykį su kitų puslapių internete populiarumu. Paieškos sistemos „Yandex“ atveju paprastai yra naudojamas terminas „išorės citavimo indeksas” (ICI).
Išsamus citavimo indeksų ir jų skaičiavimo algoritmų aprašymas bus pateiktas tolesniuose skyriuose.
3.3. Nuorodos tekstas
Didelė reikšmė paieškos rezultatų reitingavimo metu yra teikiama išorės nuorodų, nukreipiančių į tinklalapį, tekstui.
Nuorodos tekstas (arba kitaip inkaro ar nukreipiantis tekstas) – tai tekstas, kuris yra tarp informacinės žymos „a“ ir „/a“, tai yra tas tekstas, kurį galima „spustelėti“ (suaktyvinti) pelės mygtuku naršyklėje, kad pereiti į naują puslapį.
Jei nuorodos tekste yra reikiami raktažodžiai, tai paieškos sistema vertina tai, kaip papildomą ir labai svarbią rekomendaciją, patvirtinančią, kad tinklalapyje iš tiesų yra vertinga informacija, atitinkanti paieškos užklausos temą.
3.4. Puslapių, kuriuose yra nuorodos, atitikimas tematikai.
Be nuorodos teksto taip pat yra įvertinamas bendras nuoroda besiremiančio puslapio informacijos turinys.
Pavyzdys. Tarkime, mes reklamuojame automobilių pardavimo svetainę. Šiuo atveju nuoroda, pateikta tinklalapyje apie automobilių remontą, reikš daug daugiau, nei atitinkama nuoroda iš tinklalapio apie sodininkystę. Pirmoji nuoroda yra iš tematiškai panašaus šaltinio, todėl ji bus labiau įvertinta paieškos sistemos.
3.5. Google PageRank – teoriniai pagrindai
Pirmaisiais, kurie užpatentavo išorės nuorodų apskaitos sistemą, tapo bendrovė „Google”. Algoritmas buvo pavadintas „PageRank”. Šiame skyriuje mes papasakosime apie šį algoritmą ir apie tai, kaip jis gali įtakoti paieškos rezultatų reitingavimą.
„PageRank“ yra apskaičiuojamas kiekvienam interneto puslapiui atskirai ir yra apibrėžiamas kaip PageRank (cituojamumas) besiremiančių nuorodomis į svetainės puslapius. Tai lyg tam tikras užburtas ratas.
Pagrindinis uždavinys yra rasti kriterijų, atspindintį puslapio svarbą. „PageRank“ atveju toks pasirinktas kriterijus – teorinis puslapio nuorodų skaičius.
Apsvarstysime vartotojo kelionės internete modelį, kuris yra paremtas perėjimu, sekant nuorodas. Daroma prielaida, kad vartotojas pradeda peržiūrėti tinklalapius nuo kažkurio atsitiktinai pasirinkto puslapio. Po to jis, remdamasis nuorodomis, pereina į kitus šaltinius. Šiuo atveju, egzistuoja tikimybė, kad lankytojas paliks tinklalapį ir iš naujo pradės dokumentų peržiūrą nuo atsitiktinai pasirinkto puslapio („PageRank“ algoritme tokių veiksmų kiekviename žingsnyje tikimybė yra lygi 0,15). Atitinkamai su 0,85 tikimybe jis pratęs kelionę, pasinaudojęs viena iš šiame puslapyje labiausiai prieinamų nuorodų (visos nuorodos šiuo atveju yra lygiavertės). Tęsiant kelionę iki begalybės, jis lankysis populiariuose puslapiuose daug kartų, o mažai žinomuose – rečiau.
Kadangi variuoti tikimybėmis ne visada patogu, tai po eilės pokyčių su „PageRank“ galima dirbti kaip su tam tikru skaičiumi (pavyzdžiui, mes esame įpratę jį matyti „Google TooleBar“, kur kiekvieno puslapio „PageRank“ yra nuo 0 iki 10).
Remdamiesi anksčiau aprašytu modeliu, gauname, kad:
– kiekvienas svetainės puslapis (net jeigu į jį nėra jokių išorės nuorodų) nuo pat pradžių pasižymi nenuliniu “PageRank” (nors ir labai mažu);
– kiekvienas puslapis, kuriame yra nukreipiančių nuorodų, perleidžia dalį savo „PageRank“ puslapiams, į kuriuos nukreipia. Šiuo atveju perduotas „PageRank” yra atvirkščiai proporcingas nuorodų puslapyje skaičiui – kuo daugiau nuorodų, tuo mažesnis „PageRank“ yra perduodamas kiekvienos nuorodos dėka;
– „PageRank“ perduodamas ne visas, kiekviename žingsnyje jis mažėja (ta pati 15% tikimybė, kai vartotojas pradeda apžvalgą nuo naujo, atsitiktinai pasirinkto puslapio).
Dabar aptarsime, kaip „PageRank” gali įtakoti paieškos rezultatų reitingą (sakome „gali”, nes iš tiesų „PageRank“ jau seniai nebedalyvauja “Google” algoritme, kaip tai buvo anksčiau, bet apie tai toliau). Su „PageRank“ įtaka viskas labai aišku – po to, kai paieškos sistema aptiko keletą atitinkančių dokumentų (naudodama teksto kriterijus), juos išrūšiuoti galima remiantis „PageRank” – nes logiška būtų manyti, kad dokumente, kuriame yra daugiau kokybiškų išorės nuorodų, yra patalpinta vertingesnė informaciją.
Taigi „PageRank“ algoritmas „stumia” į paieškos viršų tuos dokumentus, kurie ir be lankytojų pagalbos jau yra populiariausi.
3.6. Google „PageRank“ – praktinis panaudojimas