Google technologiją “Deep Learning” taiko kovai su paieškos šlamštu
Rugsėjo 18d. Google paskelbė paieškos šlamšto klasifikavimo patentą “išteklių klasifikacija naudojant savarankiškai besimokantį tinklą” (Classifying Resources Using a Deep Network ). Apie tai pranešė SEO ekspertas Billas Slawskis.Patentuotą technologiją išrado kūrėjai Qingzhou Wang, Yu Liang, Ke Yang ir Kai Chen. Pastaruosius kelerius metus paieškos lyderis buvo užimtas kuriant savarankiškai besimokantį tinklą, žinomą kaip Google Brain.
Google Brain – neformalus Google mokslinių tyrimų projekto pavadinimas “Google”, skirto giliam mokymuisi (Deep Learning). Šiame projekte, bendrovės tyrėjai sugebėjo sukurti pavyzdinį neuronų smegenų modelį – “neuronų” savarankiškai besimokantį tinklą, sujungę 16000 procesorių ir prijungė jį su internetu. Gauta sistema sugebėjo savarankiškai išmokti atpažinti katės vaizdą.
Dabar bendrovė naudoja šią technologiją siekdama nustatyti interneto šlamštą, kas atsispindi jo klasifikacijos patento kūrime.
Patentas aprašo metodus, kuriuos sudaro:
- informacijos priėmimas, sudarant iš ištekliaus charakteristikų, kurioje kiekviena savybė – ištekliaus atitinkamo atributo reikšmė;
- kiekvieno atributo apdorojimo, naudojant atitinkamą įdėjimo funkciją tam kad generuoti vieną ar daugiau skaitinių reikšmių;
- skaitinių reikšmių apdorojimo, naudojant vieną ar daugiau neuronų sluoksnių lygių tam kad sukurti alternatyvų ištekliaus charakteristikų supratimą , kuriame reikšmių perdirbimas su elastingais parametrais apima vieną arba daugiau netiesioginių transformacijų;
- alternatyvaus atvaizdavimo apdorojimo naudojant įvesties klasifikatorių generuoti atitinkamus balus kiekvienai kategorijai iš anksto nustatytame rinkinyje, kur kiekviena iš atitinkamų priemonių vertina prognozuojamą tikimybę, kad išteklius priklauso atitinkamai kategorijai.
Iš anksto nustatytų kategorijų rinkinys gali priklausyti paieškos variklių šlamšto kategorijai. Kategorijos reitingas (category score) prognozuojamą tikimybę, kad išteklius yra paieškos šlamštas.
Iš anksto nustatytas kategorijų rinkinys gali būti tinkamas kiekvienam iš interneto šlamšto kategoriją tipui.
Vertinimo kategorijos gali būti naudojamos:
- nustatant ar verta pridėti šiuos išteklius į paieškos indeksą;
- generuoti ir organizuoti paieškos rezultatus atsakant į paieškos užklausas.
Savarankiškas besimokantis tinklas gali būti efektyviai naudojamas klasifikuoti išteklių kategorijas. Pavyzdžiui, ištekliai gali būti klasifikuojami kaip šlamštas ar ne, kaip vienas iš kelių šlamšto tipų, arba kaip vienas iš dviejų arba daugiau rūšių išteklius.
Naudojant savarankiškai besimokantį tinklą klasifikuojant išteklius į kategorijas, gali lemti tai, kad paieškos varikliai galės geriau patenkinti vartotojų informacijos poreikius, efektyviai atpažindami paieškos šlamštą, ir susilaikyti nuo tokių išteklių rodymo paieškos rezultatuose vartotojams. Arba, ar jie galės pateikti paieškos rezultatus, kurie nustatyti išteklius, kurie priklauso kategorijoms, geriau atitinkanti vartotojo informacijos poreikius
– paaiškina kūrėjai patente.
Pagal patentą, ši išteklių klasifikacijos sistema gali tipizuoti išteklius kaip paieškos šlamštą arba ne paieškos sistemų šlamštą. Ji nenurodo Web šlamšto detalių, bet sako, kad gali išskirti jos tipiškas rūšis, kaip antai:
- turinio šlamštas;
- šaltiniai turintys nuorodų šlamšto;
- šaltiniai naudojantys kloakingą;
- ir t.t.
Ištekliai, esantys svetainėje gali apimti žodžius iš svetainės turinio simbolinėje formoje: svetainės URL’ai, jo title, domeno vardas, kategorijos ar objektų tipai susijusių su svetaine; jo amžius. Kiekviena iš šių savybių gali būti naudojami apskaičiuoti tikimybę, kad svetainė yra šlamštas ir nustatyti ar ją indeksuoti ar pabloginti pozicijas paieškoje.
Patentas nesuteikia išsamios informacijos apie mašinos mokymąsi ir charakteristikų klasifikaciją, tačiau nurodo dokumentą, kuris suteikia šią informaciją: Large Scale Distributed Deep Networks.
Tiems, kam aktualu seo paslaugos, turėtų į tai atsižvelgti planuodami savo SEO strategijas.
Pats mašinos mokymosi algoritmas neturi vaidinti svarbaus vaidmens.Svarbiausia – tai faktorių pasirinkimas, kuris teikiamas mokymui ir gautų veiksnių ir koeficientų santykis.