Seznam v posledních týdnech ohlásil řadu změn. Vedle spuštění analytické služby Reportér se na poli vyhledávání jedná o avizované lepší pochopení dotazů nebo boj proti spamu a nekvalitním odkazům. Co všechno Seznam chystá? A jak přistupuje k profláklým SEO fíglům nebo nákupu odkazů? Na to odpovídá konzultant vyhledávání českého vyhledávače Dušan Janovský (@janovsky).
Pár novinek od Seznamu:
- Přechod vyhledávání na https se zachováním referrerů
- Představení služby Reporter
- Nový způsob jak ověřit, jestli se URL nachází v našem indexu
- Pochopení dotazu a podobné fráze v dotazech
- Přesun webů na HTTPS
- Nasazení Freshbota Mach II
- Seznam.cz nově vyhledá i oblíbené televizní pořady
Ahoj Dušane, děkuji Ti za zájem o krátký rozhovor. Mohl bys představit hlavní novinky a změny, které chystáte v oblasti vyhledávání? Čemu teď věnujete nejvíc pozornosti a úsilí?
Většinu pozornosti věnujeme infrastruktuře a robustnosti výpočtů. Přepisujeme komponenty robota tak, aby byly rychlejší, zvládly více práce a aby na sebe nemusely jednotlivé joby čekat. Stahujeme do robota mnoho miliard stránek a mnoho stovek miliónů jich prohledáváme, takže je docela těžké napsat výpočty signálů tak, aby trvaly hodiny a ne měsíce. V těchto týdnech také nasazujeme kompletně nové jádro vyhledávače. Přepisovali jsme ho mimo jiné kvůli tomu, aby se dalo univerzálně použít i na jiných službách Seznamu.
Zajímavé novinky budeme určitě publikovat na blogu, jakmile budou aktuální. Já se musím přiznat, že sám nemám kompletní přehled o tom, co všechno se na vyhledávání chystá – je toho víc, než stačím sledovat. Pokud jde o mě, tak já se soustředím na přidávání nových signálů do relevančního modelu. Půjde o jednoduché signály na úrovni dokumentu i o složitější signály kombinace dotazu a dokumentu.
Objevily se i informace o blížících se Seznamáckých nástrojích pro webmastery nebo personalisovanému vyhledávání. Můžeš k tomu sdělit něco víc?
Ten odkazovaný článek o údajné perzonalizaci byl způsoben tím, že se do dvou zařízení načítaly výsledky z různých serveroven. Nebyla to tedy ani chyba, ani personalizace. Myšlence perzonalizace se určitě nebráníme, ale jako vždy máme jiné důležitější věci, které musíme udělat dříve. V případě nástrojů pro webmastery je to stejné. Rádi bychom je měli, ale prioritu má vyhledávání. Loni jsme si udělali průzkum, co potřebují webmasteři nejvíce. Jednoznačně z něj vyplynulo, že chtějí hlavně operátor info:, aby mohli zjistit, které stránky jsou nebo nejsou v indexu, a tak jsme přednostně udělali operátor info:.
Položím otázku, která zajímá většinu majitelů stránek a SEO konzultantů. Na Twitteru se vznikla zmínka o tom, že začínáte bojovat s nekvalitními odkazy. Tu si nicméně Ty sám trochu vyvrátil tím, že tento boj začal v roce 2006. Jaký je aktuální stav? Jaký máš názor třeba na tzv. „SEO PR články“ a podobné umělé služby, které různí optimalizátoři nabízejí klientům a které ale i v současné době mohou mít výsledky?
Ten první tweet reagoval na aktualizaci klasifikátoru odkazů. Pro každý odkaz počítáme mnoho signálů, které se používají pro automatickou klasifikaci přirozenosti odkazu. To je údaj, který se snaží pomocí strojového učení uhádnout, zda odkaz vzniknul přirozeně s cílem pomoci uživatelům, nebo zda je jeho primárním cílem oklamání vyhledávače, velmi často za úplatu. Takovou klasifikaci se snažíme dělat už asi deset let, strojové učení na to používáme od roku 2012. Současná změna spočívá ve výrazné aktualizaci toho klasifikátoru, který například nyní používá již několik desítek signálů a učí se na více než deseti tisících příkladech. K odkazům, které jsme rozpoznali jako nepřirozené, přistupujeme zatím tak, že je většinou ignorujeme při výpočtu relevančních signálů. Nyní, když máme kvalitní klasifikátor odkazů, můžeme navíc začít i penalizovat stránky, které tyto nepřirozené dopředné odkazy obsahují.
Doufám, že to nebude moc akademické, když ještě rozvedu, za co může být stránka automaticky penalizována:
- že je sama spam (MFA, automaticky generované texty, linkfarmy apod.),
- že odkazuje na spam – to je penalizace za odchozí odkaz; jde o odpovědnost za to, kam odkazuji,
- že obsahuje rozpoznané nepřirozené odkazy – to je podobné jako předchozí bod, ale je na to potřeba mít velmi dobrý klasifikátor nepřirozených odkazů,
- že je odkazována nepřirozenými, pravděpodobně zaplacenými odkazy.
V Seznamu tyto principy zavádíme postupně od jedničky po čtyřku. Zatímco se spamem bojujeme dlouhodobě, odpovědnost za odkazy zavádíme postupně. Vždy jsme říkali, že stránka je odpovědná za to, kam sama odkazuje, tedy za své dopředné odkazy. Na to, abychom se posunuli k bodu 3 a 4, potřebujeme opravdu dobrý klasifikátor přirozenosti odkazů.
Poslední otázka: jak přistupujete (nebo plánujete přistupovat) k nákupům odkazů za účelem ovlivnění pozic? Google proti tomu brojí a za zakázané v tomto ohledu označuje i affiliate odkazy nebo odkazy získané od bloggerů za recenzi produktů…
Motivace Googlu neznám, a tak je nemůžu komentovat. Já při zpětném luštění našich modelů vidím dlouhodobě to, že role odkazů slábne. Jsou velmi silné při navigačních dotazech, což dává smysl. Když chce uživatel najít konkrétní web nebo službu, má smysl sledovat odkazy ze stránek, které o webu pojednávají, protože na něj pak i odkazují. Veledůležité jsou texty interních odkazů, protože pomáhají vyhledávači pochopit, na které stránce webu je co. Jinak je to s informačními a komerčními dotazy. Pro informační dotazy je v praxi těžké vůbec najít nějaký odkaz, který by byl k tématu relevantní, protože lidé už odkazují relativně málo. Největší zmatek je v oblasti komerčních dotazů. Tam se odkazuje velmi mnoho, ale naprostá většina komerčních odkazů je nepřirozená. Naše modely (většinou lesy složené z rozhodovacích stromů) se z toho učí, že mají odkazy u komerčních dotazů brát méně vážně, protože ve skutečnosti přinášejí malou hodnotu a to ani tehdy, když u nich správně rozpoznáme nepřirozenost.
Že nakonec odkazy přece jen mohou mít nějakou roli, je dáno tím, že v oblasti komerčních dotazů pořádně není podle čeho stránky řadit. Většinou to jsou eshopy, které na velmi podobně vypadajících stránkách nabízejí stejný produkt se stejným popiskem. Tam potom i malá změna, například pár zpětných odkazů, může udělat velký posun. Proto do budoucna nemůžu vyloučit, že budeme za evidentně nakoupené zpětné odkazy nějaké ty body i odčítat, aby se to vyrovnalo.
Seznam zkvalitňuje výsledky. Bude majitelů stránek nákup odkazů stačit?
Už víme, že tým vyhledávání českého vyhledávače aktivně pracuje na tom, aby uživatelům dával relevantnější data. Přestože jsou velmi důležitým hodnotícím faktorem samotné odkazy, které se dají snadno získat nákupem, je známým faktem také to, že Seznam zaměstnává tzv. „kalibrátory“ – brigádníky, kteří ručně stanovují, jak je na dotaz která stránka z výsledků hledání relevantní. A že hodnotícím faktorem může být také počet lajků, tematická shoda nebo něco jiného. Podaří se v blízké době vypilovat algoritmus tak, aby co nejvíce vyhovoval lidským preferencím?
at 2:05 pm
Já bych k tomu jen dodal, že Seznam dlouhodobě tvrdí, jak chce proti nakoupeným článkovým odkazům bojovat, ale za mě – proč nejde do copywriting.cz (tam je seznam webů veřejně) a nebo do PlaCla.cz (stačí podat několik poptávek na hlavní komerční témata – půjčky, nábytek, parfémy, móda..) a má seznam 1000+ PR webů, které jsou jen pro odkazy a nic jiného hned..
Na těch se naučí lehce, jak vypadají PR článkové odkazy (minimálně ty nejhorší, nejokatější a nejzásadnější) a mohl je na první pohled postihovat… Tím by se značně snížil nákup odkazů a bylo by zřejmé, že to tak lehko už nepůjde.
Byl by to velký krok seznamu, který by zabral pár hodin práce…
Může mu Dušan odpovědět, proč tohle nikdy nikdo neudělal? Má snad seznam webu udělat někdo za Seznam.cz a poslat jim ho?
Díky za odpověď.
at 9:02 am
Honzo, přijde mi dost podlé založit web typu PlaCla, prodat ho a potom proti tomu takhle brojit. Já být novým majitelem, tak ti ho omlátím o hlavu a chci peníze zpět.
at 7:53 am
To Honza:
1. Byla jiná doba a riziko tam bylo vždy. Navíc měl zcela jinou fylozofii a nebyl srovnatelný.
2. Web je dávno zrušen.
3. To by bylo, aby se to lidem, co na tom vydělávají, líbilo. To je pochopitelné.
at 6:00 pm
Seznam brojí proti nakoupeným odkazům ale sám je prodává? Každý rok nám nabízí PR články a inzerci ze svých webů. Takže nakupovat ano ale jen u seznamu? 🙂