Filip Podstavec

Link building data mining

Analýza konkurence či odkazových příležitostí se často jeví jako časově náročná činnost.

V dnešním návodu si ukážeme, jak získat data k analýzám rychlejší cestou a ušetřit si tak hodně času(Konkrétně za použití Google Spreadsheets).

Začínáme

Nejprve je třeba si rozmyslet, co vlastně všechno potřebujeme a odkud data budeme brát.

Data o nejbližší konkurenci na cílové fráze půjdou nejlépe získat z výsledků vyhledávání. Pro účely našeho návodu nám postačí prvních pár stránek vyhledávání na Seznam.cz.

Dále by bylo dobré u jednotlivých konkurentů znát Srank a PageRank a alespoň základní data o odkazovém profilu(počet zpětných odkazů a domén odkazujících na stránku).

To by mohlo k základní představě o konkurenci stačit, nyní se pojďme pustit do získávání dat.

Získání výsledků vyhledávání

První a nejdůležitější částí je získání URL adres webů konkurence. Tyto výsledky budeme získávat za pomoci vyhledávání na Seznamu.

Pro import jednotlivých výsledků využijeme funkci ImportXML, která pomocí jazyka XPath dokáže ze stránky získat adresy webů konkurence.

Pro získání přehledu o struktuře jsem zkusil do vyhledávání zadat dobře rozlišitelnou frázi „prdlajz“. Získal jsem SERP podobný tomuto.

SERP prdlajz

Po zběžném zhlédnutí jsem zjistil, že k vyhledávání fráze seznam používá parametru „q“(viz. v URL „&q=prdlajz“) a k určení pozice výsledku parametr „from“(„&from=1“). To znamená, že URL, ze které budu chtít výsledky importovat bude vypadat následovně:

http://search.seznam.cz/?q=[fráze]&from=[od jakého výsledku]

Dále je třeba znát strukturu stránky. Po zobrazení zdrojového kódu jsem zjistil, že URL webů z výsledků vyhledávání se nachází ve spanu s třídou „url“.

Na základě těchto informací jsem mohl použít funkci importXML, která navracela URL adresy konkurenčních webů z výsledků vyhledávání. Tato funkce vypadala následovně:

=ImportXML("http://search.seznam.cz/?q=" & [Pole s URL] & "&from=1"; "//span[@class='url']")

Tato funkce navrací URL prvních deseti výsledků vyhledávání. Pokud by bylo třeba výsledků například třetí stránky, není problém tento import upravit pouze u parametru „from“ následujícím způsobem:

=ImportXML("http://search.seznam.cz/?q=" & [Pole s URL] & "&from=21"; "//span[@class='url']")

Srank

Proč vymýšlet složité cesty k získání Sranku skrz již fungující aplikace, když Seznam poskytuje tuto informaci pouze využitím parametru „url“ na Search.seznam.cz?

Jelikož stránka navrátí pouze hodnotu Sranku daného webu, získal jsem Srank URL pomocí funkce ImportData(importuje veškerá data z webu).

=ImportData("searchtest.seznam.cz/rank?url=" & [Pole s URL])

Pomocí tohoto importu získáte Srank zadané URL.

PageRank

Dříve jsem PageRank získával podobným způsobem, jako výše zmíněný Srank. Bohužel od doby, co Google zavedl zabezpečené vyhledávání je data mining ranků i výsledků vyhledávání poměrně složitou záležitostí.

V reakci na tuto událot poměrně rychle vznikli různé skripty do Spreadsheetů, které vám PageRank dané URL navrátí.

Pro naše účely bohatě postačí úplně základní skript s názvem „Google PageRank Fetcher (updated)“, který naleznete v Galerii skriptů(viz. obrázek níže).

Galerie skriptů

Poté jednoduše použijete funkci „pageRank([Pole s URL])“ a získáte tak i druhý rank.

Základní data o odkazovém profilu

Data o počtu zpětných odkazů a odkazujících domén poskytují z nejznámějších služeb asi OpenSiteExplorer a MajesticSEO.

Jelikož ale OpenSiteExplorer poskytuje tato data pouze jako dynamicky načítající se, nemůžeme využít funkce ImportXML. Použijeme proto nástroje MajesticSEO.

Podobně jako při získávání výsledků vyhledávání Seznamu jsem si nalezl URL výsledků vyhledávání MajesticSEO a pozici jednotlivých informací. Použití funkce ImportXML vypadalo přibližně takto:

ImportXML("https://www.majesticseo.com/reports/site-explorer/summary/" & [Pole s URL] & "?IndexDataSource=F"; "//p[@style='font-size: 150%;']")

Tento import navracel počet zpětných odkazů a počet odkazujících domén na zadanou URL.

Problém nastal v případě podstránek, kde MajesticSEO nedokázalo navrátit hodnoty. Potřeboval jsem tedy pouze URL domény. Změnil jsem proto dotaz na podobu, která v případě URL podstránky odsekla obsah pole na tvar domény.

ImportXML("https://www.majesticseo.com/reports/site-explorer/summary/" & left([Pole s URL]; find("/";[Pole s URL];1)) & "?IndexDataSource=F"; "//p[@style='font-size: 150%;']")

V takovéto podobě již MajesticSEO navrací o jakémkoli výsledku základní informace o odkazovém profilu domény.


Vypracovaný spreadsheet ke stažení

Výsledný spreadsheet

Nejdříve jsem kvůli sázce s kamarádem (o počet followerů na konci roku) přemýšlel, že budu rozesílat tento vypracovaný spreadsheet za Follownutí na Twitteru.

Nakonec jsem si řekl, že vám pouze udělám morální dilema a poskytnu vám jej zde, výměnou za follownutí v případě, že vám dnešní návod a poskytnutý spreadsheet usnadnil práci při data miningu.

Dokument ke stažení: Analýza konkurence skrz SERP (Seznam.cz)

V dokumentu klikněte v horním panelu na „Soubor -> Vytvořit kopii…“.

Hned v prvním řádku stačí vyplnit KW, který chcete analyzovat a dostanete domény z první a druhé stránky výsledků vyhledávání na Seznamu a jejich statistiky. Tyto statistiky je dobré si nakopírovat do textového souboru a poté zpět do druhého listu nazvaného „Analytic“.

Tím docílíte zrušení vazeb na jednotlivé funkce a budete moct takto za sebe naskládat kvanta výsledků.

Jak změnit cílení statistik z první a druhé stránky vyhledávání na jiné, jsem si již řekli výše.

Kdyby někdo potřeboval ohledně tohoto návodu poradit nebo by mu cokoli nefungovalo, ozvěte se mi na mail nebo nějakou sociální síť, rád poradím.

Napadla vás ještě jiná data, která by se mohla do link building data miningu hodit? Dejte mi vědět do komentářů, pokusím se o ně tento návod rozšířit.