← Zpět na všechny články blogu

Blokace botů

David Janík
David Janík Aktualizováno 21. 2. 2024 – 6 min. čtení
Blog

Bot je softwarová aplikace, která je naprogramována k provádění určitých úkolů. Boti (nebo také roboti) jsou automatizovaní, což znamená, že běží podle naprogramovaných pokynů, aniž by je lidský uživatel musel ručně spouštět. Tito roboti často napodobují nebo nahrazují chování lidského uživatele. Obvykle dělají opakující se úkoly a mohou je dělat mnohem rychleji, než by to dokázali lidští uživatelé.

Roboti obvykle fungují přes síť. Více než polovinu internetového provozu tvoří roboti, kteří skenují obsah, komunikují s webovými stránkami, chatují s uživateli nebo hledají útočné cíle

Samozřejmě ne všichni roboti jsou špatní. Např. roboti vyhledávačů indexují obsah, abychom jej mohli najít. Antivirové společnosti zase skenují síť, aby analyzovaly škodlivý software a informovaly o nových útocích. Akademici mohou zase kontrolovat šíření fake news a analyzovat data z vyhledávačů. 

Jak vypadá škodlivá aktivita botů?

Bohužel špatných botů je mnohem víc. Jsou naprogramováni tak, aby pronikali do uživatelských účtů, skenovali na webu kontaktní informace a prováděli další škodlivé činnosti. Pokud je robot připojen k internetu, bude mít určitě přidruženou IP adresu.

VPS Centrum

Vyzkoušejte zdarma naši aplikaci pro správu serveru a domén. Budete si připadat jako zkušený administrátor.

Boti mohou provádět také:

  • Stahování a skenování obsahu na webu
  • DoS nebo DDoS
  • Prolamovali hesla hrubou silou
  • Sbírat e-mailové adresy po internetu
  • Klikat na reklamy a manipulovat analytické nástroje

Jak vypadá dobrý bot?

I dobří boti plují po vodách internetu. Dobrý bot je ten, který dělá užitečné úkoly nebo pomáhá uživatelům internetu a přitom nikomu neškodí uživatelské zkušenosti. 

Existuje mnoho druhů dobrých robotů, každý navržený pro různé úkoly. Zde jsou nějaké příklady:

  • Boti pro vyhledávače – Procházejí nebo kontrolují obsah téměř na všech webových stránkách internetu a poté tento obsah tzv. indexuji, aby se mohl zobrazit ve výsledcích vyhledávání uživatelů. Provozují je vyhledávače jako Google, DuckDuckGo nebo Bing.
  • Copyright boti – Procházejí všemožné platformy nebo weby a hledají obsah, který může porušovat autorské právo. Tyto boty může provozovat jakákoli osoba nebo společnost, která vlastní materiál chráněný autorskými právy. Umí ověřovat duplicitní texty, hudbu, obrázky nebo videa.
  • Boti pro monitoring webu – Monitorují metriky webových stránek (sledování zpětných odkazů, výpadky) a mohou upozornit uživatele na zásadní změny.
  • Komerční roboti – Vyhledávají informace na internetu. Tyto roboty mohou provozovat společnosti zabývající se průzkumem trhu, které sledují zpravodajství nebo recenze zákazníků, reklamní sítě, které optimalizují místa, kde zobrazují reklamy, nebo agentury SEO, které procházejí webové stránky klientů.
  • Feed boti – Procházejí internet a hledají obsah, který stojí za to přidat do informačního kanálu platformy. Tyto roboty mohou provozovat weby agregující obsah nebo sítě sociálních médií.
  • Chatboti – Napodobují lidskou konverzaci tím, že odpovídají uživatelům pomocí předem naprogramovaných odpovědí. Někteří chatboti jsou dostatečně komplexní, aby mohli vést dlouhé konverzace.
  • Osobní asistenční boti: Jako Siri nebo Alexa: Ačkoli jsou tyto programy mnohem pokročilejší než typický bot, přesto se jedná o boty: počítačové programy, které procházejí web a vyhledávají data.

Co je robots.txt?

Správná správa robotů začíná správným nastavením pravidel v souboru robots.txt webových stránek. Soubor robots.txt je textový soubor, který je umístěn na webovém serveru a určuje pravidla pro všechny roboty, kteří přistupují k hostované webové stránce nebo aplikaci. Tato pravidla definují, které stránky mohou a nemohou roboti procházet, které odkazy mají a nemají sledovat a další požadavky na chování botů.

Dobří boti se těmito pravidly řídí. Pokud například majitel webu nechce, aby se určitá stránka na jeho webu zobrazovala ve výsledcích vyhledávání Google, můžete do souboru robots.txt napsat pravidlo a roboti od Google tuto stránku nezaindexují. Ačkoli soubor robots.txt nemůže tato pravidla skutečně prosadit, dobří roboti jsou naprogramováni tak, aby soubor vyhledali a řídili se pravidly dříve, než udělají cokoliv jiného.

Špatní roboti však často soubor robots.txt ignorují nebo si ho přečtou, aby zjistili, jaký obsah se web snaží udržet mimo dosah robotů, a pak k němu přistupují. 

Správa botů tedy vyžaduje aktivnější přístup než pouhé stanovení pravidel pro chování botů v souboru robots.txt.

Blokace botů pomocí .htaccess

Rychlá a účinná blokace je pomocí souboru .htaccess. Jakmile totiž soubor uložíte, hned se pravidla aktivují.
Stačí upravit .htaccess, který máte v kořenové složce /www.

Freelo - Nástroj na řízení úkolů a projektů

Přidej se, pozvi svůj tým a klienty, rozděl práci a sleduj, jak se úkoly dají do pohybu.

Můžete zablokovat IP adresu botů nebo user-agenta.

    Require all granted 
    Require not ip 127.0.0.1/32   #zablokuje IP adresu nebo celý rozsah
    Require not env SemrushBot    #zablokuje user-agenta

Zároveň můžete IP adresy  nebo user-agenty povolit.

    Require ip MOJE_IP_V_KANCELARI/32
    Require ip MOJE_IP_V_DOMA/32
    Require ip MOJE_IP_VPN/32
    Require env Google

Boti často mění IP adresu, takže tímto si člověk moc nepomůže. Proto raději doporučujeme blokovat podle jména.

Máme pro vás jeden takový zápis.

Require all granted    
Require not env	DISCo
Require not env	eCatch
Require not env	EirGrabber
Require not env	EmailSiphon
Require not env	EmailWolf
Require not env	ExtractorPro
Require not env	EyeNetIE
Require not env	FlashGet
Require not env	GetRight
Require not env	GetWeb!
Require not env	Go!Zilla
Require not env	Go-Ahead-Got-It
Require not env	GrabNet
Require not env	Grafula
Require not env	HMView
Require not env	MegaIndex.ru
Require not env	HTTrack
Require not env	InterGET
Require not env	JetCar
Require not env	larbin
Require not env	LeechFTP
Require not env	Navroad
Require not env	NearSite
Require not env	NetAnts
Require not env	NetSpider
Require not env	NetZIP
Require not env	Octopus
Require not env	PageGrabber
Require not env	pcBrowser
Require not env	RealDownload
Require not env	ReGet
Require not env	SiteSnagger
Require not env	SmartDownload
Require not env	SuperBot
Require not env	SuperHTTP
Require not env	Surfbot
Require not env	tAkeOut
Require not env	VoidEYE
Require not env	WebAuto
Require not env	WebCopier
Require not env	WebFetch
Require not env	WebLeacher
Require not env	WebReaper
Require not env	WebSauger
Require not env	WebStripper
Require not env	WebWhacker
Require not env	WebZIP
Require not env	Widow
Require not env	WWWOFFLE
Require not env	Zeus
Require not env	AhrefsBot
Require not env	DotBot
Require not env	BaiduSpider
Require not env	CCBot
Require not env	MJ12bot
Require not env	SiteAnalyzerbot
Require not env	BLEXBot
Require not env	Uptimerobot
Require not env	AspiegelBot
Require not env	VelenPublicWebCrawler
Require not env	Xenu Link Sleuth
Require not env	sarpstatbot
Require not env	ZoominfoBot (zoominfobot at zoominfo
Require not env	Nimbostratus-Bot
Require not env	SEOkicks
Require not env	Seekport Crawler
Require not env	Alphabot
Require not env	magpie-crawler
Require not env	LinkpadBot
Require not env	Linguee bot
Require not env	Semtix.cz
Require not env	Statusoid
Require not env	BananaBot
Require not env	CFNetwork
Require not env	python-request
Require not env	FirmoGraph
Require not env	PetalBot
Require not env	TombaPublicWebCrawler
Require not env	barkrowler
Require not env	serpstatbot
Require not env	Archive Team
Require not env	Sogou web spider

Zůstaňte s námi v kontaktu

Jednou za měsíc posíláme souhrn novinek. Nemusíte se bát, spamovat vás nebudeme a odhlásit se můžete kdykoliv...

Karel Dytrych
Tým Váš Hosting
Vyzkoušejte náš trial na týden zdarma

Garance 14denní záruky vrácení peněz

Vyzkoušejte server na týden zdarma

Vyzkoušet server