Bot je softwarová aplikace, která je naprogramována k provádění určitých úkolů. Boti (nebo také roboti) jsou automatizovaní, což znamená, že běží podle naprogramovaných pokynů, aniž by je lidský uživatel musel ručně spouštět. Tito roboti často napodobují nebo nahrazují chování lidského uživatele. Obvykle dělají opakující se úkoly a mohou je dělat mnohem rychleji, než by to dokázali lidští uživatelé.
Roboti obvykle fungují přes síť. Více než polovinu internetového provozu tvoří roboti, kteří skenují obsah, komunikují s webovými stránkami, chatují s uživateli nebo hledají útočné cíle.
Samozřejmě ne všichni roboti jsou špatní. Např. roboti vyhledávačů indexují obsah, abychom jej mohli najít. Antivirové společnosti zase skenují síť, aby analyzovaly škodlivý software a informovaly o nových útocích. Akademici mohou zase kontrolovat šíření fake news a analyzovat data z vyhledávačů.
Jak vypadá škodlivá aktivita botů?
Bohužel špatných botů je mnohem víc. Jsou naprogramováni tak, aby pronikali do uživatelských účtů, skenovali na webu kontaktní informace a prováděli další škodlivé činnosti. Pokud je robot připojen k internetu, bude mít určitě přidruženou IP adresu.
VPS Centrum
Vyzkoušejte zdarma naši aplikaci pro správu serveru a domén. Budete si připadat jako zkušený administrátor.
Boti mohou provádět také:
- Stahování a skenování obsahu na webu
- DoS nebo DDoS
- Prolamovali hesla hrubou silou
- Sbírat e-mailové adresy po internetu
- Klikat na reklamy a manipulovat analytické nástroje
Jak vypadá dobrý bot?
I dobří boti plují po vodách internetu. Dobrý bot je ten, který dělá užitečné úkoly nebo pomáhá uživatelům internetu a přitom nikomu neškodí uživatelské zkušenosti.
Existuje mnoho druhů dobrých robotů, každý navržený pro různé úkoly. Zde jsou nějaké příklady:
- Boti pro vyhledávače – Procházejí nebo kontrolují obsah téměř na všech webových stránkách internetu a poté tento obsah tzv. indexuji, aby se mohl zobrazit ve výsledcích vyhledávání uživatelů. Provozují je vyhledávače jako Google, DuckDuckGo nebo Bing.
- Copyright boti – Procházejí všemožné platformy nebo weby a hledají obsah, který může porušovat autorské právo. Tyto boty může provozovat jakákoli osoba nebo společnost, která vlastní materiál chráněný autorskými právy. Umí ověřovat duplicitní texty, hudbu, obrázky nebo videa.
- Boti pro monitoring webu – Monitorují metriky webových stránek (sledování zpětných odkazů, výpadky) a mohou upozornit uživatele na zásadní změny.
- Komerční roboti – Vyhledávají informace na internetu. Tyto roboty mohou provozovat společnosti zabývající se průzkumem trhu, které sledují zpravodajství nebo recenze zákazníků, reklamní sítě, které optimalizují místa, kde zobrazují reklamy, nebo agentury SEO, které procházejí webové stránky klientů.
- Feed boti – Procházejí internet a hledají obsah, který stojí za to přidat do informačního kanálu platformy. Tyto roboty mohou provozovat weby agregující obsah nebo sítě sociálních médií.
- Chatboti – Napodobují lidskou konverzaci tím, že odpovídají uživatelům pomocí předem naprogramovaných odpovědí. Někteří chatboti jsou dostatečně komplexní, aby mohli vést dlouhé konverzace.
- Osobní asistenční boti: Jako Siri nebo Alexa: Ačkoli jsou tyto programy mnohem pokročilejší než typický bot, přesto se jedná o boty: počítačové programy, které procházejí web a vyhledávají data.
Co je robots.txt?
Správná správa robotů začíná správným nastavením pravidel v souboru robots.txt webových stránek. Soubor robots.txt je textový soubor, který je umístěn na webovém serveru a určuje pravidla pro všechny roboty, kteří přistupují k hostované webové stránce nebo aplikaci. Tato pravidla definují, které stránky mohou a nemohou roboti procházet, které odkazy mají a nemají sledovat a další požadavky na chování botů.
Dobří boti se těmito pravidly řídí. Pokud například majitel webu nechce, aby se určitá stránka na jeho webu zobrazovala ve výsledcích vyhledávání Google, můžete do souboru robots.txt napsat pravidlo a roboti od Google tuto stránku nezaindexují. Ačkoli soubor robots.txt nemůže tato pravidla skutečně prosadit, dobří roboti jsou naprogramováni tak, aby soubor vyhledali a řídili se pravidly dříve, než udělají cokoliv jiného.
Špatní roboti však často soubor robots.txt ignorují nebo si ho přečtou, aby zjistili, jaký obsah se web snaží udržet mimo dosah robotů, a pak k němu přistupují.
Správa botů tedy vyžaduje aktivnější přístup než pouhé stanovení pravidel pro chování botů v souboru robots.txt.
Blokace botů pomocí .htaccess
Rychlá a účinná blokace je pomocí souboru .htaccess. Jakmile totiž soubor uložíte, hned se pravidla aktivují.
Stačí upravit .htaccess, který máte v kořenové složce /www.
Freelo - Nástroj na řízení úkolů a projektů
Přidej se, pozvi svůj tým a klienty, rozděl práci a sleduj, jak se úkoly dají do pohybu.
Můžete zablokovat IP adresu botů nebo user-agenta.
Require all granted
Require not ip 127.0.0.1/32 #zablokuje IP adresu nebo celý rozsah
Require not env SemrushBot #zablokuje user-agenta
Zároveň můžete IP adresy nebo user-agenty povolit.
Require ip MOJE_IP_V_KANCELARI/32
Require ip MOJE_IP_V_DOMA/32
Require ip MOJE_IP_VPN/32
Require env Google
Boti často mění IP adresu, takže tímto si člověk moc nepomůže. Proto raději doporučujeme blokovat podle jména.
Máme pro vás jeden takový zápis.
Require all granted
Require not env DISCo
Require not env eCatch
Require not env EirGrabber
Require not env EmailSiphon
Require not env EmailWolf
Require not env ExtractorPro
Require not env EyeNetIE
Require not env FlashGet
Require not env GetRight
Require not env GetWeb!
Require not env Go!Zilla
Require not env Go-Ahead-Got-It
Require not env GrabNet
Require not env Grafula
Require not env HMView
Require not env MegaIndex.ru
Require not env HTTrack
Require not env InterGET
Require not env JetCar
Require not env larbin
Require not env LeechFTP
Require not env Navroad
Require not env NearSite
Require not env NetAnts
Require not env NetSpider
Require not env NetZIP
Require not env Octopus
Require not env PageGrabber
Require not env pcBrowser
Require not env RealDownload
Require not env ReGet
Require not env SiteSnagger
Require not env SmartDownload
Require not env SuperBot
Require not env SuperHTTP
Require not env Surfbot
Require not env tAkeOut
Require not env VoidEYE
Require not env WebAuto
Require not env WebCopier
Require not env WebFetch
Require not env WebLeacher
Require not env WebReaper
Require not env WebSauger
Require not env WebStripper
Require not env WebWhacker
Require not env WebZIP
Require not env Widow
Require not env WWWOFFLE
Require not env Zeus
Require not env AhrefsBot
Require not env DotBot
Require not env BaiduSpider
Require not env CCBot
Require not env MJ12bot
Require not env SiteAnalyzerbot
Require not env BLEXBot
Require not env Uptimerobot
Require not env AspiegelBot
Require not env VelenPublicWebCrawler
Require not env Xenu Link Sleuth
Require not env sarpstatbot
Require not env ZoominfoBot (zoominfobot at zoominfo
Require not env Nimbostratus-Bot
Require not env SEOkicks
Require not env Seekport Crawler
Require not env Alphabot
Require not env magpie-crawler
Require not env LinkpadBot
Require not env Linguee bot
Require not env Semtix.cz
Require not env Statusoid
Require not env BananaBot
Require not env CFNetwork
Require not env python-request
Require not env FirmoGraph
Require not env PetalBot
Require not env TombaPublicWebCrawler
Require not env barkrowler
Require not env serpstatbot
Require not env Archive Team
Require not env Sogou web spider