COVID2019 и это вот все. Друзья, вся эта история начинает плохо пахнет. Мойте руки, не ходите в люди. Отложите все плановые покупки и положите в носок заначку. Заприте ваших родителей, бабушек-дедушек на даче. Лучше перебдеть чем недобдеть. Берегите себя!

Recommended Posts

post-2715-0-79798600-1446011749_thumb.jp


 


Давеча подскачила нагрузка на sql, что повлекло санкции со стороны хостера на свою персону, борясь с этой проблемой и анализируя логи пальнул таких товарищей:


 


MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+


AhrefsBot/5.0; +http://ahrefs.com/robot/


Baiduspider/2.0; +http://www.baidu.com/search/spider.html


 


сканируют они много и жадно, погуглив оказалось, что подобных сомнительных засланцев довольно много и в общем народ и блокирует, отсюда вопрос если смысл ограничивать им доступ и каким из них вот поднашел списочек :



Aboundex
80legs
360Spider
Java
Cogentbot
Alexibot
asterias
attach
BackDoorBot
BackWeb
Bandit
BatchFTP
Bigfoot
Black.Hole
BlackWidow
BlowFish
BotALot
Buddy
BuiltBotTough
Bullseye
BunnySlippers
Cegbfeieh
CheeseBot
CherryPicker
ChinaClaw
Collector
Copier
CopyRightCheck
cosmos
Crescent
Custo
AIBOT
DISCo
DIIbot
DittoSpyder
Download Demon
Download Devil
Download Wonder
dragonfly
Drip
eCatch
EasyDL
ebingbong
EirGrabber
EmailCollector
EmailSiphon
EmailWolf
EroCrawler
Exabot
Express WebPictures
Extractor
EyeNetIE
Foobot
flunky
FrontPage
Go-Ahead-Got-It
gotit
GrabNet
Grafula
Harvest
hloader
HMView
HTTrack
humanlinks
IlseBot
Image Stripper
Image Sucker
Indy Library
InfoNavibot
InfoTekies
Intelliseek
InterGET
Internet Ninja
Iria
Jakarta
JennyBot
JetCar
JOC
JustView
Jyxobot
Kenjin.Spider
Keyword.Density
larbin
LexiBot
lftp
libWeb/clsHTTP
likse
LinkextractorPro
LinkScan/8.1a.Unix
LNSpiderguy
LinkWalker
lwp-trivial
LWP::Simple
Magnet
Mag-Net
MarkWatch
Mass Downloader
Mata.Hari
Memo
Microsoft.URL
Microsoft URL Control
MIDown tool
MIIxpc
Mirror
Missigua Locator
Mister PiX
moget
Mozilla/3.Mozilla/2.01
Mozilla.*NEWT
NAMEPROTECT
Navroad
NearSite
NetAnts
Netcraft
NetMechanic
NetSpider
Net Vampire
NetZIP
NextGenSearchBot
NG
NICErsPRO
niki-bot
NimbleCrawler
Ninja
NPbot
Octopus
Offline Explorer
Offline Navigator
Openfind
OutfoxBot
PageGrabber
Papa Foto
pavuk
pcBrowser
PHP version tracker
Pockey
ProPowerBot/2.14
ProWebWalker
psbot
Pump
QueryN.Metasearch
RealDownload
Reaper
Recorder
ReGet
RepoMonkey
RMA
Siphon
SiteSnagger
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
sogou
SpaceBison
SpankBot
spanner
Sqworm
Stripper
Sucker
SuperBot
SuperHTTP
Surfbot
suzuran
Szukacz/1.4
tAkeOut
Teleport
Telesoft
TurnitinBot/1.5
The.Intraformant
TheNomad
TightTwatBot
Titan
True_bot
turingos
TurnitinBot
URLy.Warning
Vacuum
VCI
VoidEYE
Web Image Collector
Web Sucker
WebAuto
WebBandit
Webclipping.com
WebCopier
WebEMailExtrac.*" bot
WebEnhancer
WebFetch
WebGo IS
Web.Image.Collector
WebLeacher
WebmasterWorldForumBot
WebReaper
WebSauger
Website eXtractor
Website Quester
Webster
WebStripper
WebWhacker
WebZIP
Whacker
Widow
WISENutbot
WWWOFFLE
WWW-Collector-E
Xaldon
Xenu
Zeus
ZmEu
Zyborg
AhrefsBot
archive.org_bot
bingbot
Wget
Acunetix
FHscan

и какое время оптимально поставить для директивы Crawl-delay


Ссылка на комментарий
Поделиться на других сайтах

crawl - delay не трогайте если нет заметных проблем с нагрузкой

что касается ботов - то да..

Втопку.

этих всех можно смело в топку? или какой нибудь бинг есть смысл оставить? да есть перегруз сильный, кажется основной косяк я локализовал (позже напишу после тестов в отдельной ветке), но все равно нагрузка раньше была меньше(я перепотрошил блог и описание к товарам вероятно они от этого там еще трутся) читал что оптимально поставить значение в 10

Ссылка на комментарий
Поделиться на других сайтах

Всем привет.А можно скинуть итоговый htaccess (текст) 

А то занесу куда нибудь, что потом кроме меня никто не достучится)

 

нужно только добавить эти строки в ваш .htaccess:

## Блокировка по USER AGENT:

RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]

RewriteCond %{HTTP_USER_AGENT} MegaIndex.ru [OR]

RewriteCond %{HTTP_USER_AGENT} bingbot [OR]

RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]

RewriteCond %{HTTP_USER_AGENT} Java [OR]

RewriteCond %{HTTP_USER_AGENT} NjuiceBot [OR]

RewriteCond %{HTTP_USER_AGENT} Gigabot [OR]

RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]

RewriteCond %{HTTP_USER_AGENT} JS-Kit [OR]

RewriteCond %{HTTP_USER_AGENT} Voyager [OR]

RewriteCond %{HTTP_USER_AGENT} PostRank [OR]

RewriteCond %{HTTP_USER_AGENT} PycURL [OR]

RewriteCond %{HTTP_USER_AGENT} Aport [OR]

RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]

RewriteCond %{HTTP_USER_AGENT} DotBot [OR]

RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]

RewriteCond %{HTTP_USER_AGENT} larbin [OR]

RewriteCond %{HTTP_USER_AGENT} Butterfly [OR]

RewriteCond %{HTTP_USER_AGENT} libwww [OR]

RewriteCond %{HTTP_USER_AGENT} Wget [OR]

RewriteCond %{HTTP_USER_AGENT} SWeb [OR]

RewriteCond %{HTTP_USER_AGENT} LinkExchanger [OR]

RewriteCond %{HTTP_USER_AGENT} Soup [OR]

RewriteCond %{HTTP_USER_AGENT} WordPress [OR]

RewriteCond %{HTTP_USER_AGENT} PHP/ [OR]

RewriteCond %{HTTP_USER_AGENT} spbot [OR]

RewriteCond %{HTTP_USER_AGENT} MLBot [OR]

RewriteCond %{HTTP_USER_AGENT} InternetSeer [OR]

RewriteCond %{HTTP_USER_AGENT} FairShare [OR]

RewriteCond %{HTTP_USER_AGENT} Yeti [OR]

RewriteCond %{HTTP_USER_AGENT} Birubot [OR]

RewriteCond %{HTTP_USER_AGENT} YottosBot [OR]

RewriteCond %{HTTP_USER_AGENT} gold\ crawler [OR]

RewriteCond %{HTTP_USER_AGENT} Linguee [OR]

RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]

RewriteCond %{HTTP_USER_AGENT} lwp-trivial [OR]

RewriteCond %{HTTP_USER_AGENT} Purebot [OR]

RewriteCond %{HTTP_USER_AGENT} User-Agent [OR]

RewriteCond %{HTTP_USER_AGENT} kmSearchBot [OR]

RewriteCond %{HTTP_USER_AGENT} SiteBot [OR]

RewriteCond %{HTTP_USER_AGENT} CamontSpider [OR]

RewriteCond %{HTTP_USER_AGENT} ptd-crawler [OR]

RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]

RewriteCond %{HTTP_USER_AGENT} suggybot [OR]

RewriteCond %{HTTP_USER_AGENT} ttCrawler [OR]

RewriteCond %{HTTP_USER_AGENT} Nutch [OR]

RewriteCond %{HTTP_USER_AGENT} Zeus

RewriteRule ^(.*)$ – [F,L]

при необходимости можно добавить дургих Но [OR] в последней строчке не должно быть

Ссылка на комментарий
Поделиться на других сайтах

нужно только добавить эти строки в ваш .htaccess:

при необходимости можно добавить дургих Но [OR] в последней строчке не должно быть

Дописал все это в htaccess

На сайте и в админке появились тормоза (долго грузит страницу).Это совпадение (упадок скорости интернета или загрузка сервера) или это как то связано с этими адресами ?

Ссылка на комментарий
Поделиться на других сайтах

Дописал все это в htaccess

На сайте и в админке появились тормоза (долго грузит страницу).Это совпадение (упадок скорости интернета или загрузка сервера) или это как то связано с этими адресами ?

у себя не чего такого не заметил, протестируйте, я собственно поделился тем что сам нагуглил и у меня заработало

Ссылка на комментарий
Поделиться на других сайтах

у себя не чего такого не заметил, протестируйте, я собственно поделился тем что сам нагуглил и у меня заработало

ок, видимо совпадение

Ссылка на комментарий
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вы вставили отформатированное содержимое.   Удалить форматирование

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.