Paralel Web-Scraping Sistemləri üçün Anti-Scraping Texnikalarının Aşkarlanması və ByPass Mexanizmlərinin Tədqiqi
Keywords:
web-scraping, anti-scraping, aşkarlama modulu, bypass texnikaları, CAPTCHA, risk yönümlü planlaşdırmaAbstract
Bu məqalədə kommersiya məqsədli veb-saytlarda tətbiq olunan anti-scraping texnologiyalarının aşkarlanması və adaptiv bypass mexanizmlərinin tətbiqi üçün paralel çalışan web-scraping modelinin tədqiqi təqdim olunur. Təklif edilən model iki əsas moduldan ibarətdir: HTTP cavablarını təhlil edərək risk əmsalı təyin edən aşkarlama modulu və həmin əmsala uyğun sorğuları fərqli işləyici mühitlərinə yönləndirən planlaşdırıcı. Modellə aparılan simulyativ testlər açıq mənbəli məlumatlarla müqayisəli şəkildə analiz edilmiş və uğurlu sorğu faizi, cavab gecikməsi və server yüklənməsi kimi metriklər üzrə effektivlik nümayiş etdirilmişdir. Sistem həmçinin etik prinsiplərə uyğun şəkildə – robots.txt uyğunluğu, şəxsi məlumatların filtr olunması və API prioriteti – işlənmişdir. Bu yanaşma həm texniki səmərəliliyi artırır, həm də scraping fəaliyyətlərini hüquqi baxımdan daha cavabdeh formada həyata keçirməyə imkan yaradır.
Published
How to Cite
Issue
Section
License

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.