2人贊同了該回答
? 爬蟲首先是有一定特征的,爬蟲大部分都會(huì)去爬pc端。爬蟲一般有以下特征:
單一IP十分規(guī)律的訪問(wèn)頻次我們經(jīng)常會(huì)遇到的一個(gè)問(wèn)題,當(dāng)我們?cè)谀硞€(gè)網(wǎng)站上發(fā)帖時(shí),會(huì)提示“發(fā)帖過(guò)快,請(qǐng)等候XX秒”,或者提示“刷新頻率過(guò)快,請(qǐng)歇一會(huì)”,這都是網(wǎng)站為了緩解壓力對(duì)“用戶”作出了一些限制,而爬蟲相關(guān)于用戶來(lái)說(shuō)更猖獗,訪問(wèn)的頻次更快,假如單一IP十分高的訪問(wèn)頻次,那么將會(huì)被判為“爬蟲”,進(jìn)而遭到限制。
單一IP十分規(guī)律的數(shù)據(jù)流量當(dāng)單一IP的數(shù)據(jù)流量十分大時(shí),也會(huì)惹起網(wǎng)站的留意。說(shuō)到數(shù)據(jù)流量有些朋友就會(huì)有疑問(wèn)了,下載站的數(shù)據(jù)流量大也是很正常的啊。這里說(shuō)的數(shù)據(jù)流量不只是單一的下載數(shù)據(jù)流量,而是大量的并發(fā)懇求。高并發(fā)懇求很容易對(duì)效勞器形成高負(fù)荷,所以遭到限制也是很正常的。大量反復(fù)簡(jiǎn)單的網(wǎng)站閱讀行為我們曉得,不同的用戶閱讀速度、習(xí)氣等都不相同,有的人閱讀一個(gè)頁(yè)面需求五秒,有的需求考慮一分鐘等等,當(dāng)存在大量的用戶IP都是千篇一概的閱讀速度,比方3秒訪問(wèn)一個(gè)頁(yè)面,那么這就十分可疑了,遭到封殺也是正常的,就算用了代理IP也防止不了。
發(fā)布于2023-05-09