Komputiloj, Programado
Kio estas crawler? crawler ilo "Yandex" kaj Google
Ĉiutage en Interreto estas grandega kvanto de novaj materialoj por krei retejon ĝisdatigita la malnova retpaĝoj, alŝuti fotojn kaj videojn. Sen kaŝita de serĉiloj povis trovi en la TTT, neniu el ĉi tiuj dokumentoj. Alternativoj kiel robotajn programojn en momento donita ne ekzistas. Kio estas serĉo roboto, kial vi bezonas ĝin kaj kiel funkcii?
Kio estas serĉo roboto
Crawler retejon (serĉilo) - ĝi estas aŭtomata programo, kiu povas viziti la milionoj de retpaĝoj, rapide navigi tra la interreto sen operatoro interveno. Robotoj estas konstante scan spaco de la TTT, trovante novajn retpaĝojn kaj regule vizito jam indeksita. Aliaj nomoj por TTT vespoj araneoj, vespoj, robotojn.
Kial serĉilo araneoj
La ĉefaj funkcioj kiuj plenumas serĉilo araneoj - retpaĝoj indeksita, tiel kiel teksto, bildoj, audio kaj video dosierojn, kiuj estas sur ili. Bots kontroli referencoj, spegulo lokoj (kopioj) kaj ĝisdatigoj. La robotoj ankaŭ plenumi HTML-kodo kontrolo por Konformeco normoj de la Monda Organizo, kiu disvolvas kaj implementa teknologia normoj por la TTT.
Kio estas indeksado, kaj kial ĝi estas bezonata
Indeksado - estas, fakte, estas la procezo de viziti apartan retpaĝon por serĉiloj. La programo escanea la teksto en ĉi tiu retejo, bildoj, videoj, outbound ligoj, do la paĝo aperas en la serĉrezultoj. En iuj kazoj, la retejo ne estas skanita aŭtomate, do ĝi povas esti aldonitaj al la serĉilo permane retestro. Tipe, ĉi tiu okazas en la foresto de eksteraj ligiloj por aparta (ofte nur ĵus kreis) paĝo.
Kiel serĉilon araneoj
Ĉiu serĉilo havas propran bot kun la Google serĉo roboto povas varii signife laŭ la mekanismo funkcias en simila programo, "Yandex" aŭ aliaj sistemoj.
Ĝenerale, roboto laboranta principon estas kiel sekvas: la programo "venas" en la retejo kaj eksteraj ligoj de la ĉefa paĝo, "legas" TTT rimedo (inkluzive tiuj rigardanta superkape kiu ne vidas la uzanto). Boato estas kiel navigi inter paĝoj de loko kaj movo sur al aliaj.
La programo elektos kiun ejon indekso? Pli ofte ol ne "stumbli" la araneo komencas kun novaĵo ejoj aŭ grava rimedo dosierujojn kaj agregadores kun grandaj referenco pezo. Crawler kontinue skanas la paĝojn unu post alia, en la indico kaj consistencia de indeksante la sekvaj faktoroj:
- Interna: perelinovka (internaj ligoj inter paĝoj de la sama rimedo), ejo grandeco, la korekta kodo, uzantamika kaj tiel plu;
- Eksteraj: la tuta referenco pezo, kondukanta al la ejo.
La unua afero la serĉo roboto serĉoj en ajna retejo de robots.txt. Plue rimedo indeksado estas farita surbaze de la informo ricevita estas de ĉi tiu dokumento. Ĉi tiu dosiero entenas specifajn instrukciojn por la "araneoj" kiu povas pliigi la ŝancojn paĝo vizitoj per serĉiloj, kaj, konsekvence, por atingi frua sukceso retejon en la "Yandex" aŭ Google.
Programo analogaj vespoj
Ofte la termino "serĉo roboto" estas konfuzita kun inteligenta, uzanto aŭ aŭtonoma agentoj, "formikoj" aŭ "vermojn". Inmerso signifaj diferencoj nur kompare kun agentoj, aliaj difinoj nomas similajn tipojn de robotoj.
Ekzemple, agentoj povas esti:
- intelektaj: la programo, kiu estas movita de loko al loko, sendepende decidi kiel konduto; ili ne estas tre ofta en la interreto;
- Aŭtonoma: Ĉi tiuj agentoj helpi al la uzanto selekti produkton, serĉo, aŭ plenigado formoj, la tiel nomata filtriloj, kiuj estas iom rilatita al reto programoj.;
- uzanto: la programo kontribui al uzanto interago kun la TTT, navegador (ekzemple, ĝi Operacias, IE, Google Chrome, Firefox), mesaĝistoj (Viber, Telegramo) aŭ retpoŝte programoj (MS Outlook kaj Qualcomm).
"Formikoj" kaj "vermojn" estas pli simila al la serĉilo "araneoj". La unua formo inter reto kaj konsekvence interagas tiel formiko kolonio, "vermojn" povas reprodukti en aliaj rilatoj la sama kiel la norma crawler.
Diversaj serĉilo robotoj
Distingi inter multaj tipoj de vespoj. Depende de la celo de la programo, ili estas:
- "Spegulo" - duobligitaj retumado retejoj.
- Poŝtelefono - fokuso en porteblaj versioj de retpaĝoj.
- Rapida - fiksi novan informon rapide por vidi la lastajn ĝisdatigojn.
- Referenco - referenco indekso, rigardu siajn nombrojn.
- Indexers malsamaj specoj de enhavo - specifaj programoj por teksto, audio, video, bildoj.
- "Spyware" - serĉas paĝojn, kio ankoraux ne montriĝas en la serĉilo.
- "Pego" - periode vizitas lokoj por kontroli ilian gravecon kaj efikeco.
- Nacia - foliumantaj la TTT rimedojn situas sur unu el la lando domajnoj (ekz .mobi, aŭ .kz .ua).
- Global - indekso ĉiuj naciaj ejoj.
Robotoj grandaj serĉiloj
Ekzistas ankaŭ kelkaj serĉilo araneoj. Teorie lia funcionalidad povas varii vaste, sed praktike la programoj estas preskaŭ identa. La ĉefaj diferencoj indeksante retpaĝoj robotoj du gravaj serĉiloj estas:
- La stringency de elprovado. Oni kredas ke la mekanismo de crawler "Yandex" iom pli striktaj taksoj la ejo por la plenumo de la normoj de la TTT.
- Konservado de la integrecon de la retejo. La Google crawler indeksas la tuta retejo (inkluzive de amaskomunikiloj enhavo), "Yandex" povas ankaŭ vidi enhavon selectivamente.
- Rapido testo novaj paĝoj. Google aldonas nova rimedo en la serĉrezultoj ene de kelkaj tagoj, en la kazo de "de Yandex" procezo povas preni du semajnoj aŭ pli.
- La ofteco de re-indeksado. Crawler "Yandex" kontrolu por ĝisdatigoj dufoje semajne, kaj Google - oni ĉiu 14 tagoj.
Interreto, kompreneble, ne limigita al la du serĉiloj. Aliaj serĉiloj havas iliajn robotojn kiuj gvidas sin per sia propra indeksado parametroj. Krome, estas pluraj "araneoj" kiuj estas desegnitaj ne grava serĉo rimedoj, kaj individuaj teamoj aŭ retestroj.
komunaj miskomprenoj
Kontraŭe al la populara kredo, "araneoj" ne procesi la informon. La programo nur skanas kaj stokas retpaĝojn kaj plua prilaborado prenas tute malsaman robotoj.
Ankaŭ, multaj uzantoj kredas ke la serĉilo araneoj havas negativan efikon kaj "malutilaj" Interreto. Fakte, iuj versioj de "araneoj" povas signife superŝarĝas la servilo. Ankaŭ ekzistas homa faktoro - la retestro, kiu kreis la programo, povas fari erarojn en la roboto agordo. Tamen la plej multaj el la ekzistantaj programoj estas bone desegnita kaj profesie sukcesis, kaj ajna aperantaj problemoj senprokraste forigita.
Kiel mastrumi la indeksado
Serĉilo robotoj estas la aŭtomata programoj, sed la indeksado procezo povas esti parte kontrolitaj de la retestro. Tio multe helpas eksteraj kaj internaj optimumigo de la rimedo. Krome, vi povas permane aldoni novan retejon al serĉilo: grandaj rimedoj havas specialan formon de TTT-paĝoj registriĝo.
Similar articles
Trending Now