Computers, Programmering
Wat is een crawler? crawler functie "Yandex" en Google
Elke dag op het internet is er een enorme hoeveelheid nieuwe materialen voor het maken van een website van de oude webpagina's bijgewerkt, foto's uploaden en video's. Zonder verborgen zoekmachines kon niet worden gevonden in het World Wide Web, geen van deze documenten. Alternatieven zoals robot-programma's op een bepaald moment niet bestaat. Wat is een zoekrobot, waarom je het nodig hebt en hoe om te werken?
Wat is een zoekrobot
Crawler website (zoekmachine) - het is een automatische programma dat in staat is om de miljoenen webpagina's bezoeken, snel navigeren door het internet zonder tussenkomst van een operator. Bots zijn voortdurend scan ruimte van het World Wide Web, het vinden van nieuwe webpagina's en regelmatig te bezoeken al geïndexeerd. Andere namen voor web crawlers spiders, crawlers, bots.
Waarom zijn zoekmachine spiders
De belangrijkste functies die de spiders van zoekmachines te voeren - webpagina's geïndexeerd, evenals tekst, afbeeldingen, audio en video bestanden die op hen. Bots controleren referenties, mirror sites (exemplaren) en updates. De robots ook HTML-code controle voor conformiteit normen van de World Organisation, die zich ontwikkelt en implementeert technische normen voor het World Wide Web uit te voeren.
Wat is indexering, en waarom het nodig is
Indexing - is, in feite, is het proces van het bezoeken van een bepaalde webpagina door zoekmachines. Het programma scant de tekst op deze site, afbeeldingen, video's, uitgaande links, zal de pagina in de zoekresultaten. In sommige gevallen kan de site kan niet worden automatisch gescand, dan kan het aan de zoekmachine worden toegevoegd handmatig webmaster. Dit gebeurt meestal in de afwezigheid van externe links naar een bepaalde (vaak pas sinds kort gemaakt) pagina.
Hoe de spiders van zoekmachines
Elke zoekmachine heeft zijn eigen bot met de Google-zoekrobot kan aanzienlijk variëren afhankelijk van het mechanisme werkt op een soortgelijk programma, "Yandex" of andere systemen.
In het algemeen is een robot werkingsprincipe is als volgt: het programma "komt" op de site en externe links vanaf de hoofdpagina, "leest" Web resource (met inbegrip van mensen die op zoek overhead die de gebruiker niet te zien). Boot is hoe om te navigeren tussen de pagina's van de website en ga naar anderen.
Het programma zal welke site te indexeren kiezen? Vaker wel dan niet "reis" de spin begint met nieuwssites of belangrijke bron directories en aggregators met grote referentie gewicht. Crawler scant continu de pagina's één voor één, op de snelheid en de consistentie van het indexeren van de volgende factoren:
- Intern: perelinovka (interne links tussen de pagina's van dezelfde bron), ter grootte, de juiste code, gebruiksvriendelijk en ga zo maar door;
- Extern: de totale referentiegewicht, wat leidt tot de site.
Het eerste wat de zoekrobot zoekopdrachten op elke website door robots.txt. Verder resource indexering wordt uitgevoerd op basis van de ontvangen informatie is uit dit document. Dit bestand bevat specifieke instructies voor de "spiders" die de kans op pagina bezoeken kunnen verhogen door zoekmachines, en dus om een vroege hit site in de "Yandex" of Google te bereiken.
Programma analogen crawlers
Vaak wordt de term "zoekrobot" wordt verward met intelligente, gebruiker of autonome agenten, "mieren" of "wormen". Ondergedompeld alleen significante verschillen vergeleken met middelen, andere definities verwijzen naar soortgelijke soorten robots.
Zo kunnen middelen zijn:
- intellectueel: het programma, dat wordt verplaatst van site naar site, zelfstandig te beslissen hoe verder te gaan; ze zijn niet erg gebruikelijk op het internet;
- Autonoom: Deze agenten helpen de gebruiker in een product, zoeken selecteren, of het invullen van formulieren, de zogenaamde filters, die weinig verband met netwerkprogramma's zijn;.
- gebruiker: het programma dragen bij aan interactie van de gebruiker met het World Wide Web, een browser (bijvoorbeeld, Opera, Internet Explorer, Google Chrome, Firefox), boodschappers (Viber, Telegram) of per e-mail programma's (MS Outlook en Qualcomm).
"Mieren" en "wormen" zijn meer vergelijkbaar met de zoekmachine "spiders". De eerste vorm tussen een netwerk en consequent communiceren als deze mierenkolonie "wormen" in staat is te repliceren in andere opzichten hetzelfde als de standaard crawler.
Verscheidenheid van zoekmachine robots
Maak een onderscheid tussen verschillende soorten crawlers. Afhankelijk van het doel van het programma, ze zijn:
- "Mirror" - Duplicates bekijkt websites.
- Mobile - focus op mobiele versies van webpagina's.
- Quick - corrigeer snel nieuwe informatie door het bekijken van de laatste updates.
- Referentie - referentie-index, tellen hun nummers.
- Indexeerders verschillende typen inhoud - specifieke programma's voor tekst, audio, video, afbeeldingen.
- "Spyware" - op zoek naar pagina's die nog niet worden weergegeven in de zoekmachine.
- "Specht" - regelmatig te bezoeken sites om hun relevantie en efficiency te controleren.
- National - surfen op het Web bronnen gelegen op een van de land-domeinen (bv, .mobi, of .kz .ua).
- Global - index alle nationale sites.
Robots grote zoekmachines
Er zijn ook enkele zoekmachine spiders. In theorie kunnen hun functionaliteit sterk variëren, maar in de praktijk van de programma's zijn vrijwel identiek. De belangrijkste verschillen indexeren webpagina's robots twee grote zoekmachines zijn als volgt:
- De stringentie van de test. Er wordt aangenomen dat het mechanisme van de crawler "Yandex" enigszins strenger schattingen van de site voor de naleving van de normen van het World Wide Web.
- Behoud van de integriteit van de site. De Google-crawler indexeert de hele site (met inbegrip van media-inhoud), "Yandex" kunt ook de inhoud selectief.
- Snelheidstest nieuwe pagina's. Google voegt nieuwe resource in de zoekresultaten binnen een paar dagen, in het geval van "door Yandex" proces kan twee weken of langer duren.
- De frequentie van herindexering. Crawler "Yandex" controleren op updates twee keer per week, en Google - een om de 14 dagen.
Internet is natuurlijk niet beperkt tot de twee zoekmachines. Andere zoekmachines hebben hun robots die hun eigen indexering parameters volgen. Daarnaast zijn er verschillende "spiders" die zijn ontworpen om geen grote middelen te zoeken, en de individuele teams of webmasters.
misvattingen
In tegenstelling tot wat vaak wordt gedacht, "spinnen" niet de informatie te verwerken. Scant het programma alleen en slaat webpagina's en verdere verwerking een geheel robots.
Ook veel gebruikers zijn van mening dat de spiders van zoekmachines hebben een negatieve impact en "schadelijk" Internet. In feite, kunnen sommige versies van "spinnen" aanzienlijk overbelasten de server. Er is ook een menselijke factor - de webmaster, die het programma, kunnen fouten in de robot configuratie gemaakt. Toch zijn de meeste van de bestaande programma's zijn goed ontworpen en professioneel beheerd, en de eventuele problemen die zich voordoen onmiddellijk verwijderd.
Hoe de indexering te beheren
Zoekmachine robots zijn de geautomatiseerde programma, maar het indexeringsproces kan gedeeltelijk worden geregeld door opnemen. Dit helpt enorm externe en interne optimalisatie van de bron. Daarnaast kunt u handmatig een nieuwe site toe te voegen aan een zoekmachine: grote middelen hebben een speciale vorm van webpagina's te registreren.
Similar articles
Trending Now