Comment les moteurs de recherche?

Pour beaucoup de gens, Google EST

Contenu

Rampant
Indexage
Video: les moteurs de recherche - fonctionnement
Classement & récupération
Video: moteurs de recherche : fonctionnement
Quel avenir pour les moteurs de recherche?

l`Internet. Il est la page d`accueil par défaut et le premier port d`escale avant d`accéder à un site. Il est sans doute l`invention la plus importante depuis l`Internet lui-même. Sans moteurs de recherche, le contenu seraient tous cueillies à la main - tout comme les journaux et les magazines. Et alors que les moteurs de recherche ont beaucoup changé depuis les premiers débuts modestes - et Google est certainement pas la seulement moteur de recherche là-bas - les principes sous-jacents sont les mêmes comme ils l`étaient toujours.

Faire toi savoir comment les moteurs de recherche? Il y a trois étapes de base pour un moteur de recherche rampants - où le contenu est l`indexation discovered-, où il est analysé et stocké dans databases- énorme et la récupération, où une requête utilisateur va chercher une liste de pages pertinentes.

Rampant

Ramper est là où tout commence - l`acquisition de données sur un site Web. Cela implique la numérisation du site et obtenir une liste complète de tout là-bas - le titre de la page, des images, des mots-clés qu`il contient, et toutes les autres pages vers lesquels il pointe - à un strict minimum. robots d`exploration modernes peuvent mettre en cache une copie de la page, ainsi que chercher des informations supplémentaires telles que la mise en page, où les unités de publicité sont, où les liens sont sur la page (figuré en bonne place dans le texte de l`article, ou caché dans la bas de page?).

Comment un site rampé exactement? Un bot automatisé - une araignée - visites chaque page, tout comme vous ou moi, seulement très rapidement. Même dans les premiers jours, Google a indiqué qu`ils étaient en train de lire quelques centaines de pages par seconde. Si vous souhaitez apprendre à faire votre propre web crawler de base en PHP - il a été l`un des premiers articles que j`ai écrit ici et vaut bien avoir un aller à (mais ne vous attendez pas à faire le prochain Google).Comment construire un robot Web de base pour extraire des informations d`un site web (Partie 1)Comment construire un robot Web de base pour extraire des informations d`un site web (Partie 1)Lire la suite

Le robot ajoute tous les nouveaux liens qu`il trouve une liste des endroits à explorer suivante - en plus de nouveau ramper à nouveau les sites pour voir si quelque chose a changé. C`est un processus sans fin, vraiment.

Tout site qui est lié à un autre site déjà indexé, ou tout autre site qui a demandé manuellement à indexer, sera finalement rampé - certains sites plus fréquemment que d`autres et certains à une plus grande profondeur. Si le site est énorme et le contenu caché de nombreux clics de la page d`accueil, les robots collecteurs de chenilles peuvent effectivement abandonner. Il y a plusieurs façons de demander aux moteurs de recherche de ne pas indexer un site, même si cela est rarement utilisé pour bloquer un site Web entier.

Il y avait même un moment où une grande partie de l`Internet étaient essentiellement invisibles pour les moteurs de recherche - le soi-disant «web profond» - mais cela est rare maintenant. sites TOR hébergé (Qu`est-ce que l`oignon de routage?), Par exemple, restent UnIndexed par Google, et ne sont accessibles en se connectant au réseau TOR et connaître l`adresse.10 moteurs de recherche à explorer le Web Invisible10 moteurs de recherche à explorer le Web InvisibleNon, ce n`est pas le dernier outil de élingage Web de Spiderman, mais quelque chose qui est plus réel. Tout comme le World Wide Web.Lire la suite

comment faire les moteurs de recherche travail

Indexage

Vous seriez pardonné de penser cela est une étape facile - indexation est le processus de prendre toutes ces données que vous avez à partir d`une exploration, et en le plaçant dans une grande base de données. Imaginez essayer de faire une liste de tous les livres que vous possédez, leur auteur et le nombre de pages. En passant par chaque livre est le crawl et écrire la liste est l`indice. Mais imaginez maintenant ce n`est pas seulement une salle pleine de livres, mais toutes les bibliothèques du monde. C`est à peu près une petit-version à l`échelle de ce que fait Google.

Video: Les moteurs de recherche - Fonctionnement

Toutes ces données sont stockées dans vaste centres de données avec des milliers de pétaoctets d`une valeur de lecteurs. Voici un pic sournoise dans l`un des Google:

Classement & Récupération

La dernière étape est ce que vous voyez - vous tapez dans une requête de recherche, et le moteur de recherche tente d`afficher les documents les plus pertinents qu`il trouve correspondant à votre requête. Ceci est l`étape la plus compliquée, mais aussi les plus pertinents pour vous ou moi, en tant que développeurs web et les utilisateurs. Il est également la zone dans laquelle les moteurs de recherche se différencier (cependant, il y avait des preuves que Bing copiait en fait des résultats Google) .Certaines travail avec des mots-clés, certains vous permettre de poser une question, et certains comprennent des fonctionnalités avancées comme la proximité ou mot-clé filtrage par âge de contenu.10 utilisations fraîches de Wolfram Alpha Si vous lire et écrire en langue anglaise10 utilisations fraîches de Wolfram Alpha Si vous lire et écrire en langue anglaiseIl m`a fallu un certain temps pour envelopper ma tête autour de Wolfram Alpha et les requêtes qu`il utilise pour gicler ces résultats. Vous devez plonger profondément dans Wolfram Alpha pour exploiter vraiment à ...Lire la suite

Video: Moteurs de Recherche : Fonctionnement

L`algorithme de classement vérifie votre requête de recherche contre des milliards des pages afin de déterminer la façon dont chacun est pertinent. Cette opération est si complexe que les entreprises gardent étroitement leurs propres algorithmes de classement comme des secrets industriels brevetés. Pourquoi? avantage concurrentiel pour commencer - tant qu`ils vous donnent les meilleurs résultats de recherche, ils peuvent rester au-dessus du marché. En second lieu, pour éviter le jeu du système et de donner un avantage injuste à un site sur un autre.

Une fois que la méthodologie interne de tout système est pleinement compris, il y aura toujours ceux qui essaient de « pirater » il - découvrir les facteurs de classement et de les exploiter pour le gain monétaire.

L`algorithme de classement Exploiter a en effet été monnaie courante depuis les moteurs de recherche ont commencé, mais au cours des 3 dernières années environ Google a vraiment fait difficile. A l`origine, les sites ont été classés en fonction du nombre de fois un mot-clé particulier a été mentionné. Cela a conduit à « bourrage de mots clés », où les pages sont remplies de la plupart du temps un non-sens tant qu`il inclut le mot-clé partout.

Ensuite, le concept d`une importance basée sur la liaison a été introduit - plusieurs sites populaires seraient plus liés, évidemment - mais cela a conduit à une prolifération de liens de spam sur tout le web. Maintenant, chaque lien est déterminé à avoir une valeur différente, en fonction de la « autorité » du site en question. Si un des liens d`organismes gouvernementaux de haut niveau pour vous, il vaut beaucoup plus qu`un lien trouvé dans un free-for-all « répertoire de liens ».

Consultez SEOFailBlog.com pour plus d`exemples de SEO gone wild.

Aujourd`hui, la compréhension de l`algorithme exact est encore plus enveloppée de mystère que jamais, et l`art sombre de « Search Engine Optimization » a été largement paralysé - le conseil est maintenant de se concentrer sur la fourniture du meilleur contenu, avec une expérience utilisateur ( comment fou, non ?!). Considérant que près de 60% de toutes les recherches finissent par cliquer le premier résultat, il est facile de voir pourquoi le classement de votre page bien est si important.

Quel avenir pour les moteurs de recherche?

Ah, maintenant il y a une question intéressante. La réponse est - sémantique - la signification et le type de contenu d`une page contient. Pour plus d`informations à ce sujet, lire mon article sur Le balisage sémantique et comment il va changer le Web pour toujours.Qu`est-ce que sémantique Le balisage est & Comment cela va changer Internet pour toujours [Technologie Explained]Qu`est-ce que sémantique Le balisage est & Comment cela va changer Internet pour toujours [Technologie Explained]Lire la suite

Voici l`exemple le plus simple - en ce moment, vous pouvez rechercher des biscuits sans gluten, mais les pages que vous trouverez peut-être pas vraiment une recette pour le gluten cookies- libre, ils pourraient avoir un cookie régulier avec un peu de texte qui dit «cette recette n`est pas sans gluten« . Dans un monde avec la sémantique, vous pouvez rechercher des recettes de biscuits puis retirez la farine régulière de votre liste des ingrédients acceptables. Ensuite, vous pouvez supprimer tous les avec des noix, parce que vous n`êtes pas particulièrement désireux de noix. Ensuite, vous pouvez le réduire à seulement des recettes avec une note d`examen de 4/5 ou plus, et une préparation totale du temps de moins d`une demi-heure. Cette serait juste cool?

Eh bien, vous pouvez. Il suffit de se diriger vers Google.com (versions internationales ne fonctionnent pas), la recherche d`une recette, et d`utiliser les outils de recherche pour réduire à seulement les résultats qui sont des recettes. Ensuite, vous trouverez un filtre d`ingrédients, et plus encore!