Поисковыя система
У меня возник вопрос насчет поисковых систем, довайте для примера возьмем yandex, когда мы вводим некое словосочетание или искомое слово в текстовое поле и жмем найти, нам меньше чем за секунду выдает тысячи и даже милллеоны ответов, и то это зависет от скорости интернета, тоесть может даже еслы мы введем "Сладкий мед" то нам выдаст сайты где встречатся это словосочетание, или каждое слово по отдельности, иногда даже формировано по другому.

Как так быстро из миллеонов сайтов в каждом проверятся это слово или может как то подругому формированное слово, и выдает так быстро ответ?
Кокая бы у наих там сортировка не была, но всерафно очень быстро.

Что за зверский алгоритм?

Если взять какойто не сортированный числовой массив из 1000 000 элементов и производить в нем поиск одного конрекного элемента, то я думаю такого же результати тяжело убдет добиться.

Я понемаю что у них там мощьные сервера стоян, но всеравно.. .

Так что же у них там такое? как вы думаете.

  • мощные сервера высщитывают информацию превращают слова в цифры или еще в что то и моментально происходит поиск совпадаемых элементов, как быстро? н человек же ищет в ручную а многоядерные процессоры работаю ИМХО
  • У яндекса есть кэш. Оттуда и берется. В онлайне, разумеется, яндекс словосочетания не ищет - это было бы непозволительно долго. А так - распределенные БД и двоичные сбалансированные деревья для ускорения поиска. Что такое то и другое - можешь спросить у того же яндекса.. . )
  • Поисковый алгоритм учитывает и анализирует следующее:

    1. Возраст сайта.
    2. Название URL сайта (имя домена) .
    3. Язык сайта (русский или иностранный) .
    4. Число страниц сайта.
    5. Популярность тематики сайта.
    6. Общий объём (вес) сайта и каждой отдельно взятой веб-страницы сайта.
    7. Объём текстовой информации на сайте, а также на каждой веб-странице сайта.
    8. Применение стиля к страницам сайта.
    9. Общее количество ключевых слов на сайте и на отдельно взятой веб-странице.
    10. Соотношение общего числа слов на сайте/веб-странице к числу ключевых слов на сайте/веб-странице.
    11. Индекс цитирования.
    12. Количество запросов по конкретному ключевому слову за заданный период времени.
    13. Периодичность обновления информации на сайте, а также дата последнего обновления веб-страниц сайта.
    14. Общее число картинок и мультимедийных файлов на сайте.
    15. Использование фреймов.
    16. Размер и тип (жирность, пропись заглавными буквами и т. д. ) шрифта, которым оформлены ключевые слова. Стиль заголовков и наименований ключевых слов.
    17. Написаны ли ключевики в разрядку или нет.
    18. Как далеко от начала страницы располагаются ключевые слова.
    19. Наличие и анализ мета-тегов.
    20. Наличие и содержание описания и свойств страницы.
    21. Наличие файла "robots.txt".
    22. Географическое местоположение сайта.
    23. Комментарии внутри программного кода сайта.
    24. Тип (html или asp) страниц для каждой веб-страницы сайта.
    25. Наличие в составе сайта flash модулей.
    26. Наличие на сайте страниц-дублей или с незначительными различиями.
    27. Соответствие ключевых слов сайта тому разделу каталога поисковой системы, в котором зарегистрирован этот сайт.
    28. Наличие "шумовых слов" ("стоп слов").
    29. Общее количество гиперссылок сайта, число внутренних ссылок, число внешних ссылок сайта.
    30. Глубина сайта.
    А также другие специальные технические параметры.

    Поисковые алгоритмы засекречены, поэтому нет точного определения того, что именно учитывает алгоритм поисковой системы, на какие факторы обращает внимание в первую очередь, а какие не берёт в расчёт.

  • Каждую секунду поисковые машины перелопачивают тысячи всевозможных сайтов и страниц, ну а слов то, согласитесь, относительно не так уж и много в любом словаре
  • интернет тут вообще не причём, запрос отослан, остальная работа на сервере, методы поиска гуглите в яндексе (парадоксально звучит, не правда ли)