Поиск

Мировая поисковая система. Какие есть поисковые системы

Эта поисковая система Интернета - часть проекта фирмы CompTek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учётом морфологии русского языка. Яndex (произносится "яндекс") расшифровывается как Языковой Индекс (в английском написании Yandex - Yet Another Index).

Как указывается в документена сервере, продукты Яndex предназначены для работы с большими объёмами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страниц и страниц Интернета. В рамках проекта Яndex разрабатываются следующие поисковые системы:

Яndex.Web Поисковый механизм дла русскоязычной части Интернета Яndex.Site Функция, обеспечивающая удобный и быстрый поиск на Вашем Web-сервере Яndex.Dict Подключение модуля морфологии к существующим поисковым средствам Яndex.CD Индексация и поиск по статическому набору документов Яndex.Lib Библиотека для подключения к существующим базам и системам АРГОНАВТ Гипертекстовая оболочка с развитым лексическим и атрибутным поиском

Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997 г., область поиска системы - русскоязычная часть Интернета. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru :

  • Полнотекстовый поиск с полным учётом морфологии русского и английского языков
  • Мощный язык запросов
  • Возможность запроса на естественном языке (т. е. Вы печатаете Свой вопрос в таком вде, как если бы спрашивали человека, а не машину)
  • Корректная обработка сленговых терминов
  • Возможность поиска похожего документа
  • Очень компактный индекс
  • Подсветка слов из запроса в найденных документах
  • Развитая релевантность, позволяющая найти информацию, не перегружая пользователя тысячами ссылок на ненужные документы
  • Высокая скорость поиска

Яndex.Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.Dict, Яndex.CD, Яndex.Lib).

Дополнительную информацию о системе Яndex можно прочесть на сервере Петербургского отделения Института "Открытое Общество" (Фонд Сороса) в документе по адресу http://www.spb.osi.ru/IC/DISTANT/Yandex.doc .

Если углубляться в историю проекта Яndex, то впервые эта технология была применена для фиксированного объёма неизменяемых текстов - в справочнике "Международная классификация изобретений" и в "Библейском компьютерном справочнике". Для работы с внуттренней структурой документов был создан язык "Ястреб", с помощью которого поля могут быть описаны внешним образом, что избавляет от необходимости размечать каждый документ. В целях создания больших текстовых информационных систем на CD-ROM в настоящее время развернут проект АРГОНАВТ. В этот проект включён набор разработок, обеспечивающих поддержку развитых словарных, гипертекстовых и других навигационных возможностей.

Работа Яndex основана на том что система просматривает все указанные тексты, приводит каждое русское слово к нормальной форме (для существительных это - именительный падеж единственного числа, для глаголов - неопределённая форма и т. д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идёшь - шёл; ребёнок - дети; окно - окон; отзывать - отозвали.

При запросе на поиск текстов, включающих заданные слова, каждое слово из запроса также автоматически приводится к нормальной форме. благодаря сохранению подробного адреса, в ответе на запрос можно не только выдавать список найденных документов, но и показать найденные слова внутри документа. Реализован развитый поисковый интерфейс, который позволяет помимо стандартных логических операторов задавать поиск по близости, указывая расстояние между словами в тексте, а также требовать, чтобы запршенные слова были найдены в пределах одного абзаца, что уменьшает количество документов в результате запроса.

Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология даёт возможность почти полного снятия омонимии на этапе индексации.

Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования и механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имён собственных.

Работу морфологии Яndex можно использовать не только на самом поисковом сервере Яndex, но и на примере русского поиска с помощью системы AltaVista (http://www.comptek.ru/alta.html). Как известно, слова в AltaVista проиндексированы просто как последовательность символов, что заставляет пользователя при поиске специально думять о том, как русские слова изменяются при склонениях и спряжениях. При запросе же через Яndex в запрос системы автоматически подставляются все допустимые формы требуемых слов.

Американская поисковая система с названием Google была разработана одноименной компанией из США. Первоначальная цель поисковика - сбор и каталогизация всевозможной информации из сети Интернет, чтобы сделать её более доступной и облегчить поиск для пользователей.

Данная американская индексирует триллионы страниц. Большая часть информации хранится на серверах компании в упрощенном виде. Для этого используется кэширование. Поэтому даже удаленные сайты и странички длительное время хранятся поисковиком. На сегодняшний день данная американская поисковая система является первой по популярности и обрабатывает 77 % поисковых запросов в мире. Её название произошло от искаженной формы числительного googol, равного 10 в сотой степени.

История создания

Рассматриваемая американская поисковая система была создана Сергеем Брином и Ларри Пейджем в далеком 1996-м году. Первоначально она являла собой студенческий проект, когда её основатели обучались в Стэндфордском университете. В её основу легла идея, согласно которой математический алгоритм для анализа взаимоотношений пользователей с вебсайтами будет более практичным, нежели обычный текстовый поиск. Результатом студенческого проекта стало создание Inc в 1998-м. Её штаб-квартира располагалась в штате Калифорния (г. Менло-Парк). Вскоре после этого на просторах сети Интернет появилась и американская поисковая система Google с одноименным названием своего сайта.

В феврале 1999 года штаб-квартира компании была перенесена в Пало-Альто, штат Калифорния. Учитывая растущий интерес к поиску информации и рост прибыли от контекстной рекламы в Интернет, основатели смогли нанять профессиональную команду сотрудников. Новая штаб-квартира стала называться Googleplex. На начальном этапе главным конкурентом Google была поисковая система от Microsoft.

Данный поисковик был представлен (гендиректор Microsoft) в 1998 году. Тогда эта поисковая система называлась MSN Search. В 2006-м её переименовали в Windows Live Search, а в 2007-м сократили название до Live Search. В 2009-м поисковик получил свое текущее актуальное наименование - Bing. По популярности он занимает второе место в мире.

Появление Yahoo!

В начале 2004 года Google контролировала около 80 % поискового рынка, используя арендованные у Yahoo! и AOL технологии и мощности. Однако вскоре Yahoo! отказались продлевать договор, начав работать над созданием собственного поисковика. Его появление несколько снизило долю поисковых запросов Google, однако американские поисковые системы Интернета все равно лидировали.


Технологии

Наиболее важной технологией, которая была запатентована Google, является PageRank. Он представляет собой математический алгоритм ранжирования страниц под каждый поисковый запрос. PageRank сайта и каждой отдельной страницы основан на количестве ссылок на них с внешних ресурсов. Логика этого метода заключается в том, что чем больше на площадку ссылаются, тем больший авторитет, популярность и полезность она имеет.

Поисковые роботы

Роботы Google занимаются индексированием веб-страниц. День и ночь они бороздят просторы мировой сети в поисках новых сайтов и обновлений информации на существующих. Роботы считывают содержимое веб-страниц, анализируют его и отправляют на главный сервер, где они кэшируются. Как правило, одни и те же страницы обходятся Google-ботом через определенные промежутки времени. Периодичность напрямую зависит от частоты обновлений вебсайта.

Поиск

Данная американская поисковая система адаптирована для большинства крупных стран. Каждый географический регион обслуживается своим сервером, а сайт поисковика зарегистрирован на национальном домене. Для поиска в России используется google.ru, в Украине -google.com.ua, в Польше - google.pl и т. п.

Особенности

Очень популярной является теория «принцип песочницы». Суть её заключается в том, что вебсайты с новыми доменными именами, с частой сменой своих нэймсерверов или владельцев, размещаются в песочнице (зоне отчуждения). Там они находятся до тех пор, пока алгоритм Google не посчитает площадку готовой к «свободному плаванию». Существует также обратная теория - «бонус новичка». Согласно ей, при первоначальной индексации нового сайта с уникальным контентом и при наличии нескольких ссылок на него с авторитетных ресурсов площадка сразу же попадает на хорошие места в выдаче с присвоением высокого PR. Однако спустя некоторое время привилегии снимаются, и вебсайту присваивают его настоящие показатели. Можно лишь догадываться, насколько верны данные теории, ведь упомянутая американская поисковая система не раскрывает секреты своих алгоритмов.

В России американский поисковик Гугл имеет долю поискового рынка чуть более 40%, уступая российскому поисковику Яндекс. В США дела Гугла обстоят лучше, однако и там у Гугла есть серьезный конкурент. Подробнее о самых популярных поисковиках Америки можно узнать в данном рейтинге, где будут представлены поисковики с долей американского рынка более 1%. Рейтинг основан на исследовании компании comScore, опубликованном в марте 2015 года и учитывает только предпочтения американских пользователей компьютеров и ноутбуков (без учета пользователей смартфонов и мобильных телефонов) на февраль 2015 года.

5 место. AOL.com - 1,1%. AOL не является самостоятельным поисковиком. Этот 40-й по популярности в США сайт использует поиск Гугла.


4 место. Ask.com - 1,8%. Поисковая система от американской компании Ask является самостоятельной, однако не может составить конкуренции ведущим поисковикам США.


3 место. Yahoo.com - 12,8%. Yahoo.com - 5-й по популярности сайт США. Сначала Yahoo был самостоятельным поисковиком, однако в июле 2009 года Microsoft и Yahoo объявили о сделке, в рамках которой Yahoo начал использовать Bing поисковую систему от компании Microsoft.


2 место. Bing.com - 19,8%. Эта цифра учитывает только использование собственно поиска Bing. А с учетом Yahoo, также использующим поисковую систему от Microsoft, доля Bing на поисковом рынка США составляет внушительные 32,6%.

04 Ноя 2014

Всем привет! Ранее я уже писал статью-обзор, посвященную популярным , в которой вкратце рассказывал о каждом поисковике и его доле на рынке. Теперь же предлагаю вам ознакомиться с аналогичным рейтингом, но относящимся к Соединенным Штатам.

Популярные поисковые системы Америки:

Google – 78% от общего числа пользователей.

Является лидером в большинстве стран мира и было бы глупо полагать, что у себя на родине, в Соединенных Штатах (США), он займет место отличное от первого. В конце то концов, любой пользователь, независимо от страны своего проживания, оценит скорость работы поиска, высокую релевантность поисковой выдачи и большой объем поисковой базы. А ведь поисковый механизм это далеко не все, что может предложить Google.

Единожды зарегистрировав аккаунт в данной поисковой системе интернета, ее пользователь может получить доступ к ряду других возможностей, таких как электронный почтовый ящик Gmail (на заметку – один из самых защищенных от спама и взлома), социальная сеть Google+, крупнейший видеохостинг Youtube и прочие. Мелкие сервисы вроде целого ряда инструментов для вебмастеров, онлайн-переводчика и аналогичных тоже присутствуют. Получить доступ к большинству из них можно прямо с главной страницы поисковика.

Bing – 12% пользователей.

(прошлые названия: MSN Search, Windows Live Search) – поисковая система от компании Microsoft. Занимает второе место по объему интернет трафика в США. Американским пользователям поисковика доступны следующие эксклюзивные возможности: вывод уточняющей информации в запросах по ряду отдельных категорий, предварительный просмотр видео, дополнительные данные по каждому результату поисковой выдачи и прочие нововведения.

Несмотря на то, что Bing сейчас переживает не лучшие времена, работа над улучшением его функционала и доработка движка Kumo не прекращаются. Стоит также отметить, что до сентября 2013 года сервис находился в состоянии Beta тестирования. Так что, со счетов сервис еще рано сбрасывать. Google тоже добился признания не за первых два-три года.

Yahoo! – 8% американского рынка.

Начал свою работу в США еще в далеком 1994 году и был представлен общественности в виде обычного каталога сайтов. В поисковую систему портал превратился гораздо позже, причем на начальном этапе даже не использовал собственные технологии, а заимствовал решения от Google. И только с 2004 года был осуществлен переход на движок собственной разработки.

На сегодняшний момент, несмотря на отставание от двух своих главных конкурентов – Google и Bing, компания Yahoo! продолжает развивать свои сервисы, внедрять инновационные разработки и выкупать перспективные стартапы. Например, не так давно их сервис электронной почты (Yahoo! Mail) подвергся серьезной доработке, что позволило увеличить количество посетителей на 10%. Кроме того, компания показывает высокие результаты на мобильном рынке.

По статистике, с мобильных устройств на главную страницу Yahoo! заходит более 200 миллионов человек ежедневно.
Это были первое, второе и третье места в рейтинге “поисковики Америки”. Суммарно на них приходится около 98% всего поискового трафика Соединенных Штатов . Остальные проекты, такие как Aol.com и ему подобные, занимают менее 1% каждый. Качество поиска и объем поисковой базы у них хромает, поэтому особого смысла обозревать их нет.
Сообщение отредактировал Martin: 04 Ноябрь 2014 - 23:02

20 Ноя 2014

Martin , большое спасибо за интересный обзор!
Было бы любопытно узнать, сильно ли отличаются доли этих поисковиков в Европе. А ещё интересно, какие поисковые системы наиболее популярны в Азии. Нет ли у вас таких данных?

Всем привет! Вы знали, что поисковые системы интернета не ограничиваются только лишь Яндексом Гуглом? На самом деле их гораздо больше. Мало того, некоторые их них могут дать им фору. В этой статье я хочу «прогуляться» по сети и сделать обзор не только распространенных во всем мире, но и малоизвестных бесплатных поисковиков.

Самые известные поисковые системы

На данный момент, основные позиции по поиску информации в сети интернет занимают, как ни крути, Яндекс и Google. Они примерно поровну (около 47% на каждый) делят рынок пользователей. Еще примерно 3% приходятся на Mail.ru, а остальные — на Rambler, Bing и Yahoo. Таким образом, однозначными фаворитами в Ру-сегменте являются Яндекс с Гуглом. Но это, думаю, вы и так знаете 🙂

Яндекс официально вышла в России в 1997 году, а на данный момент занимает 4 место в мире по количеству запросов. Что интересно, началось все с программы по поиску информации на жестком диске, а уже позже ее стали использовать в сети Интернет.

Среди СЕОшников считается довольно медленной ПС, хотя в последнее время набирает обороты по скорости индексирования и выдачи информации. Раньше, чтобы сайт был добавлен вы выдачу Яндекса приходилось ждать минимум 2-3 недели. Сейчас же, мой блог был проиндексирован и появился в поиске буквально за 3 дня.

Является крупнейшей поисковой системой мира по количеству обрабатываемых запросов. Официально была зарегистрирована в 1998 году, а работы над проектом началась началась в стенах Стэнфордского университета еще в 1996 году.

Основной конкурент Яндекса в Рунете. В отличии от него же, не любит коммерческие запросы. По большому счету, самый крупный поисковик мира.

— наиболее популярная ПС РУнета в 1999 году. На данный момент позиционируется как медийный портал, а поиск информации в интернете осуществляется с помощью движка Яндекса. Так что, на данный момент, нет особой разницы, каким поисковиком пользоваться, результаты выдачи будут одинаковыми.

Отличается Рамблер качественной электронной почтой, которая функционирует уже много лет.

Mail.ru первое время, развивалась, как почтовая служба. На данный момент функционирует не только как поисковая система, но и как медийный портал. Является одним из популярных web-ресурсов в России, занимающий пятое место. Но, скорее всего, эта цифра обусловлена только лишь большим количеством развлекательных и тематических проектов, объединенных в одну системы и находящихся под управлением mail.ru.

На мой взгляд, довольно посредственный поисковик c большим количеством рекламы и платными сервисами.

Bing — рекордсмен по количеству наименований. Как только он не назывался. И MSN Search, и Windows Live Search, и Live Search. На данный момент занимает второе место среди поисковиков по объему трафика. Механизм поиска Bing довольно длительное время использовался социальной сетью Facebook.

Yahoo! является пятым по посещаемости интернет ресурсом в мире. Так же, как и Mail.ru, включает в себя множество различных сервисов. Почта, погода, новости, финансы, путешествия, медиа и другой развлекательный контент. Использует для поиска движок Bing.

Малоизвестные поисковые системы

Признаюсь, ради этой части я и затеял всю статью. Возможно, поэтому, я и не стал подробно останавливаться на вышеуказанных поисковиках. Ну согласитесь, что такого интересного можно рассказать о Яндексе, которым мы и так все пользуемся? А вот то, о чем мы поговорим сейчас, действительно, занимательно. 🙂

Nigma — Эта система осуществляет поиск по индексам всех крупных ПС, что позволяет вам не искать одно и то же в разных ресурсах. Кроме того, имеет свой движок и при выдаче результатов предлагает пользователю сузить круг поиска за счет распределения ответов на тематические группы. Что интересно, в систему встроены модули, позволяющие решать задачи по химии и математике прямо в строке запросов.


Как видите на картинке выше, с помощью различных фильтров можно буквально в пару кликов отсортировать ненужные результаты выдачи.

К сожалению, сейчас Nigma не развивается и остается только надеяться, что когда-нибудь, за нее возьмутся, и появится еще один сильный игрок на рынке поисковых услуг.

Pipl — довольно интересный проект по поиску различной информации о людях. В настоящий момент, насчитывает более 3 миллиардов записей. Основные источники для индексации — социальные сети, форумы, блоги, комментарии и т.д.


Меня, кстати, он нашел 🙂 Так что, если вам необходимо найти информацию об определенном человеке, то эта ПС должна быть эффективней Гугла.

По заявлениям разработчиков — поисковая система, которая обеспечит вам максимальную конфиденциальность (привет чекистам) и приватность поиска информации. Кроме того, DuckDuckGo не использует различные фильтры и персонализированную выдачу результатов.

Помимо использования собственного движка, ресурс предоставляет возможность обработки данных на других сайтах, таких, как Yahoo, Bing, Amazon, Twitter, Facebook и т.д.


— очень узкоспециализированная система по поиску звуков в сети интернет. В принципе, рассказывать о ней больше нечего 🙂 Ищет только звуки. Может найти, например, звук гаечного ключа или железной банки. Запросов на русском языке немного, но кто запрещает нам использовать английский?

— ПС на которую просто так не натолкнешься. Смотрели фильмы про хакеров? Так вот, Shodan — всего лишь простой хакерский поисковик. Нет, я серьезно. Его фишка в том, что он ищет в сети не обычный контент, а различные защищенные и незащищенные узлы сетей (роутеры, принтеры, видеокамеры и т.п.). Вот, например, стандартная выдача результатов:


Интересно? Тогда попробуйте сами, наберите в поисковой строке «default password» и полюбуйтесь результатами 🙂