Для начала определимся в с выбором поисковой машины.
Когда-то, в начале 2000х, был богатый выбор поисковых машин Aport, Rambler, Nigma, Webalta, Mail.ru и другие:
- Aport - русская поисковая система. Используется с 1995 г.. Часть портала РОЛ. Принадлежит Golden Telecom. При поиске учитываются особенности русского языка. В Русскоязычном интернете с начала 2000-х гг. поисковая система стала резко сдавать позиции, заметно уступая по известности Яндексу и Рамблеру. По богатству языка запросов заметно уступает иным популярным системам.
- Rambler - интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов русского Интернета, информационный портал. Настройки языка поиска: любой, британский, российский, украинский. Учитывается морфология. Одно время поисковая система Рамблер была самой популярной врусскоязычном интернете, однако потом уступила лидерство Яндексу.
- Yandex - русская система поиска в Интернете и интернет-портал. Поиск Яндекса позволяет искать по Рунету бумаги на русском, белорусском, английском, украинском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
- Mail.ru - 1 из крупнейших в Русскоязычном интернете бесплатных сервисов электронной почты. Компания работает на рынке под данным именем с 16 окт. 2001г.. До этого момента бренд Mail.ru принадлежал компании Port.ru. В итоге 2006 г. было заключено стратегическое соглашение о предоставлении поискового сервиса, основанного на движке Яндекса.
- Webalta - Русская поисковая система, находящаяся на стадии публичного тестирования.
Время показало, кто из поисковых систем может называться лидером.
Из русско-язычного сегмента смогла идти в ногу со временем лишь Yandex. Зарубежные поисковые системы тоже трансформировались с различной степенью успеха. На первый план вышла корпорация Google.
По состоянию на 2012 год можно сказать, что используя эти две поисковые системы можно найти русскоязычную информацию в 95-97% случаев. Остальные 3-5% распределены равномерно среди сотен поисковых движков.
Поэтому есть смысл приглядеться к возможностям Google и Yandex. Легче простого написать в строке поиска Yandex или в строке поиска Google необходимый Вам запрос и поисковая система выдаст большое множество предложений по Вашему запросу. Поисковая машина - Yandex в Русскоязычном интернете способна отыскать нужные Вам веб-страницы, свежие вести, массу разных картинок и видео роликов, энциклопедические познания и массу иной полезной информации.
Итак, начинаем искать! Благо, тут не нужны какие-то особые познания и отработанные умения. Сформулируйте Ваш вопрос, как бы Вы задали его собственному учителю, товарищу или библиотекарю. К примеру, "кто самый сильный", "где растут дубы" или "скачать mail агент ". В какой бы падежной форме не употребили Вы слова, поисковая система Yandex и Google будут искать все формы слов: по запросу "дуб", поисковик разыскивает "дуб", "дуба" и иные.
Yandex-поисковик отлично понимает и односложные запросы, и запросы из некоторого количества слов и своими силами их интерпретирует. Он понимает, когда нужно отыскатьстраницы, где слова запроса находятся рядом, а когда словам просто довольно встретиться в одном документе, чтоб отыскать хорошую страницу с ответом для Вас.
Как же сформулировать правильный запрос?
Он как правило должен состоять из некоторого количества слов, так как по одному слову весьма непросто понять, о чем Вы хотите задать вопрос. К примеру, введем в поисковик слово "пол". Вероятно, Вы хотите задать вопрос о поле мужском или женском или же напольном покрытии. По этому запросу Yandex найдет информацию обо всех известных ему полах. Пример понятный - запрос нужно формулировать как возможно четче и уточнять по максимуму.
Используйте расширенный поиск! Так Вы сможете в максимальной степени сузить круг поиска. А сейчас несколько советов для эффективного и быстрого поиска нужной информации в Yandex. Старайтесь при поиске применять особые знаки. С их помощьювозможно уточнить запрос поиска. А отыскать их возможно на Yandex, нажав в расширенном поиске на ссылку "Памятка по применению языка запросов".
Для примера приведу несколько этих полезных знаков: 1. Чтоб отыскать точную фразу или форму слова, используйте кавычки: ["зима недаром злится"] 2. Чтоб исключить слово во фразе из поиска, воспользуйтесь знаком минус. Это слово должно стоять в итоге фразы запроса. М/у словом и знаком не должно быть пробела. [схемы вязания крючком -купить] 3. Чтоб восстановить забытое слово в цитате, воспользуйтесь звездочкой (*). Всю цитату заключите в кавычки, а вместо забытого слова поставьте звездочку. ["сжала руки над * вуалью"] 4. Чтоб отыскать слова, которые обязаны быть в одном предложении, воспользуйтесь знаком с необычным названием "амперсанд" - &. Если соединить слова амперсандом,Yandex выдаст статьи, где эти слова располагаются в одном предложении. [Огромной театр & Москва] 5. Чтоб по запросу отыскать статью или документ с определенным словом, нужно поставить перед этим словом плюс. М/у словом и знаком не должно быть пробела. [Памятник Пушкину +площадь]
Специализированные поисковые системы.
- Поиск по картинокам
Поисковые системы с фильтрами
Поиск по скрытому интернету (часть веб-страниц Всемирной паутины, не индексированная поисковыми системами):
Поиск files:
Поиск схем и электронных компонентов:
- Поиск кода (программистам):
- Поиск вредоносных программ (вирусы, трояны и т.п.):
- Поиск кряков (специальная программа (либо файл, содержащий инструкции для такой программы), изменяющая некоторые байты в другой программе, выполняемая с целью отключения защиты от копирования, отключение nagscreen'ов или запрещение чтения системного времени) и вареза (термин, обозначающий незаконно распространяемое программное обеспечение)
- Поиск новостей :
- Метапоисковые системы:
Как же поисковые системы ищут информацию?
Поисковые системы состоят из 5 отдельных программных компонент:
- spider (паук): утилита, которая скачивает веб-страницы.
- crawler : сканирующий паук, который гуляет по всем ссылкам, найденным на странице.
- indexer (индексатор): "слепая" утилита, которая изучает веб-страницы, скаченные пауками.
- database (база данных): хранилище скаченных и обработанных страниц.
- search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider: Паук - утилита, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же воздействие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете "просмотр HTML-кода" всобственном браузере. Crawler: Как и паук скачивает страницы, он может "раздеть" страницу и отыскать все ссылки. Это его задача - определять, куда далее должен идти паук, основываясь на ссылках или отталкиваясь от заблаговременно заданного списка адресов. Indexer: Индексатор разбирает страницу на разные ее части и изучает их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и иных стилевых частей страницы вычленяются и анализируются. Database: База данных - хранилище всех данных, которые поисковая система скачивает иизучает. Это нередко требует больших ресурсов. Search Engine Results Engine: Система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании всегда меняющихся критериев. Алгоритмом называется способ, по которому она принимает решение. Профессиональные оптимизаторы (SEO) время от времени потребляют термин "algos" - это и есть то, о чем мы говорим.
Основные критерии отбора результатов поиска:
- Title (заголовок): Есть ли ключевое слово в заголовке?
- URL (Домен): Есть ли ключевое слово в имени домена или в адресе страницы?
- Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,...) текстовых заголовках?
- Density (плотность): Насколько часто ключевое слово употреблено на странице?Число ключевиков сравнительно текста страницы называется плотностью ключевого слова.
- META (мета данные): Впрочем многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
- Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
- Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный интернет-сайт? Каков текст ссылки? Это называется "внестраничный" критерий, таккак автор страницы не во всех случаях может им руководить.
- Insite Links (ссылки внутри страницы): На какие еще страницы данного ресурса содержит ссылки эта страница?
Итак, алгоритм поисковой системы учитывает:
- Число ключевиков на веб-ресурсе.
- Число ключевиков на странице.
- Соотношение общего количества слов на веб-ресурсе к количеству ключевиков навеб-ресурсе.
- Соотношение общего количества слов на странице к количеству ключевиков на странице.
- Индекс цитирования.
- Популярность темы.
- Количество запросов по конкретному ключевому слову за определённый временнойпромежуток.
- Общее число веб-страниц ресурса.
- Использование стиля к веб-страницам.
- Объём текста ресурса.
- Объём ресурса.
- Объём любой веб-страницы.
- Объём текста любой веб-страницы.
- Возраст ресурса.
- Наименование URL ресурса (имя домена)
- Периодичность обновления информации на веб-ресурсе.
- Последнее обновление страниц ресурса.
- Количество картинок (рисунков) на веб-ресурсе.
- Число мультимедийных файлов.
- Наличие замещающих надписей на рисунках (картинках).
- Длину (в числе знаков) замещающих надписей рисунков (картинок).
- Применение фреймов.
- Язык ресурса (российский или заграничный).
- Размер шрифта, которым оформлены ключевые слова.
- Жирность шрифта ключевиков.
- Написаны в разрядку или нет ключевые слова.
- Написаны или нет заглавными буквами ключевые слова.
- Как далеко от начала веб-страницы находятся ключевые слова.
- Стиль заголовков и наименований ключевиков.
- Наличие и разбор мета-тэгов.
- Содержание и наличие описания и свойств страницы.
- Наличие файла "робот".
- Географическое месторасположение ресурса.
- Комментарии внутри программного кода ресурса.
- К какому типу страниц относится каждая страница ресурса: html или asp.
- Наличие в составе ресурса flash модулей.
- Наличие в составе ресурса веб-страниц с незначительными отличиями друг от друга.
- Соответствие ключевиков ресурса тому разделу каталога поисковой машины, в коемзарегистрирован веб ресурс.
- Наличие "шумовых слов" ("стоп слов").
- Общее число гиперссылок ресурса.
- Число внутренних гиперссылок ресурса.
- Число внешних гиперссылок ресурса.
- Взаимное расположение внутренних гиперссылок.
- Глубина ресурса.
- Ряд иных специальных технических параметров.
Примечание
Многие поисковые машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке текста ресурса от программного кода и выстраиванию слов, встречающихся навеб-ресурсе по их частоте. Либо ориентируются на работу своих коллег-поисковиков. Скажем делают запрос на 2-3 ведущих поисковика, и потом всегот лишь обрабатывают результаты, выбирая наиболее релевантные (адекватные)
Оставьте свой комментарий!
Добавить комментарий
|