Новые информационные технологии и программное обеспечение
  RSS    

20241004 240x200 d7cdff19a16e2826d9cff55196912690



Как правильно искать информацию в интернете

Для начала определимся в с выбором поисковой машины.

Когда-то, в начале 2000х, был богатый выбор поисковых машин Aport, Rambler, Nigma, Webalta, Mail.ru и другие: 

 

  • Aport - русская поисковая система. Используется с 1995 г.. Часть портала РОЛ. Принадлежит Golden Telecom. При поиске учитываются особенности русского языка. В Русскоязычном интернете с начала 2000-х гг. поисковая система стала резко сдавать позиции, заметно уступая по известности Яндексу и Рамблеру. По богатству языка запросов заметно уступает иным популярным системам.
  • Rambler - интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов русского Интернета, информационный портал. Настройки языка поиска: любой, британский, российский, украинский. Учитывается морфология. Одно время поисковая система Рамблер была самой популярной врусскоязычном интернете, однако потом уступила лидерство Яндексу.
  • Yandex - русская система поиска в Интернете и интернет-портал. Поиск Яндекса позволяет искать по Рунету бумаги на русском, белорусском, английском, украинском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
  • Mail.ru - 1 из крупнейших в Русскоязычном интернете бесплатных сервисов электронной почты. Компания работает на рынке под данным именем с 16 окт. 2001г.. До этого момента бренд Mail.ru принадлежал компании Port.ru. В итоге 2006 г. было заключено стратегическое соглашение о предоставлении поискового сервиса, основанного на движке Яндекса.
  • Webalta - Русская поисковая система, находящаяся на стадии публичного тестирования.

Время показало, кто из поисковых систем может называться лидером.

Из русско-язычного сегмента смогла идти в ногу со временем лишь Yandex. Зарубежные поисковые системы тоже трансформировались с различной степенью успеха. На первый план вышла корпорация Google. 

По состоянию на 2012 год можно сказать, что используя эти две поисковые системы можно найти русскоязычную информацию в 95-97% случаев. Остальные  3-5% распределены равномерно среди сотен поисковых движков.

Поэтому есть смысл приглядеться к возможностям Google и Yandex. Легче простого написать в строке поиска Yandex или в строке поиска Google необходимый Вам запрос и поисковая система выдаст большое множество предложений по Вашему запросу. Поисковая машина - Yandex в Русскоязычном интернете способна отыскать нужные Вам веб-страницы, свежие вести, массу разных картинок и видео роликов, энциклопедические познания и массу иной полезной информации.

Итак, начинаем искать! Благо, тут не нужны какие-то особые познания и отработанные умения. Сформулируйте Ваш вопрос, как бы Вы задали его собственному учителю, товарищу или библиотекарю.
К примеру, "кто самый сильный", "где растут дубы" или "скачать mail агент ". В какой бы падежной форме не употребили Вы слова, поисковая система Yandex и Google будут искать все формы слов: по запросу "дуб", поисковик разыскивает "дуб", "дуба" и иные.


Yandex-поисковик отлично понимает и односложные запросы, и запросы из некоторого количества слов и своими силами их интерпретирует. Он понимает, когда нужно отыскатьстраницы, где слова запроса находятся рядом, а когда словам просто довольно встретиться в одном документе, чтоб отыскать хорошую страницу с ответом для Вас.


Как же сформулировать правильный запрос?

Он как правило должен состоять из некоторого количества слов, так как по одному слову весьма непросто понять, о чем Вы хотите задать вопрос. К примеру, введем в поисковик слово "пол". Вероятно, Вы хотите задать вопрос о поле мужском или женском  или же напольном покрытии. По этому запросу Yandex найдет информацию обо всех известных ему полах. Пример понятный - запрос нужно формулировать как возможно четче и уточнять по максимуму.

Используйте расширенный поиск! Так Вы сможете в максимальной степени сузить круг поиска. А сейчас несколько советов для эффективного и быстрого поиска нужной информации в Yandex. Старайтесь при поиске применять особые знаки. С их помощьювозможно уточнить запрос поиска. А отыскать их возможно на Yandex, нажав в расширенном поиске на ссылку "Памятка по применению языка запросов".

Для примера приведу несколько этих полезных знаков:
1. Чтоб отыскать точную фразу или форму слова, используйте кавычки:
["зима недаром злится"]
2. Чтоб исключить слово во фразе из поиска, воспользуйтесь знаком минус. Это слово должно стоять в итоге фразы запроса. М/у словом и знаком не должно быть пробела.
[схемы вязания крючком -купить]
3. Чтоб восстановить забытое слово в цитате, воспользуйтесь звездочкой (*). Всю цитату заключите в кавычки, а вместо забытого слова поставьте звездочку.
["сжала руки над * вуалью"]
4. Чтоб отыскать слова, которые обязаны быть в одном предложении, воспользуйтесь знаком с необычным названием "амперсанд" - &. Если соединить слова амперсандом,Yandex выдаст статьи, где эти слова располагаются в одном предложении.
[Огромной театр & Москва]
5. Чтоб по запросу отыскать статью или документ с определенным словом, нужно поставить перед этим словом плюс. М/у словом и знаком не должно быть пробела.
[Памятник Пушкину +площадь]

 

Специализированные поисковые системы.

Как же поисковые системы ищут информацию?

 

Поисковые системы состоят из 5 отдельных программных компонент: 

  1. spider (паук): утилита, которая скачивает веб-страницы.
  2. crawler : сканирующий паук, который гуляет по всем ссылкам, найденным на странице.
  3. indexer (индексатор): "слепая" утилита, которая изучает веб-страницы, скаченные пауками.
  4. database (база данных): хранилище скаченных и обработанных страниц.
  5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

 

Spider: Паук - утилита, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же воздействие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете "просмотр HTML-кода" всобственном браузере. 
Crawler: Как и паук скачивает страницы, он может "раздеть" страницу и отыскать все ссылки. Это его задача - определять, куда далее должен идти паук, основываясь на ссылках или отталкиваясь от заблаговременно заданного списка адресов.
Indexer: Индексатор разбирает страницу на разные ее части и изучает их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и иных стилевых частей страницы вычленяются и анализируются.
Database: База данных - хранилище всех данных, которые поисковая система скачивает иизучает. Это нередко требует больших ресурсов. 
Search Engine Results Engine: Система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании всегда меняющихся критериев. Алгоритмом называется способ, по которому она принимает решение. Профессиональные оптимизаторы (SEO) время от времени потребляют термин "algos" - это и есть то, о чем мы говорим.

Основные критерии отбора результатов поиска: 

  • Title (заголовок): Есть ли ключевое слово в заголовке?
  • URL (Домен): Есть ли ключевое слово в имени домена или в адресе страницы?
  • Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,...) текстовых заголовках?
  • Density (плотность): Насколько часто ключевое слово употреблено на странице?Число ключевиков сравнительно текста страницы называется плотностью ключевого слова.
  • META (мета данные): Впрочем многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
  • Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
  • Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный интернет-сайт? Каков текст ссылки? Это называется "внестраничный" критерий, таккак автор страницы не во всех случаях может им руководить.
  • Insite Links (ссылки внутри страницы): На какие еще страницы данного ресурса содержит ссылки эта страница?

 

Итак, алгоритм поисковой системы учитывает: 

  1. Число ключевиков на веб-ресурсе.
  2. Число ключевиков на странице.
  3. Соотношение общего количества слов на веб-ресурсе к количеству ключевиков навеб-ресурсе.
  4. Соотношение общего количества слов на странице к количеству ключевиков на странице.
  5. Индекс цитирования.
  6. Популярность темы.
  7. Количество запросов по конкретному ключевому слову за определённый временнойпромежуток.
  8. Общее число веб-страниц ресурса.
  9. Использование стиля к веб-страницам.
  10. Объём текста ресурса.
  11. Объём ресурса.
  12. Объём любой веб-страницы.
  13. Объём текста любой веб-страницы.
  14. Возраст ресурса.
  15. Наименование URL ресурса (имя домена)
  16. Периодичность обновления информации на веб-ресурсе.
  17. Последнее обновление страниц ресурса.
  18. Количество картинок (рисунков) на веб-ресурсе.
  19. Число мультимедийных файлов.
  20. Наличие замещающих надписей на рисунках (картинках).
  21. Длину (в числе знаков) замещающих надписей рисунков (картинок).
  22. Применение фреймов.
  23. Язык ресурса (российский или заграничный).
  24. Размер шрифта, которым оформлены ключевые слова.
  25. Жирность шрифта ключевиков.
  26. Написаны в разрядку или нет ключевые слова.
  27. Написаны или нет заглавными буквами ключевые слова.
  28. Как далеко от начала веб-страницы находятся ключевые слова.
  29. Стиль заголовков и наименований ключевиков.
  30. Наличие и разбор мета-тэгов.
  31. Содержание и наличие описания и свойств страницы.
  32. Наличие файла "робот".
  33. Географическое месторасположение ресурса.
  34. Комментарии внутри программного кода ресурса.
  35. К какому типу страниц относится каждая страница ресурса: html или asp.
  36. Наличие в составе ресурса flash модулей.
  37. Наличие в составе ресурса веб-страниц с незначительными отличиями друг от друга.
  38. Соответствие ключевиков ресурса тому разделу каталога поисковой машины, в коемзарегистрирован веб ресурс.
  39. Наличие "шумовых слов" ("стоп слов").
  40. Общее число гиперссылок ресурса.
  41. Число внутренних гиперссылок ресурса.
  42. Число внешних гиперссылок ресурса.
  43. Взаимное расположение внутренних гиперссылок.
  44. Глубина ресурса.
  45. Ряд иных специальных технических параметров.

 

Примечание


Многие поисковые машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке текста ресурса от программного кода и выстраиванию слов, встречающихся навеб-ресурсе по их частоте. Либо ориентируются на работу своих коллег-поисковиков. Скажем делают запрос на 2-3 ведущих поисковика, и потом всегот лишь обрабатывают результаты, выбирая наиболее релевантные (адекватные)


Оставьте свой комментарий!

Добавить комментарий

 

Самое читаемое:

Быстрый поиск

Инструкции к программам

Инструкции к программам

Сайт "Новые Информационные Технологии" содержит лишь справочные данные из открытых источников. Мы НЕ Рекламируем и НЕ Рекомендуем покупать или использовать ВСЕ упомянутые на сайте программы, оборудование и технологии