Иголки в стоге сена. Иголка вторая: расширенный поис
Сегодня мы будем изучать методику допроса с пристрастием: мы познакомимся с синтаксисом расширенных запросов двух самых лучших поисковых серверов — " Яндекса " и Google. Расширенный запрос может помочь в тех случаях, когда поисковый сервер, несмотря на все ваши ухищрения, выдает слишком мало полезных ссылок и слишком много мусора. Всего в природе существует два способа формирования таких запросов: при помощи специальных операторов в строке поиска и при помощи веб-интерфейса. Второй способ удобнее, но дает доступ не ко всем функциям, которые можно задействовать при помощи языка запросов. Мы рассмотрим оба варианта. Статья построена на работающих и весьма показательных примерах. Считаю необходимым подчеркнуть, что все примеры можно и нужно опробовать самостоятельно для наглядности. Яндекс __Поиск с указанием расстояния между элементами Иногда для улучшения результатов поиска полезно указать расстояние между словами в строке запроса. На первый взгляд, представить ситуацию, в которой эта возможность может принести пользу, тяжело. Но такие ситуации не так уже редки. Простейший пример — нам нужно отыскать превью по игре Doom 3. Казалось бы, что может быть проще, вводим в строку поиска Doom 3 превью — и готово. Ан нет! Такой запрос помимо нужных результатов даст еще кучу ссылок на страницы, на которых слова “Doom 3” и “превью” абсолютно не связаны между собой. Например, такому запросу будет удовлетворять страница с фразами “новые скриншоты из Doom 3” и “превью Silent Storm”, а это не совсем то, что нам нужно. Поэтому имеет смысл “привязать” слово “превью” к запросу по Doom 3, указав приблизительное расстояние между “Doom 3” и “превью”. Для этого язык запросов на “Яндексе” содержит специальный оператор вида /(n m) , где n — минимальная дистанция между искомыми словами, а m — максимальная дистанция. Если указано отрицательное число, значит, задано расстояние слева от слова, после которого следует оператор, если положительное — справа. Попробуйте последовательно задать в строке поиска Doom 3 превью и “Doom 3” /(-4 +4) превью и посмотрите, насколько сильно отличаются результаты поиска по этим двум запросам. Первый из них даст большое число “левых” ссылок, тогда как второй — преимущественно нужные странички. Оператор /(-4 +4) указывает “Яндексу”, что необходимо найти страницы со словосочетанием “Doom 3” и словом “превью”, которое будет находиться в этом же предложении не дальше, чем на 4 слова влево или вправо от “Doom 3”. Для полноты картины стоит упомянуть, что в запросе можно задавать расстояние только в одну сторону, например: девушки /-3 “компьютерные игры” (поиск слова “девушки” и словосочетания “компьютерные игры” в том же предложении не дальше, чем на три слова влево от “девушки”); рулез /5 игромания (поиск слова “игромания” и слова “рулез” в том же предложении не дальше, чем на пять слов вправо от “игромания”). И последний трюк: если вам необходимо указать расстояние не в словах, а в предложениях, перед оператором **/(n m)**необходимо добавить & , а для указания расстояния в абзацах — & &.
- Веб-форма расширенного поиска на “Яндексе”
Использование скобок Чем больше вы узнаете о синтаксисе поисковых серверов, тем более сложные запросы начинаете составлять. И однажды наступает ситуация, когда становится неясно, в каком порядке будут обработаны заданные вами операторы. И тут на помощь приходят скобки. Я полагаю, что подробно описывать их назначение и способ применения не имеет смысла — этому учат еще в начальной школе, поэтому мы ограничимся всего одним примером.(“девушки” /(-3 +3) (бикини | купальник)) ~(порно | эротика | эротический | интим | голые) — поиск страниц с предложениями, содержащими слово “девушки” и не далее чем через три слова слева или справа — слова “бикини” или “купальник”, но не содержащими любое из слов “порно”, “эротика”, “эротический”, “интим” или “голые”. Попрошу заметить, что, несмотря на всю монструозность и кажущуюся похабность, этот запрос выдает только целомудренные ссылки на вполне приличные фотографии или каталоги пляжной одежды для девушек. Задание весовых коэффициентов и использование уточнений Еще один способ повысить релевантность результатов — задание весовых коэффициентов, которые определяют важность того или иного элемента в строке запроса. Например, мы ищем информацию по игре " Блицкриг ". Нас интересует самая разнообразная информация — обзоры, скриншоты, патчи, моды. Но степень важности каждого из перечисленных пунктов для нас различна. Предположим, что в первую очередь интересуют патчи, во вторую — моды, и лишь затем — все остальное. В таком случае будет разумно указать поисковику, что мы хотим получить в первую очередь. Для этого предусмотрены весовые коэффициенты, которые задаются оператором :n , где n — относительный весовой коэффициент.блицкриг патчи:6 моды:5 скриншоты обзоры — поиск страниц со всеми указанными словами, в первую очередь выдаются результаты со страницами, на которых чаще всего упоминается слово “патчи”, затем сортировка ведется по слову “моды”. Весовой коэффициент называется относительным потому, что он задается только (!) для определения порядка важности слов в строке поиска. То есть, если в вышеприведенном запросе заменить цифры 6 и 5 на 10 и 7 соответственно, то на результатах поиска это не отразится. Аналогичную роль выполняет оператор уточнения — < -. Разница между ним и оператором для задания весовых коэффициентов заключается в том, что оператор уточнения работает только с одним элементом — словом или словосочетанием.“компьютерные игры” <-разработка — поиск страниц со словосочетанием “компьютерные игры”; в первую очередь показывать страницы, на которых чаще всего упоминается слово “разработка”. **_
_**
- Отличия всего в одном операторе, а какая разница в результатах!
Веб-форма расширенного поиска Тем, кто предпочитает работать с компьютером, вольготно развалившись в кресле, с кружкой пива в левой руке и мышкой — в правой, наверняка придется по вкусу веб-форма для расширенного поиска на “Яндексе” — www.yandex.ru/advanced.html. Если вам непонятны какие-либо функции данной веб-формы, воспользуйтесь таблицей синтаксиса запросов на “Яндексе”, приведенной в этой статье. В таблице описано назначение всех операторов и даны примеры. А теперь давайте подробно рассмотрим назначение всех элементов веб-формы. Словарный фильтр Это поле предназначено для задания слов и словосочетаний при поиске, две пустых строки предназначены для ввода слов. Почему две, а не одна? Это позволяет формировать сложные запросы, которые в обычной форме поиска задаются при помощи скобок, то есть две строки позволяют формировать запросы вида (выражение1) оператор (выражение2). Особое внимание стоит уделить выпадающим спискам сверху над строками поиска. Поскольку они не имеют заголовков, перечислим их слева направо (списки для первой и второй строки поиска идентичны). Первый список, расширение и ограничение поиска (в скобках приведены аналоги, записанные при помощи операторов языка запросов): обязательно ( + ), желательно (без оператора), исключить ( ~ ), операторы (при выборе этого значения содержимое верхней строки поиска трактуется как операторы для нижней строки, если введенное выражение не может быть распознано как оператор или набор операторов, то оно игнорируется). Второй список, все словоформы или точное выражение : все формы (без оператора), точная форма ( “значение” ). Третий список, указание места поиска : в предложении ( & ), в документе ( & &), во фразе (без оператора), в заголовке ( $title(выражение) ), в аннотации ( #abstract=(выражение) ), в ссылке ( $anchor(выражение) ), в адресе ( #address(выражение) ). Дата Поиск страниц с датой создания в указанном интервале времени. Сайт/вершина Поиск по заданному адресу или поиск везде, исключая указанный адрес (аналогично операторам #url=“значение” и ~#url=“значение” ). Ссылка Поиск страниц со ссылками на указанный адрес или страниц, не содержащих ссылок на указанный адрес (аналогично операторам #link=“значение” и ~#link=“значение” ). Изображение Искать файлы картинок с заданным именем ( #image=“значение” ) или картинки с заданной подписью ( #hint=(выражение) ). Специальные объекты Поиск страниц со скриптами и апплетами с указанным в строке поиска именем. Язык Выбор языка, на котором будет выполнен поиск. Тип документа Выбор между четырьмя вариантами: любые (все допустимые типы документов, включая HTML), PDF, RTF, MS-Word. Google Веб-форма расширенного поиска ****  Google; в отличие от “Яндекса” имеет гораздо более простой язык запросов, что не мешает ему занимать лидирующие позиции среди поисковых систем. Практически все операторы языка запросов Google мы рассмотрели в предыдущем номере. **_
**
- Результат точного поиска фразы через расширенный запрос на Google
Поэтому сейчас ограничимся описанием веб-формы расширенного поиска Google, которая находится по адресу **www.google.com.ru/advanced_search?hl=ru** (попасть на эту страничку можно, кликнув ссылку " Расширенный поиск " на стартовой странице Google). Первый блок на странице расширенного поиска Google состоит из четырех строк для ввода поисковых запросов. Перечислим их сверху вниз. 1. Найти результаты со всеми словами — эта строка аналогична обычной поисковой строке Google на главной странице). 2. Найти результаты с точной фразой — ввод слов с эту строку аналогичен использованию оператора **“словосочетание”** , то есть ввод слов в эту строчку аналогичен заключению словосочетания в кавычки. 3. Найти результаты с любым из слов — использование этой строки аналогично применению оператора OR. 4. Найти результаты без слов — аналогично использованию оператора " **-_** ". Проиллюстрируем использование этих четырех строк поиска на примере, введя в строки следующие слова (сверху вниз): нивал 1С проклятые земли патч прохождение обзор Аналог этого запроса в обычной поисковой строке Google будет выглядеть следующим образом: нивал 1С “проклятые земли” (патч OR прохождение) -обзор.
- Веб-форма расширенного поиска на Google
Смысл такого запроса следующий: найти страницы со словами “нивал” и “1С” (порядок расположения этих слов на странице не имеет значения), а также с точным словосочетанием “проклятые земли”, плюс — с любым из слов “патч” или “прохождение”, но без слова “обзор”. Следующая секция параметров на странице расширенного поиска регулирует различные настройки поиска: 1. Язык — выбор языка поиска. 2. Формат файла — искать или не искать результаты в файлах следующих типов: любой доступный формат, PDF, Postscript, MS-Word, MS-Excel, MS-Powerpoint, RTF. 3. Дата — искать страницы, созданные или измененные не позднее 3, 6 месяцев или года, либо искать страницы, созданные в любой промежуток времени. 4. Упоминание — этот параметр определяет место на странице, в котором будут искаться ключевые слова, — любое место, в заголовке (оператор intitle:выражение ), в основной части, в адресе страницы ( inurl:выражение ), в ссылках на данную страницу ( link:выражение ). 5. Домен — искать или не искать в заданном домене ( site:выражение ). Последняя секция состоит из двух элементов. 1. Похожие — искать страницы, сходные по содержанию с указанной в строке поиска (аналогично оператору related:выражение ). 2. Ссылки — искать страницы, которые ссылаются на указанную в строке поиска (аналогично link:выражение ). *** Если вы освоите применение расширенного поиска, считайте, что часть денег, которые вы платите за интернет, вы уже сэкономили. Ведь эффективный поиск — это не только нужная вам информация, но и значительная экономия интернет-времени. В одном из ближайших номеров “Мании” мы научимся искать в интернете графические файлы — картинки и фотографии.
Список операторов для формирования расширенных запросов на Яндексе
Функция Синтаксис оператора Примеры Результат
Поиск с заданнием расстояния между словами /(n m) “Doom 3” /(-4 +4) превью Страницы со словосочетанием “Doom 3” и словом “превью” не дальше чем на четыре слова справа или слева него
девушки &/-3 “компьютерные игры” Страницы со словом “девушки” и словосочетанием “компьютерные игры” не далее, чем три предложения слева от него
рулез &&/5 игромания Страницы со словом “рулез” и словом “игромания” не дальше, чем пять абзацев вперед по тексту
Задание весовых коэффициентов :n игры пасьянсы:3 настольные:2 Страницы со словом “игры”, сначала выдать результаты с наиболее частым упоминанием слова “пасьянсы”, среди них сначала показать страницы с наиболее частым упоминанием слова “настольные”
игры RTS:5 Страницы со словом “игры”, сначала показать результаты с наиболее частым упоминанием слова “RTS”
Уточнение (аналогично однократному использованию весового коэффициента) <-выражение стратегии <-настольные Страницы со словом “стратегии”, сначала показать результаты с наиболее частым упоминанием слова “настольные”
Модификаторы расположения искомых элементов $title(выражение) $title(Silent Storm) Страницы со словами “Silent” и “Storm” в заголовках
#abstract=(выражение) #abstract=(пошаговая стратегия) Страницы, содержащие в поле описания слова “пошаговая” и “стратегия”
$anchor(выражение) $anchor(купить) Страницы, содержащие ссылки со словами “купить”
#address(выражение) #address(games) Страницы, в URL которых содержится слово “games”
#url=“значение” #url=“www.igromania.ru” Любые страницы с сайта Игромании
#link=“значение” #link=“www.gamespy.com” Страницы, которые ссылаются на www.gamespy.com
#image=“значение” #image=“doom3.jpg” Страницы, содержащие файл doom3.jpg
#hint=(выражение) #hint=(headshot) Страницы, содержащие картинку с подписью “headshot”