30 июля 2009
Обновлено 17.05.2023

Главный вопрос Жизни, Вселенной и Вообще. Семантическая поисковая система Wolfram|Alpha

Главный вопрос Жизни, Вселенной и Вообще. Семантическая поисковая система Wolfram|Alpha - изображение обложка

[[BREAK]]

В ноль часов по Гринвичу 16 мая состоялся запуск первой всемирной семантической поисковой системы Wolfram|Alpha , разработанной под начальством британского физика и математика, гения Стивена Вольфрама.

От обычного поисковика Wolfram отличается повышенной разумностью: в ответ на поисковый запрос система должна не просто выдавать список сайтов, а догадаться, что имел в виду пользователь, и сгенерировать единственно верный ответ, отсекая всю постороннюю информацию. Иными словами, на запрос «сколько раз в год выходит журнал «Игромания»?» система не просто выведет список сайтов, на которых встречаются запрошенные слова, а сразу ответит — двенадцать. Конечная цель у Вольфрама скромная — систематизировать вообще все человеческие знания.

Wolfram: поисковик разумный

По адресу www.wolframalpha.com мы наблюдаем поисковую строку в оранжевой рамочке, довольно-таки стимпанковское определение computational knowledge engine («вычислительная машина знаний») и суровый минимум подсказок. Поисковик из Wolfram своеобразный: он не то чтобы ищет, а скорее суммирует уже известные ему конкретные факты. Наберите «от Лондона до Пекина» (на английском, русский язык система пока не понимает) и узнаете, что между двумя столицами 5071 миля или 8160 км, при средней скорости полета 890 км/ч вы проведете в воздухе 9 часов 15 минут, в Пекине живет 14,93 млн человек, что примерно в 2,01186 раза больше, чем в Лондоне, разница во времени составляет 7 часов и т.д.

Но найти, скажем, какая авиакомпания бережнее всего относится к багажу пассажиров или у кого вкуснее завтрак на борту, Wolfram не сможет: во-первых, это субъективные данные, во-вторых, они не заложены в систему. Зато с решением сложных уравнений, составлением экономических и статистических прогнозов и выстраиванием графиков Wolfram|Alpha справляется блестяще. Если школьникам удастся пронести на ЕГЭ по математике подключенные к интернету коммуникаторы, в этом году у нас все смогут поступать в МГУ. А если нет — Wolfram с легкостью подсчитает процент двоечников и отличников, составит динамическую таблицу успеваемости и спрогнозирует результаты ЕГЭ следующего года.

Большую часть знаний авторы вбили в систему вручную, выбрав из справочной литературы, а какая-то часть информации берется программой на лету из лент новостей, прогнозов погоды и биржевых сводок. Разработчики особо подчеркивают возможность задавать Wolfram вопросы простым человеческим языком, а не составлять поисковые запросы из специальных терминов, как в других поисковиках. Для этого в Wolfram задействовано множество алгоритмов из области компьютерной лингвистики.

В первые два дня после запуска Wolfram обработала 13,7 млн поисковых запросов (это примерно в двадцать раз меньше, чем обрабатывает Google за то же время, и в семь раз меньше, чем обрабатывает « Яндекс »). В Wolfram Inc. говорят, что запросы отличались «невероятным разнообразием», а в компанию прислали 27 000 полезных советов — иными словами, отметился каждый пятисотый пользователь. Впечатляет. К моменту написания этой статьи — за 13 неполных дней работы — Wolfram отщелкал 100 млн запросов (это половина «дневной нормы» Google). В то же время количество полезных советов и пожеланий разработчикам выросло всего до 55 000 — видимо, ажиотаж вокруг первого семантического поисковика начинает спадать.

Привет, человек!

А что, собственно, может предложить нам нашумевшая первая разумная поисковая система? Ну, у нее есть чувство юмора. Она честно отвечает на вопрос «Как тебя зовут?» («Меня зовут Wolfram|Alpha») и реагирует на слово «Привет!» («Привет, человек»), цитирует «Монти Пайтона» и песни Боба Дилана, говорит, что не любит, когда с ней «обходятся как с простой поисковой системой», объясняет, что живет в интернете и пока что знает только английский язык, а будучи перегруженной, притворяется компьютером HAL 9000 из фильма «Космическая одиссея 2001 года». Но это все так, милые шутки разработчиков, предназначенные для тех, кто первым делом спросит у новорожденной семантической поисковой системы, зачем цыпленок переходит через дорогу, сколько ангелов могут танцевать на кончике иглы и когда наступит Судный день…

Если попытаться использовать Wolfram|Alpha по прямому назначению — как, собственно, разумный поисковик, — быстро выяснится, что ни о каком полноценном общении с системой речи пока не идет. Элементарные сведения получать удобно — если ввести слово «Москва», покажут местоположение города на карте, численность населения, местное время, температуру и высоту над уровнем моря. Если ввести «самое высокое здание», Wolfram назовет Дубайскую башню, Си-Эн Тауэр, Останкинскую телевышку, Тайбэй 101 и Шанхайский всемирный торговый центр, посчитает их высоту и количество этажей. В то же время сложных вопросов система не понимает, а ее информационная база в 10 Тб выборочных данных, хоть и постоянно пополняемая разработчиками, после Google и « Википедии » кажется до смешного ограниченной.

Если абстрагироваться от рекламной шумихи, вспомнить про строгую научную ориентированность Wolfram|Alpha и немного повозиться с синтаксисом, можно добиться кое-каких результатов. Система может в считанные секунды решать абсолютно любые уравнения, подсчитывать калории, визуализировать самые разные числовые показатели, сравнивать разнородную информацию — спецификации различного «железа» или валовой национальный продукт России, США и Бразилии (если вам это вдруг срочно понадобилось — с графиком и таблицей конвертации валют!). Иными словами — на сегодня, да и, наверное, на ближайшие несколько лет, Wolfram|Alpha представляет собой странный гибрид атласа, каталога, справочника и программируемого калькулятора.

От Ньютона до Тьюринга

После буйства гиперссылок и иллюстраций Google очень нелегко смириться с таким математическим минимализмом. В теперешнем состоянии Wolfram — скорее любопытное явление, нежели потрясающее научное открытие, технологический прорыв и удобная для простого интернет-пользователя программа. Сами по себе идеи Стивена Вольфрама куда интереснее их реализации.

В начале восьмидесятых молодой выпускник Калифорнийского технологического института пришел к умозаключению, что наш мир хоть и устроен очень сложно, в его основе лежат очень простые закономерности — а значит, все происходящие в природе процессы могут рассматриваться как математические. Поиском этих простых закономерностей Вольфрам и занялся. В 1988 году он разработал широко известную в научном сообществе программу математических расчетов и визуализации Mathematica , а в 2002-м написал по итогам своей работы 1200-страничную книгу A New Kind of Science (аннотацию к ней на русском языке можно найти здесь: _http://is.ifmo.ru/misc2/wolf_annot.pdf ).

Wolfram — дальнейшее развитие идей Вольфрама и логичное продолжение Mathematica. Мечта Вольфрама — построить систему, которая позволила бы человеку сопоставлять абсолютно любые данные для создания научных моделей и выявления закономерностей.

По мнению создателя, его семантическая поисковая система наверняка пришлась бы по вкусу Исааку Ньютону, Готфриду Лейбницу и Алану Тьюрингу. «Ньютон — первый, кто понял, что при вычислении закономерностей можно вообще не думать о человеческой логике. Ведь наша цель — не сделать точное компьютерное подобие человека, а найти ответы на вопросы мироздания». Лейбниц с его идеей единой всеобщей библиотеки и мечтой о создании логической системы для математического поиска истины очень близко подошел к Wolfram|Alpha. А Тьюринг в тридцатых годах разработал проект универсального компьютера. «Тьюринг очень удивился бы, если бы дожил до шестидесятых и до первых серьезных компьютерных приложений — текстовых процессоров. Он никак не предполагал, что компьютеры будут использовать не для сбора и анализа огромных массивов информации, а для редактирования текстов! Wolfram|Alpha — первый случай, когда идеи Тьюринга стали доступны массам…»

В научном мире Вольфрама, как и Тьюринга, недолюбливают — личные взаимоотношения, мол, закулисные козни, «моя книга слишком популярна»… Зато его горячо поддерживают различные фантасты-полунаучники вроде писателя, математика и профессора информатики Руди Рукера.

Без людей

Основная идея Вольфрама такова: начав с примитивных вычислений (закономерности роста кристаллов, окраски животных, строения листьев), можно построить точную математическую модель мироздания. Если провести грубый машинный поиск по всем доступным человечеству данным, то их окажется достаточно для того, чтобы воспроизвести все правила, по которым функционирует окружающий мир. Задав машине любой вопрос, можно будет мгновенно получить на него ответ, потому что машина будет знать абсолютно все. Wolfram|Alpha — только первый этап в строительстве монумента человеческих знаний на основе элементарных математических правил.

Проектом вычислительной машины знаний Вольфрам занимался с двенадцати лет — составлял списки всех научных констант и законов, которые только мог найти. Серьезно работать над семантической поисковой системой он начал три года назад, еще год назад ему пришло в голову, что из Wolfram|Alpha может получиться коммерческий продукт — сама система организации данных, их регулирования и пополнения, возможность мгновенной передачи ответов пользователям во всемирном масштабе… в 2007 году все это только-только стало возможным с финансовой точки зрения.

«На самом деле это не поисковый движок, а, так сказать, платоническая поисковая система, направленная на поиск вечных истин, которые еще никогда и нигде не были записаны…» — поясняет Вольфрам. Энциклопедисты пытались записать в книги все на свете, лингвисты — создать аналитический язык для точной передачи мыслей, а философы и ученые выстраивали универсальную теорию бытия. Но Вольфрам считает, что все эти попытки закончились неудачно: мыслителей подводила их слишком узкая специализация, человечество накопило слишком много знаний для того, чтобы с ними могли справиться один человек или даже целое поколение ученых. А Wolfram|Alpha может ответить на любой вопрос из любой области научного знания в течение секунды.

Профессионалы

В законченном виде система Wolfram|Alpha должна давать немедленный и адекватный ответ на любой фактический вопрос, который можно задать ученому, экономисту, банкиру или другому эксперту. «Количество справочной литературы в мире ограничено. Каждый раз, когда я вхожу в библиотеку, я смотрю на полки со справочниками и стараюсь подсчитать, сколько из них мы уже загрузили в систему. Получается, что где-то 90% от общего количества… У меня в офисе лежит куча книг с закладками на страницах, где есть необработанные данные. День ото дня закладок и книг становится все меньше», — продолжает Вольфрам. Но одних книг мало — нужно мнение экспертов. Тут Вольфрам полагается на свои знакомства в разных научных сферах, приобретенные за годы работы в Калифорнийском технологическом университете, Принстонском институте перспективных исследований и Университете Иллинойса. «Каждое из выбранных нами направлений мы оцифровывали под присмотром приглашенного специалиста. Ведь в каждой научной сфере есть какие-то неписанные правила, без соблюдения которых научная ценность наших данных резко упадет».

Пока что главная проблема Wolfram|Alpha — семантическая. Неясен сам процесс перевода человеческих вопросов в компьютерный код. Не существует единого правила для понимания вводимых данных такого рода. В системе задействовано множество алгоритмов из области компьютерной лингвистики, но бесполезно пытаться угадать, какие из них лучше всего подойдут для поиска. Так что единственный выход — это открытое тестирование, составление огромного списка тестовых запросов и сопоставление его со списком всех возможных алгоритмов обработки…

Другая паутина

С 2001 года независимо от исследований Вольфрама шла разработка «семантической паутины» под руководством директора Консорциума Всемирной паутины (World Wide Web Consortium, W3C) Тима Бернерса-Ли.

Цели у проекта во многом сходные — создание «мыслящего» интернета, системы данных, которые машины могут анализировать и сопоставлять без участия человека. Но средства реализации совсем другие: загружая информацию в Сеть, пользователи помечают ее специальными тегами, по которым роботы-поисковики находят нужные данные. Надо ли объяснять, насколько это ненадежная схема? Когда затронуты все сферы человеческого знания, когда информацию может выкладывать любой пользователь, невозможно говорить о создании единой системы и четких меток — хотя бы потому, что мнение у каждого свое. Уже в 2007 году сам основоположник концепции Бернерс-Ли назвал семантическую паутину несбывшейся мечтой и пришел к выводу, что наш с вами интернет в нее никогда не эволюционирует — технология нашла ограниченное применение в закрытых узкоспециализированных сообществах.

«Существование Wolfram|Alpha возможно лишь потому, что основная масса перерабатываемой нами информации чисто научная — химические формулы, соединения… — объясняет Вольфрам. — Такого рода данные не меняются, поэтому мы спокойны за фактику и можем целиком сосредоточиться на семантических алгоритмах». Впрочем, простые смертные тоже смогут выкладывать в Wolfram|Alpha данные: заполнив соответствующую форму и предоставив подтверждение того, что научная информация является достоверной.

Проблемы с инфраструктурой у разумного поисковика тоже есть, но с технической точки зрения Wolfram|Alpha куда менее требователен, чем тот же Google. Не нужно постоянно ползать по Сети и обновлять индекс сайтов, вычислительные мощности уходят на вычисление ответов и конвертацию введенных людьми данных в Mathematica-совместимые поисковые запросы. По словам разработчиков, для удовлетворения одного запроса сотня компьютеров Wolfram Inc. должна работать на полную мощность в течение доли секунды, — а всего у Wolfram|Alpha порядка 10 000 машин, разнесенных по пяти дата-фермам и работающих в параллельном режиме.

* * *

Google ориентирован на поиск по ключевым словам, Wolfram|Alpha — на вычисление и сопоставление информационных цепочек. В конечном счете из разумного поисковика должно получиться некое подобие грандиозной Excel-таблицы мирового знания, где что угодно можно сопоставить с чем угодно, в любой момент получить доступ к любым исходным данным, что ученым куда важнее ссылок на «Википедию».

Wolfram|Alpha — идеальный инструмент для поиска скрытых закономерностей, его ценность в исследованиях такого рода очевидна уже сейчас. Да и цель у Стивена Вольфрама благородная — поднять планку научных задач, с которыми может справиться обычный человек без специализированной подготовки, показать, что окружающий мир куда более постижим и предсказуем, чем кажется на первый взгляд.

Если Google — это всезнающий, но равнодушный библиотекарь, то Wolfram|Alpha — бесконечно терпеливый профессиональный ученый.

[[BREAK]] Как общаться с Wolfram

Даже самый разумный на свете поисковик не в состоянии понять живой человеческий язык, поэтому если хотите найти что-то в Wolfram|Alpha, то придется приноравливаться к особенностям его восприятия:

— Спрашивайте Wolfram|Alpha о конкретных вещах: не «польза от яблок и авокадо», а «1 авокадо 2 яблока калории».

— Задавайте вопросы, на которые есть объективный ответ: не «лучший президент в мире», а «президент России» (кстати, наберите и увидите ошибку).

— Wolfram|Alpha — это пока не суперкомпьютер Deep Thought из «Автостопом по Галактике», он не может высчитать ответ, который не заложили в него разработчики. Спрашивайте только о том, что доподлинно известно: не «численность монстров в озере Лох-Несс», а «количество ядерных боеголовок в мире».

— Wolfram|Alpha знает только общедоступные сведения: не «домашний адрес Александра Кузьменко», а «рабочий e-mail издателя «Игромании».

Кроме того, Wolfram|Alpha лучше понимает короткие предложения. Когда будете составлять запрос, используйте самые употребительные слова и расшифровывайте аббревиатуры, потому что они, как правило, многозначны.

Мы не Google, мы круче

Хотя в концепции семантического интернета разочаровался даже ее создатель, Тим Бернес-Ли, разработка «разумных» поисковых машин для массового пользователя продолжается. Так, 29 мая этого года Microsoft запустила в США свою версию семантического поисковика, якобы основанного на новых алгоритмах обработки информации, — Bing.com. Это куда менее научный, зато куда более простой, обывательский вариант Wolfram|Alpha. Если коротко, задача Bing — максимально сократить количество действий, которые совершает ищущий в Сети человек, и сделать интернет более понятным и упорядоченным.

Скажем, если вы хотите купить фотоаппарат, наберите в строке поиска «цифровые фотокамеры», и Bing послушно разложит найденную информацию по полочкам: эта камера самая дешевая, эта снимает быстрее, вот эту, по отзывам покупателей, проще всего освоить, здесь экранчик небольшой (близоруки? не покупайте!). То же относится к магазинам, ресторанам, парковкам… Как объективная и достоверная информация будет отфильтровываться от субъективной и недостоверной, не слишком понятно, но даже если Bing.com провалится как поисковик, у него есть все шансы стать мощнейшим рекомендательным каталогом.

Наконец, — и тут Microsoft не без удовольствия вставляет шпильку своим конкурентам — считается, что некоторые поисковики упустили возможность разнообразить пользовательский интерфейс (это про Google), а некоторые чересчур его усложнили (это про Yahoo! ). В Bing.com, который со временем заменит не слишком популярный Microsoft Live Search , интерфейс сделают очень гибким, цвета — яркими. В Microsoft надеются, что это поможет Bing выйти на второе место, потеснив Yahoo!. А там и до Google недалеко… В то же время в одном из ранних обзоров, опубликованных на Wired.com , отмечалось, что интерфейс Bing чересчур запутан, а многие полезные функции запрятаны глубоко в недра сайта.

Интересно, что некоторые предлагают расшифровывать Bing как Bing Is Not Google («Bing — это не Google!»). В Microsoft по этому поводу отшучиваются и говорят, что «bing» — это всего лишь звукоподражание. Представляете звоночек, который раздается, когда приезжает лифт? Задумывалось, что этот звук ассоциируется у людей с завершением чего-либо (поиска) или доставкой (письма).

Пока Bing работает только в США, но третьего июня этого года его собирались запустить по всему миру — бросайте журнал и бегите пробовать!

Комментарии
Чтобы оставить комментарий, Войдите или Зарегистрируйтесь