Похожие статьи

Google и тематика сайта (51,06%)
Понятие «тематика» имеет множество значений, в Google «тема» является предметом поиска — «топиком» (тематическим разделом). Топик — это тематика повествования веб-страницы. Тематика страницы влияет на ее релевантность в Google…

Google FAQ для веб-мастеров (35,29%)
Статья подробно рассматривает вопросы оценки страниц поисковой системой Google (т. н. PageRank). Почему может меняться PageRank отдельных страниц. Даются подробные ответы на вопросы, которые могут возникнуть у вас при анализе PageRank собственных страниц в Google…

Page Promoter Эксперт – время учиться (32,79%)
Появление нового, информационного, общества – самый впечатляющий феномен нашего времени. Почему? Люди действуют, используя информацию. А, значит, новые коммуникации, возникшие на базе всемирной сети интернет, побуждают к действию. Например, формированию и развитию коммерции, использующей уникальные возможностях виртуального пространства. Зачем вам…

Автор: Денис Кравченко
SEO-аудитор компании NetPromoter

Дата публикации 14-02-2006 15:40
Статья просмотрена 9000 раз

Приблизительно год назад на конференции компании NetPromoter «Кибермаркетинг. Стратегия и тактика продвижения ресурса» автор данной заметки дискутировал о перспективах Гугла в Рунете с представителем одной из ведущих российских поисковых систем, и когда речь зашла о перспективах введения Google’ом поддержки морфологии русского языка, мнения разошлись. Я настаивал на том, что это произойдет в ближайшее же время, мой оппонент — на том, что это вряд ли случится вообще, а если и случится, то вряд ли будет иметь какое-то значение. Как рассудило время, оба мы оказались не правы: это все же произошло, хотя и не так быстро, как я предполагал, и, конечно же, далеко не с тем качеством.

Новость о том, что Google начал распознавать морфологию русского языка, прошла как-то незаметно. Пока не существует ни официальной, ни полуофициальной, ни даже какой-либо достоверной информации об этом, безусловно, важном событии — только несколько заметок в блогах или даже просто в комментариях блогов. Оптимизаторские форумы в большинстве своем молчат или недоумевают, но можно предвидеть, что намечается что-то очень серьезное. При введении запроса на русском языке в Google.ru (не пытайтесь делать это на других серверах, например, Google.com — там это не работает) возвращаются результаты, в которых отчетливо наблюдается факт того, что Google распознает различные падежи, числа, формы глаголов и другие лингвистические прелести. Так, при запросе «уехать в канада» в результатах поиска выделяются различные словоформы как слова «канада» — «канаду», «канаде», «канады», так и слова «уехать» — «уехал», «уехали» и т. д.

Грешным делом у нас сперва зародилось подозрение, что это всего лишь приспособленный под русский язык стемминг — технология, используемая для анализа английского языка. Но давайте для начала остановимся на различии в подходах к анализу различных языков.

Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков — различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть — во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например «что — ложь; чего — лжи». Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой — для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии. Следовательно, Гуглу было бы проще «прикрутить» русский стемминг к существующему стеммингу английского и нескольких других европейских языков, поддерживаемых Гуглом, чем разрабатывать и внедрять абсолютно новый алгоритм.

Так что же сегодня происходит на Гугле? Какая технология обработки русского языка используется? Давайте внимательнее присмотримся к тому, что творится в выдаче Гугла. При запросе таких слов, как «ты», «я», Гугл выдает результаты, в которых встречаются такие формы указанных слов, как «тебя», «меня» и так далее. Однако при запросе по слову «лгать» начинаются проблемы. Так, Яндекс выдает документы, которые содержат словоформы «лгут», «лжет», в то время как Гугл — нет. Еще более странные вещи обнаруживаются при просмотре кеша Гугла по найденным словам. Те слова, которые совпадают с заданной вами формулировкой, выделяются, в то время, как словоформы, не совпадающие с заданной формулировкой запроса, в кеше не выделяются. Более того, если на странице нет ни одного слова, совпадающего с заданной формулировкой запроса, выводится стандартное сообщение о том, что «данные слова были найдены в ссылках, ведущих на страницу». Конечно, можно списывать такие несостыковки на то, что алгоритм является еще сырым, тестируется, но, кажется, существующие факты свидетельствуют об одном  — Google использует улучшенный стемминг для работы с русским языком, это пока не полноценный анализ русского языка с учетом морфологии.

Похоже, прав был мой оппонент на конференции — с тем качеством, как реализована морфология Гугла сейчас, русским поисковикам, действительно, опасаться пока нечего. Несомненно нововведение улучшит релевантность обслуживания русскоязычных запросов, более-менее полноценная поддержка русского языка сослужит хорошую службу для популяризации таких коммерческих проектов Гугла как AdWords и AdSense, которые были представлены Рунету без малого год назад, но работают пока через пень колода, ввиду того, что их русификация была осуществлена в основном только по части перевода интерфейса. В любом случае, у оптимизаторов теперь появится еще одно интересное занятие — исследование того, как работает обновленный гугловский алгоритм. Можно предвидеть, что с точки зрения поисковой оптимизации разница между подходом к оптимизации для «наших» поисковиков и для «буржуйских» будет сведена к минимуму. А выиграют от этого как пользователи Гугла, так и владельцы сайтов, не говоря уже о самом Google, который, несомненно, найдет новых пользователей в России. Вопрос, на мой взгляд, состоит в том, что хорошая идея введения учета русской морфологии была реализована крайне некачественно.

Знаменательно еще и то, что приблизительно в одно время с Гуглом о поддержке морфологии русского языка заявила еще одна поисковая машина, Exalead, которая не пользуется пока особой популярностью на западе, и еще менее известна у нас.

Неизвестно, остановятся ли разработчики на достигнутом, или будут совершенствовать систему, доводя ее до уровня работы Яндекса или Рамблера, но сам факт того, что Гугл, с его огромной базой проиндексированных документов, обширной системой сервисов, среди которых приобретающий все большую популярность почтовый сервис Gmail, Pay-Per-Click сервисы AdWords и AdSense, делает пусть пока не большие шаги в направлении русского рынка, говорит, как минимум, о том, что этот рынок находится в зоне его интересов.

Стоит ли русским поисковикам опасаться конкуренции Гугла? Мнения расходятся. Поживем-увидим. А точка в споре, зародившемся на конференции, еще не поставлена.

Похожие статьи

Политический плакат в Сети (32%)
Обзор посвящен сайтам, коллекционирующим плакаты «разных времен и народов». Попадаются достаточно интересные плакаты, заставляющие задуматься о духе эпохи, государстве, обществе, цивилизации и прочих высоких материях. Очень познавательно!…

Аудит веб-сайта (30,77%)
Не можете достичь успеха в раскрутке и продвижении сайта? Выход один — бросать всякую самодеятельность и принимать на работу специалиста в области оптимизации или обращаться за помощью к профессиональным компаниям. Для начала Вам нужны профессионалы, способные провести аудит и анализ вашего сайта…

Perl и сокеты. Часть 2 (30,43%)
В статье рассматривается работа с сокетами на Perl с помощью стандартного модуля Socket на примере клиента, получающего данные о погоде с weather.yandex.ru. А также работа с сокетами через модуль IO::Socket на примере клиента службы времени…

Perl и сокеты. Часть 1 (30,43%)
В этой статье рассматривается один из способов взаимодействия с сокетами языка Perl с помощью стандартного модуля Socket. Предполагается, что читатель знаком с базовым синтаксисом Perl и стеком протоколов TCP/IP. Возможности Perl-модуля Socket рассматриваются на примере клиента службы времени, который выдает текущую дату и время…

Сравнение удобства пользовательских интерфейсов CMS на русскоязычном рынке (28,57%)
В русскоязычном Интернете имеется немало материалов со сравнениями различных CMS (систем управления содержанием), но мне ни разу не попадалось сравнение usability пользовательских интерфейсов CMS. И это странно, потому как удобство использования продукта напрямую связано с эффективностью его использования. Это один из важнейших критериев…

← Раздел «Вебмастеру: Раскрутка» | Комментарии (2) →

Ваше имя: 

Цифры с картинки:
Включите графику в браузере

Ваши комментарии:

Все поля формы обязательны для заполнения.
Комментарий: Любые HTML-теги в сообщениях запрещены.
Гиперссылки в комментариях не работают — добавлять спам бесполезно!
Максимальная длина комментария — 5000 символов.
Комментарии, не имеющие отношения к статье, будут удалены.

 

Page Promoter 7.6: действенная технология привлечения клиентов Компания NetPromoter сообщает о выходе новой версии программы для комплексного анализа, продвижения и управления ресурсом Page Promoter – 7.6. В новую версию программы Page Promoter добавлен модуль «Размещение статей». Размещение статей на тематических ресурсах является одним из наиболее эффективных и действенных методов продвижения веб-сайта и…

Заявить о себе в Сети Несомненно, что интернет сегодня – это самое глобальное средство коммуникации, не признающее границ и расстояний. Это не СМИ, в полном значении данного слова, тем не менее, каждый веб-сайт является средством распространения информации. Такая информация может нести коммерческий оттенок и, следовательно, вносить весомый вклад в развитие вашего…

Page Promoter Эксперт – время учиться Появление нового, информационного, общества – самый впечатляющий феномен нашего времени. Почему? Люди действуют, используя информацию. А, значит, новые коммуникации, возникшие на базе всемирной сети интернет, побуждают к действию. Например, формированию и развитию коммерции, использующей уникальные возможностях виртуального пространства. Зачем вам…

Page Promoter 7.6: действенная технология привлечения клиентов Компания NetPromoter сообщает о выходе новой версии программы для комплексного анализа, продвижения и управления ресурсом Page Promoter – 7.6. В новую версию программы Page Promoter добавлен модуль «Размещение статей». Размещение статей на тематических ресурсах является одним из наиболее эффективных и действенных методов продвижения веб-сайта и…

Заявить о себе в Сети Несомненно, что интернет сегодня – это самое глобальное средство коммуникации, не признающее границ и расстояний. Это не СМИ, в полном значении данного слова, тем не менее, каждый веб-сайт является средством распространения информации. Такая информация может нести коммерческий оттенок и, следовательно, вносить весомый вклад в развитие вашего…

Page Promoter Эксперт – время учиться Появление нового, информационного, общества – самый впечатляющий феномен нашего времени. Почему? Люди действуют, используя информацию. А, значит, новые коммуникации, возникшие на базе всемирной сети интернет, побуждают к действию. Например, формированию и развитию коммерции, использующей уникальные возможностях виртуального пространства. Зачем вам…