Морфология: каким образом Яндекс воспринимает русский язык

0

Автор: SatoMaker | Рубрика: Поисковые системы | 19-11-2012 |

Общеизвестно, что основная трудность русского языка заключается в том, что порой радикально расходится его интуитивное нами понимание с формальными правилами языка. Впрочем, ситуация обстоит еще хуже  с машинописным разбором — приведенные ниже примеры являются демонстрацией того, как расходится с человеческим восприятием понимание Яндексом словоформ русского языка, и как на поисковой выдаче это отражается.

В базах данных Яндекса, по примеру бумажных словарей, слова сгруппированы в морфологические группы по окончаниям. Например, у слов «могучий»  и «великий» будут одинаковые окончания в одинаковых формах, и по этому признаку их относят к одной общей морфологической группе, с  присвоенным ей в дальнейшем определенным  порядковым номером. Для слова в базах данных поисковика будет указана лишь его морфологическая группа, и  его начало, для всех словоформ общее. Примерно так это будет выглядеть: «Великий. велик*, группа 21». Следует отметить, что по этой модели создавалась морфология Яндекса около 10 лет назад, и значительных изменений с тех пор не претерпела, как и весь, впрочем, русский язык в целом.

Словоформы одного и того же слова в выдаче поисковика выделяться будут жирным текстом. Но будут также, кроме них, еще выделяться и синонимы слов, поэтому достаточно сложно конкретно определить, как Яндекс нашел похожие слова — синонимами или словоформами. Перед словом значок «+», вбитый в поисковую строку, отключает на выдаче подсветку синонимов, оставляя только подсветку словоформ. Тем не менее, возникают с некоторыми словами сложности. Чтобы понять, почему это происходит, следует вспомнить, что на словаре Зализняка было основано большинство современных морфологических баз. В нем введены морфологические группы, в некоторых моментах, схема которых сильно устарела, и ее можно смело назвать архаичной — например, глаголы и их причастия и деепричастия (ходить/ходивший) считаются по Зализняку словоформами, а глаголы совершенного и несовершенного вида считаются синонимами (бежать/добежать). Все эти артефакты сохраняются и в Яндексе, для того,  в частности, чтобы в человеческом и машинном восприятии словоформ исправить разницу. Например, при вводе в стандартном виде в поисковик запроса «бежать за здоровьем», выделяется жирным текстом, в том числе, и слово «добежать». Однако при добавлении плюса перед словом «бежать», выделение со слова «добежать» снимается, а на слове «бежать» остается.

Поисковик Google, в отличие от Яндекса, применяет морфологию без использования групп, и потому она избавлена от «артефактов», которые встречаются у поисковика отечественного. При вводе в поисковую строку слова «добежавший» Google не ищет слово «добежать», для него «бежать» и «добежать» — это словоформы, а не своеобразный аналог синонимов, как у Яндекса. И, вызывая удивление, обнаруживается тот факт, что русская морфология у зарубежного поисковика Google правильнее реализована, чем у его отечественного коллеги, причем именно благодаря англоязычному происхождению Google это во многом и происходит. Но, несмотря на то, что его морфология правильнее, это не означает, что она лучше — до сих пор остается спорным вопросом, у кого из двух поисковиков выдача более релевантна.

Мой блог находят по следующим фразам

Записи по данной теме:

Понравилась статья? У Вас есть возможность получать ежедневные обновления блога удобным для Вас способом:
Подписаться на блог 'Сатомейкер' по email

Ваш электронный адрес:

 

 

Подписаться на блог 'Сатомейкер' по email

Подпишитесь через RSS:

 

Добавить в Google

 

Читать в Яндекс.Ленте


Follow Satomaker on Twitter






Ваш отзыв