Автор: SatoMaker | Рубрика: Поисковые системы | 19-11-2012 |
Общеизвестно, что основная трудность русского языка заключается в том, что порой радикально расходится его интуитивное нами понимание с формальными правилами языка. Впрочем, ситуация обстоит еще хуже с машинописным разбором — приведенные ниже примеры являются демонстрацией того, как расходится с человеческим восприятием понимание Яндексом словоформ русского языка, и как на поисковой выдаче это отражается.
В базах данных Яндекса, по примеру бумажных словарей, слова сгруппированы в морфологические группы по окончаниям. Например, у слов «могучий» и «великий» будут одинаковые окончания в одинаковых формах, и по этому признаку их относят к одной общей морфологической группе, с присвоенным ей в дальнейшем определенным порядковым номером. Для слова в базах данных поисковика будет указана лишь его морфологическая группа, и его начало, для всех словоформ общее. Примерно так это будет выглядеть: «Великий. велик*, группа 21». Следует отметить, что по этой модели создавалась морфология Яндекса около 10 лет назад, и значительных изменений с тех пор не претерпела, как и весь, впрочем, русский язык в целом.
Словоформы одного и того же слова в выдаче поисковика выделяться будут жирным текстом. Но будут также, кроме них, еще выделяться и синонимы слов, поэтому достаточно сложно конкретно определить, как Яндекс нашел похожие слова — синонимами или словоформами. Перед словом значок «+», вбитый в поисковую строку, отключает на выдаче подсветку синонимов, оставляя только подсветку словоформ. Тем не менее, возникают с некоторыми словами сложности. Чтобы понять, почему это происходит, следует вспомнить, что на словаре Зализняка было основано большинство современных морфологических баз. В нем введены морфологические группы, в некоторых моментах, схема которых сильно устарела, и ее можно смело назвать архаичной — например, глаголы и их причастия и деепричастия (ходить/ходивший) считаются по Зализняку словоформами, а глаголы совершенного и несовершенного вида считаются синонимами (бежать/добежать). Все эти артефакты сохраняются и в Яндексе, для того, в частности, чтобы в человеческом и машинном восприятии словоформ исправить разницу. Например, при вводе в стандартном виде в поисковик запроса «бежать за здоровьем», выделяется жирным текстом, в том числе, и слово «добежать». Однако при добавлении плюса перед словом «бежать», выделение со слова «добежать» снимается, а на слове «бежать» остается.
Поисковик Google, в отличие от Яндекса, применяет морфологию без использования групп, и потому она избавлена от «артефактов», которые встречаются у поисковика отечественного. При вводе в поисковую строку слова «добежавший» Google не ищет слово «добежать», для него «бежать» и «добежать» — это словоформы, а не своеобразный аналог синонимов, как у Яндекса. И, вызывая удивление, обнаруживается тот факт, что русская морфология у зарубежного поисковика Google правильнее реализована, чем у его отечественного коллеги, причем именно благодаря англоязычному происхождению Google это во многом и происходит. Но, несмотря на то, что его морфология правильнее, это не означает, что она лучше — до сих пор остается спорным вопросом, у кого из двух поисковиков выдача более релевантна.
Мой блог находят по следующим фразам
- kakie zaprosy podbirat na sayt
- какой офис поставить на windows 8
- советы как избавиться от негативных
- що означає * в контакті
- положительное влияние интернета на человека
- спрашивай ру как увеличить подписчиков
- Клиент для комментариев WordPress