Заочное дистанционное образование
с получением государственного диплома через Internet

 

Составление тезауруса

Для эффективного использования поисковых серверов, прежде всего необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус.

 

Одним из подходов [1] к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно.

 

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

 

 

 

где f — частота вхождения слов, r — ранг частоты, n — число слов

 

Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу.

 

Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой.

 

Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.

 

Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке:

1.  «стоп-слова» удаляются из текста;

2.  вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;

3.  выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;

4.  составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

 

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.



Поиск информации в Интернете Сетевые информационные ресурсы Средства поиска информации Методы поиска информации Поиск с использованием поисковых машин Отбор поисковых систем Составление и выполнение запросов к поисковым машинам Анализ ресурсов и сбор информации Проведение интернет-опросов Планирование выборки 

{LTS}

Реклама

Рассылки Subscribe.Ru
Современное образование
Подписаться письмом


НОВОСТИ

Приглашаем принять участие в круглом столе!
 

Институт Менеджмента, Экономики и Инноваций начинает набор на курсы повышения квалификации!
 

Институт Менеджмента, Экономики и Инноваций начинает набор на курсы повышения квалификации!
 

Уважемые студенты АНО ВПО ИМЭиИ!
 

Начинается набор на курсы повышения квалификации!
 

Приглашаем принять участие в конференциях!
Приглашаем принять участие в конференциях!
 

Поздравляем с Днем науки!
Поздравляем с Днем науки!
 


все новости