Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Студенческий форум > Программное обеспечение. Data и text mining > (2023) Разбираемся, как измерять разнообразие слов


Автор: VAL 6.01.2023 10:11
(2023) Разбираемся, как измерять разнообразие слов
Источник: https://habr.com/ru/post/709202/

QUOTE
Привет в Новом году. Я тут добрался на праздниках до одной темы, которая пылится у меня уже полгода в закладках. Поговорим сегодня о метриках лексического разнообразия. Эти метрики показывают насколько богат текст на разные слова, помогая нам оценить его сложность. В этой небольшой заметке я кратко расскажу историю вопроса, о современных метриках, а в конце покажу результаты предварительных экспериментов. Тетрадка доступна по ссылке.


QUOTE
Говоря про оценку сложности текстов, вот как это можно проиллюстрировать [9]:

    комфортное чтение текста, содержащего большое количество разных слов, подразумевает знание этих слов, иначе придется часто смотреть в словарь.
   
Если посмотреть немного с другой стороны, тексты можно разделить по разнообразию на уровни для комфортного чтения. Например, для детей по возрасту или для людей, изучающих второй язык.

    По динамике разнообразия можно судить о патологии развития речевых способностей. Например, в норме ребенок по мере развития будет использовать новая слова, которые он слышит, для описания окружающего мира. Другими словами увеличивается лексическое разнообразие речи.

    Использование разнообразных слов заставляет тратить больше мыслетоплива при чтении, поскольку чаше происходит декодирование новых слов.

    Немного необычный случай. В этой статье [4], авторы попытались измерить рост разнообразия научных идей через лексическое разнообразие ключевых слов из статей, хоть и неудачно.

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)