(2017) Автоматическая обработка текстов... и, анализ данных (моногафия, ВШЭ)
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
(2017) Автоматическая обработка текстов на естественном языке и анализ данных (моногафия)Источник: https://www.hse.ru/data/2017/08/12/1174382135/NLP_and_DA.pdf (можно скачать) Авторы: Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С.,Лукашевич Н.В., Сапин А.С. QUOTE | В учебном пособии рассматриваются базовые вопросы компьютерной линг- вистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необхо- димые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы анализа тональности и тематическогомоделированиятекстов,извлеченияинформацииизтекстов. Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
|
--------------------
|
|
|
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Можно также говорить ещё об одном уровне — уровне дискурса [35], под которым понимается связный текст в его коммуникативной направленности. Под дискурсом понимается последовательность взаимосвязанных друг с другом предложений текста, обладающая определенной смысловой целостностью, за счет чего он выполняет определенную прагматическую задачу. Во многих типах связных текстов проявляется традиционная схематическая (дискурсивная) структура, организующая их общее содержание, например, определенную структуру имеют описания сложных технических систем, патентные формулы, научные статьи, деловые письма и др. |
QUOTE | Особым является вопрос об уровне семантики. В принципе, смысл есть всюду, где есть знаковые единицы языка (морфемы, слова, предложения). Подтверждением самостоятельности уровня семантики считается то, что человек обычно запоминает смысл высказывания, а не его конкретную языковую форму. До сих пор не ясна организация этого уровня, предполагается, что существует универсальный набор элементарных семантических единиц (называемых семами), примерно 2 тысячи, при помощи которых можно выразить смысл любого высказывания. |
QUOTE | В случае анализа текста отдельные модули ЛП (прим.: ЛП - лингвистический процессор) выполняют: ∙ - Графематический анализ (сегментация), т.е. выделение в тексте предложений и словоформ, точнее токенов (т.к. в тексте могут быть не только слова) — переход от символов к словам; ∙ - Морфологический анализ — переход от словоформ к их леммам (словарным формам лексем) или основам (ядерным частям слова, за вычетом словоизменительных морфем); ∙ - Синтаксический анализ — выявление синтаксических связей слов и грамматической структуры предложений;∙ - Семантический и прагматический анализ, при котором опреде- ляется смысл фраз и соответствующая реакция системы, в рамках которой работает ЛП. |
--------------------
|
|
|
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Более сложными видами лексических ресурсов являются тезауру- сы и онтологии. Тезаурус — это семантический словарь, т.е. словарь, в котором представлены смысловые связи слов — синонимические, от- ношения Род-Вид (иногда называемые отношением Выше-Ниже), Часть- Целое, ассоциации. В качестве характерного примера можно привести информационно-поисковый тезаурус РуТез для русского языка, охваты- вающего общественно-политическую лексику [36]. С понятием тезауруса тесно связано понятие онтологии [11]. Онтоло- гия — набор понятий, сущностей определенной области знаний, ориентиро- ванный на многократное использование для различных задач. Онтологии могут создаваться на базе существующей в языке лексики — в этом случае они называются лингвистическими. |
QUOTE | Текстовые ресурсы, служащие для построения модулей лингвистиче- ских процессоров, охватывают коллекции текстов (обычно для конкретных проблемных областей) и текстовые корпуса. Корпус текстов — это представительный массив текстов, собранный по определённому принципу (по жанру, авторской принадлежности и т.п.) и обладающий лингвистической разметкой — морфологической, акцент- ной, синтаксической, дискурсивной или др. [3]. В настоящее время известно несколько сотен различных корпусов (для разных ЕЯ и с различной раз- меткой), в России наиболее известными являются Национальный корпус русского языка (НКРЯ) [41], OpenCorpora [16] и ГИКРЯ [29], они отлича- ются целями и методами создания, набором включенных русскоязычных текстов. |
--------------------
|
|
|
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей: