Студенческий форум -> Методы предварительной обработки текста

Помощь

Поиск

Участники

Календарь

Новости

Учебные Материалы

ВАЛтест

Фотогалерея

Правила форума

Виртуальные тренажеры

Мемуары

Здравствуйте Гость ( Вход | Регистрация )

Выслать повторно письмо для активации

Студенческий форум -> Студенческие форумы НИЯУ МИФИ -> Авторские публикации разных лет -> Международный конгресс юмористов (в Питере) + Text mining

Методы предварительной обработки текста

Подписка на тему | Сообщить другу | Версия для печати

VAL

Дата 16.02.2019 21:15

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004

Методы предварительной обработки текста
Источник: https://megapredmet.ru/1-53369.html

QUOTE

Впервые «ручные» техники Text Mining появились в середине 1980-х, а в следующее десятилетие развитие технологий позволило значительно их усовершенствовать. В междисциплинарном смысле Text Mining лежит на стыке поиска информации, Data Mining, машинного самообучения, статистики и компьютерной лингвистики.

Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Text Mining часто называют также текстовым дейтамайнингом (text data mining), что отчасти раскрывает взаимосвязь двух этих технологий. Если дейтамайнинг позволяет извлекать новые знания (скрытые закономерности, факты, неизвестные взаимосвязи и т.п.) из больших объемов структурированной информации (хранимой в базах данных), то текстомайнинг — находить новые знания в неструктурированных текстовых массивах.

В этом смысле Text Mining добавляет к технологии data mining дополнительный этап — перевод неструктурированных текстовых массивов в структурированные. После чего данные могут обрабатываться с помощью стандартных методов data mining.

Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Типичные задачи Text Mining включают категоризацию, кластеризацию текстов, извлечение концептов и объектов, создание таксономий, смысловой анализ, обобщение документации и моделирование объектов, то есть установление связей между различными известными объектами. Анализ текстов включает себя извлечение информации и лингвистический анализ для выявления частоты вхождений различных слов, выявление шаблонов, расставление тэгов и аннотирование, техники Data Mining, включая анализ связей и ассоциаций, визуализацию и прогностический анализ. В конечном счете, общая цель всего этого состоит в том, чтобы превратить текст в данные, доступные для анализа.

QUOTE

громное количество информации скапливается в многочисленных текстовых базах, хранящихся в личных ПК, локальных и глобальных сетях. И объем этой информации стремительно увеличивается. Чтение объемных текстов и поиск в гигантских массивах текстовых данных малоэффективны, поэтому становятся все более востребованными решения Text Mining.

ктуальность Text Mining растет по мере того, как людям самых разных профессий приходится принимать решения на базе анализа большого объема неструктурированных и слабоструктурированных текстов (рис. 1).

Присоединённое изображение

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL

Дата 16.02.2019 21:16

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004

QUOTE

Все более интересным становится анализ общественного мнения, выраженного в Web, в том числе блогосфера. Одним из новых направлений текстомайнинга является Opinion Mining (OM) (буквально — раскопка мнений) — технология, которая концентрируется не столько на содержании документа, сколько на мнении, которое он выражает.

Оценить успешность проведенной рекламной кампании, узнать, как к фирме относятся в прессе, — на эти и другие вопросы можно получить ответ с помощью технологии Opinion Mining.

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов (рис. 2).

Присоединённое изображение

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL

Дата 16.02.2019 21:18

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004

QUOTE

Поиск информации. На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступность.

Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для представления их в виде, с которым работают методы Text Mining. Целью таких преобразований является удаление лишних слов и придание тексту более строгой формы.

Извлечение информации. Извлечение информации из выбранных документов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

Применение методов Text Mining. На данном шаге извлекаются шаблоны и отношения, имеющиеся в текстах. Данный шаг является основным в процессе анализа текстов.

Интерпретация результатов. Последний шаг в процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как правило, интерпретация заключается или в представлении результатов на естественном языке, или в их визуализации в графическом виде.

Визуализация также может быть использована как средство анализа текста. Для этого извлекаются ключевые понятия, которые и представляются в графическом виде. Такой подход помогает пользователю быстро идентифицировать главные темы и понятия, а также определить их важность.

Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL	Дата 9.11.2019 19:36
Offline Мэтр, проФАН любви... proFAN of love Профиль Группа: Администраторы Сообщений: 37820 Пользователь №: 1 Регистрация: 6.03.2004	:doh: -------------------- www.valinfo.ru Всегда... Always.... Quod licet jovi, non licet bovi!

0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)

0 Пользователей:

« Предыдущая тема | Международный конгресс юмористов (в Питере) + Text mining | Следующая тема »

Powered by Invision Power Board(U) v1.3 Final © 2003 IPS, Inc.
Установка, модификация и поддержка:
Barsum | 1px Design Group & Xac | OппаRU форум