Студенческий форум -> (2007) Text Mining: современные технологии на

Помощь

Поиск

Участники

Календарь

Новости

Учебные Материалы

ВАЛтест

Фотогалерея

Правила форума

Виртуальные тренажеры

Мемуары

Здравствуйте Гость ( Вход | Регистрация )

Выслать повторно письмо для активации

Студенческий форум -> Студенческие форумы НИЯУ МИФИ -> Авторские публикации разных лет -> Международный конгресс юмористов (в Питере) + Text mining

(2007) Text Mining: современные технологии на, информационных рудниках

Подписка на тему | Сообщить другу | Версия для печати

VAL

Дата 16.02.2019 21:52

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

(2007) Text Mining: современные технологии на информационных рудниках
Источник:
- https://www.itweek.ru/idea/article/detail.php?ID=82081
- PC Week/RE №6 (564), 27 февраля — 5 марта 2007

Автор: Павел Линючев

QUOTE

Сегодня вопросы анализа структурированной информации в различных прикладных областях в зависимости от специфики задач решены на 90-100%. С точки зрения технологий это объясняется очень просто: современные инструменты анализа позволяют "видеть" данные, хранящиеся в БД. На рынке широко представлены такие привычные пользователям технологии, как OLAP, BI и Data Mining, основанные на популярных методах статистической обработки, прогнозирования и визуализации.

Совершенно противоположная ситуация сложилась с анализом неструктурированных данных, проще говоря - текста, написанного естественным человеческим языком. Проблемы, связанные с автоматизацией этой области, для большинства пользователей пока не решены. Сразу отметим, что, говоря об анализе, всегда имеем в виду поиск ответа на конкретный вопрос того или иного человека.

QUOTE

Популярные мифы о поисковых системах

1. Система дает ответы на вопросы.

Не дает - попробуйте спросить. Она лишь помогает сориентироваться в наборах документов.

2. С системой просто работать.

Не так уж просто. Составить правильный запрос к поисковику, чтобы получить релевантные ссылки, - целое искусство. Сюда входит и подбор ключевых слов, и составление собственно запроса.

3. Система выдает нужные документы.

Это не так. Поисковик выдает только ссылки. А документы мы получаем либо вручную через браузер, либо при помощи специальных инструментов - веб-краулеров и веб-спайдеров.

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL

Дата 16.02.2019 21:53

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

QUOTE

Автоматизация извлечения информации

Этот подход предполагает наличие технологически "продвинутого" инструмента, способного выделять из текста нужные элементы (Text Mining). Его работа заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе пользователь получает запрошенную информацию в структурированном виде. Структуры могут представлять собой как простые сущности (персоны, организации, географические названия), так и сложные (факты, содержащие некое событие, его участников, дату, финансовые параметры и пр.). События бывают самые разные: происшествия, сделки, суды и т. п. Указанный инструмент позволяет автоматически собирать результаты своей работы в коллекции данных, которые уже пригодны для проведения анализа.

QUOTE

Text Mining - как это работает?

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining.

1. Information Extraction (извлечение информации):

а) Feature (Entity) Extraction - извлечение слов или групп слов, которые, с точки зрения пользователя, важны для описания содержания документа. Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые сущности также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;

б) Feature (Entity) Association Extraction - более сложные с технологической точки зрения. Прослеживаются различного рода связи между извлеченными сущностями. Например, даже если выбранные субъекты упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), можно с большой степенью определенности сказать, есть ли между ними какая-то связь или нет;

в) Relationship, Event and Fact Extraction - самый сложный вариант извлечения информации (Information Extraction), включающий в себя извлечение сущностей, распознавание фактов и событий, а также извлечение информации из этих фактов. Например, система может сделать заключение, что Иван Петров купил компанию "Пупкин и Ко", даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна, так как обычная человеческая речь подразумевает очень много вариантов изложения. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система способна отнести к разным категориям факты "Мужик купил бутылку водки" и "Иван Петров купил компанию "Пупкин и Ко"".

2. Summarization (автоматическое реферирование, аннотирование) - построение краткого содержания документа по его полному тексту.

3. Categorization (категоризация, классификация) - отнесение документа или его части к одной или нескольким категориям. Категории могут определять "направленность" текста - тематическую, жанровую, эмоциональную, оценочную.

4. Clusterization - объединение документов в группы по принципу их схожести.

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL

Дата 16.02.2019 22:15

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

QUOTE

Выводы

В силу инерции мышления массовая аудитория с недоверием относится к тому,что машина может оперировать понятиями фактов, событий, персон, организаций и т. п. В основном именно это заставляет нас отказываться от технологий Text Mining и загружать себя ручной обработкой результатов поиска. Есть, конечно, и объективные трудности. Методы Text Mining должны быть адаптированы к предметной области, что нередко требует временных и прочих ресурсов. Некоторые типы текстов (например, художественная литература, профессиональный и иной сленг) плохо поддаются машинной обработке.

Между тем технологии добычи информации из неструктурированных текстов (Text Mining) используются на практике уже сегодня. Со временем их применение будет только расширяться, поскольку объемы доступной и полезной информации растут с каждым днем, а потребность в их анализе по-прежнему не удовлетворена.

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL	Дата 21.11.2020 19:12
Offline Мэтр, проФАН любви... proFAN of love Профиль Группа: Администраторы Сообщений: 38172 Пользователь №: 1 Регистрация: 6.03.2004	:doh: -------------------- www.valinfo.ru Всегда... Always.... Quod licet jovi, non licet bovi!

1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)

0 Пользователей:

« Предыдущая тема | Международный конгресс юмористов (в Питере) + Text mining | Следующая тема »

Powered by Invision Power Board(U) v1.3 Final © 2003 IPS, Inc.
Установка, модификация и поддержка:
Barsum | 1px Design Group & Xac | OппаRU форум