Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Автоматизация извлечения информации
Этот подход предполагает наличие технологически "продвинутого" инструмента, способного выделять из текста нужные элементы (Text Mining). Его работа заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе пользователь получает запрошенную информацию в структурированном виде. Структуры могут представлять собой как простые сущности (персоны, организации, географические названия), так и сложные (факты, содержащие некое событие, его участников, дату, финансовые параметры и пр.). События бывают самые разные: происшествия, сделки, суды и т. п. Указанный инструмент позволяет автоматически собирать результаты своей работы в коллекции данных, которые уже пригодны для проведения анализа. |
QUOTE | Text Mining - как это работает?
Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining.
1. Information Extraction (извлечение информации):
а) Feature (Entity) Extraction - извлечение слов или групп слов, которые, с точки зрения пользователя, важны для описания содержания документа. Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые сущности также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;
б) Feature (Entity) Association Extraction - более сложные с технологической точки зрения. Прослеживаются различного рода связи между извлеченными сущностями. Например, даже если выбранные субъекты упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), можно с большой степенью определенности сказать, есть ли между ними какая-то связь или нет;
в) Relationship, Event and Fact Extraction - самый сложный вариант извлечения информации (Information Extraction), включающий в себя извлечение сущностей, распознавание фактов и событий, а также извлечение информации из этих фактов. Например, система может сделать заключение, что Иван Петров купил компанию "Пупкин и Ко", даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна, так как обычная человеческая речь подразумевает очень много вариантов изложения. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система способна отнести к разным категориям факты "Мужик купил бутылку водки" и "Иван Петров купил компанию "Пупкин и Ко"".
2. Summarization (автоматическое реферирование, аннотирование) - построение краткого содержания документа по его полному тексту.
3. Categorization (категоризация, классификация) - отнесение документа или его части к одной или нескольким категориям. Категории могут определять "направленность" текста - тематическую, жанровую, эмоциональную, оценочную.
4. Clusterization - объединение документов в группы по принципу их схожести. |
--------------------
|