Студенческий форум -> Неструктурированные данные (Википедия)

Помощь

Поиск

Участники

Календарь

Новости

Учебные Материалы

ВАЛтест

Фотогалерея

Правила форума

Виртуальные тренажеры

Мемуары

Здравствуйте Гость ( Вход | Регистрация )

Выслать повторно письмо для активации

Студенческий форум -> Студенческие форумы НИЯУ МИФИ -> Магистры МИФИ и РУДН: программы, тематика курсов, советы -> Программное обеспечение. Data и text mining

Неструктурированные данные (Википедия)

Подписка на тему | Сообщить другу | Версия для печати

VAL

Дата 16.02.2019 20:57

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

Неструктурированные данные (Википедия)
Источник: https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%...%BD%D1%8B%D0%B5

QUOTE

Неструктури́рованные да́нные (или неструктурированная информация) — информация, которая либо не имеет заранее определенной структуры данных, либо не организована в установленном порядке[источник не указан 616 дней]. Неструктурированные данные, как правило, представлены в форме текста, который может содержать такие данные, как даты, цифры и факты. Это приводит к трудностям анализа, особенно в случае использования традиционных программ, предназначенных для работы со структурированными данными (аннотированными или хранящимися в базах).

В 1998 году инвестиционный банк «Меррилл Линч» оценил, что где-то около 80—90 % от всей потенциально полезной деловой информации представлено в неструктурированной форме.[1] Это правило не было основано на статистике или количественных исследованиях, а было скорее предположением.[2]

Computer World утверждает: более 70—80 % от всех данных в организациях — это неструктурированные данные.

QUOTE

Трудности терминологии

Термин «неструктурированные данные» может считаться неточным по нескольким причинам:

Структура, даже если она не определена формально, может подразумеваться.
Данные, обладающие структурой некоторой формы, могут по-прежнему характеризоваться как неструктурированные, если их структура не предназначена для машинной обработки.
Неструктурированная информация может иметь некоторую структуру (такая информация называется полуструктурированной) или даже быть хорошо структурированной, но теми способами, которые являются неочевидными без предварительного согласования.

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL

Дата 16.02.2019 21:06

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

QUOTE

Работа с неструктурированными данными

Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста, предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.

Методы структурирования текста обычно включают ручное тегирование (метаданные) или разметку по частям речи для дальнейшего структурирования текста. Архитектура управления неструктурированной информацией (UIMA) обеспечивает общую основу для обработки этой информации для извлечения значений и создания структурированных данных на основе неструктурированной информации.[4] Программное обеспечение, которое создает машинно-обрабатываемую структуру данных, использует лингвистические, аудиальные и визуальные структуры, которые существуют во всех формах человеческого общения.[5] Например, специальные алгоритмы могут вывести структуру из текста путем анализа морфологии, синтаксиса предложений, и т. д. Затем неструктурированную информацию можно разметить для снятия неоднозначности, а для улучшения поиска используются методы оценки релевантности.

QUOTE

Примечания

- A Brief History of Text Analytics. B Eye Network. Проверено 24 июня 2016.
- Taming Text with the SVD. SAS. Проверено 24 июня 2016.

QUOTE

Ссылки
- Артак Оганесян. Неструктурированные данные 2.0 // Открытые системы. СУБД, 2012, № 04
- Леонид Черняк. Аналитика неструктурированных данных // Открытые системы. СУБД, 2012, № 06
- Антон Иванов. Комплексный анализ неструктурированных данных // Открытые системы. СУБД, 2013, № 06
- Артем Гришковский. Интегрированная обработка неструктурированных данных // Открытые системы. СУБД, 2013, № 06

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)

0 Пользователей:

« Предыдущая тема | Программное обеспечение. Data и text mining | Следующая тема »

Powered by Invision Power Board(U) v1.3 Final © 2003 IPS, Inc.
Установка, модификация и поддержка:
Barsum | 1px Design Group & Xac | OппаRU форум