Неструктурированные данные (Википедия)
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38059
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Неструктури́рованные да́нные (или неструктурированная информация) — информация, которая либо не имеет заранее определенной структуры данных, либо не организована в установленном порядке[источник не указан 616 дней]. Неструктурированные данные, как правило, представлены в форме текста, который может содержать такие данные, как даты, цифры и факты. Это приводит к трудностям анализа, особенно в случае использования традиционных программ, предназначенных для работы со структурированными данными (аннотированными или хранящимися в базах).
В 1998 году инвестиционный банк «Меррилл Линч» оценил, что где-то около 80—90 % от всей потенциально полезной деловой информации представлено в неструктурированной форме.[1] Это правило не было основано на статистике или количественных исследованиях, а было скорее предположением.[2]
Computer World утверждает: более 70—80 % от всех данных в организациях — это неструктурированные данные. |
QUOTE | Трудности терминологии
Термин «неструктурированные данные» может считаться неточным по нескольким причинам:
Структура, даже если она не определена формально, может подразумеваться. Данные, обладающие структурой некоторой формы, могут по-прежнему характеризоваться как неструктурированные, если их структура не предназначена для машинной обработки. Неструктурированная информация может иметь некоторую структуру (такая информация называется полуструктурированной) или даже быть хорошо структурированной, но теми способами, которые являются неочевидными без предварительного согласования. |
--------------------
|
|
|
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38059
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Работа с неструктурированными данными
Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста, предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.
Методы структурирования текста обычно включают ручное тегирование (метаданные) или разметку по частям речи для дальнейшего структурирования текста. Архитектура управления неструктурированной информацией (UIMA) обеспечивает общую основу для обработки этой информации для извлечения значений и создания структурированных данных на основе неструктурированной информации.[4] Программное обеспечение, которое создает машинно-обрабатываемую структуру данных, использует лингвистические, аудиальные и визуальные структуры, которые существуют во всех формах человеческого общения.[5] Например, специальные алгоритмы могут вывести структуру из текста путем анализа морфологии, синтаксиса предложений, и т. д. Затем неструктурированную информацию можно разметить для снятия неоднозначности, а для улучшения поиска используются методы оценки релевантности. |
QUOTE | Примечания
- A Brief History of Text Analytics. B Eye Network. Проверено 24 июня 2016. - Taming Text with the SVD. SAS. Проверено 24 июня 2016. |
QUOTE | Ссылки - Артак Оганесян. Неструктурированные данные 2.0 // Открытые системы. СУБД, 2012, № 04 - Леонид Черняк. Аналитика неструктурированных данных // Открытые системы. СУБД, 2012, № 06 - Антон Иванов. Комплексный анализ неструктурированных данных // Открытые системы. СУБД, 2013, № 06 - Артем Гришковский. Интегрированная обработка неструктурированных данных // Открытые системы. СУБД, 2013, № 06 |
--------------------
|
|
|
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей: