Студенческий форум -> (2018) Обработка текстов на естественных языках

Помощь

Поиск

Участники

Календарь

Новости

Учебные Материалы

ВАЛтест

Фотогалерея

Правила форума

Виртуальные тренажеры

Мемуары

Здравствуйте Гость ( Вход | Регистрация )

Выслать повторно письмо для активации

Студенческий форум -> Студенческие форумы НИЯУ МИФИ -> Авторские публикации разных лет -> Международный конгресс юмористов (в Питере) + Text mining

(2018) Обработка текстов на естественных языках

Подписка на тему | Сообщить другу | Версия для печати

VAL

Дата 21.05.2019 00:28

Offline

Мэтр, проФАН любви... proFAN of love

Профиль
Группа: Администраторы
Сообщений: 38172
Пользователь №: 1
Регистрация: 6.03.2004

(2018) Обработка текстов на естественных языках
Источник: https://habr.com/ru/company/mailru/blog/358736/

QUOTE

Тест Тьюринга

С тех пор прошло много лет, техника достаточно сильно изменилась, и в XX веке этот вопрос снова обрёл актуальность. Известный учёный Алан Тьюринг в 1950 году усомнился в том, что машина не может мыслить, и для проверки предложил свой знаменитый тест.

Идея теста, по легенде, основана на игре, которую практиковали на студенческих вечеринках. Два человека из компании — парень и девушка — уходили в разные комнаты, а оставшиеся люди общались с ними с помощью записок. Задача игроков заключалась в том, чтобы угадать, с кем же они имеют дело: с мужчиной или с женщиной. А парень с девушкой притворялись друг другом, чтобы ввести остальных игроков в заблуждение. Тьюринг сделал достаточно простую модификацию. Он заменил одного из скрытых игроков компьютером и предложил участникам распознать, с кем они взаимодействуют: с человеком или с машиной.

QUOTE

Машинное обучение и корпусная лингвистика

В чём основная идея корпусной лингвистики? Мы собираем корпус — коллекцию документов, достаточно крупную, и затем с помощью методов машинного обучения и статистического анализа пытаемся построить систему, которая будет решать нашу задачу.

В 1990-е годы эта область получила очень мощный толчок благодаря развитию Всемирной паутины с большим количеством слабоструктурированного текста, по которому нужно было искать, его требовалось каталогизировать. В 2000-е анализ естественных языков начал применяться уже не только для поиска в Интернете, но и для решения разнообразных задач. Появились крупные датасеты с текстом, много разнообразных инструментов, компании стали вкладывать в это большие деньги.

Современные тренды

Что происходит сейчас? Основные тренды, которые можно выделить в анализе естественных языков, — это активное использование моделей обучения без учителя. Они позволяют выявить структуру текста, некоторого корпуса без заранее заданных правил. В открытом доступе появилось много больших доступных корпусов разного качества, размеченные и нет. Возникли модели, основанные на краудсорсинге: мы не только пытаемся что-то понять с помощью машины, а подключаем людей, которые за небольшую плату определяют, на каком языке написан текст. В некотором смысле начали возрождаться идеи использования формальных онтологий, но теперь онтологии крутятся вокруг краудсорсинговых баз знаний, в частности баз на основе Linked Open Data. Это целый набор баз знаний, его центр — машиночитаемый вариант «Википедии» DBpedia, который тоже наполняется по краудсорсинговой модели. Люди во всём мире могут туда что-то добавлять.

--------------------

www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!

VAL	Дата 20.08.2019 09:49
Offline Мэтр, проФАН любви... proFAN of love Профиль Группа: Администраторы Сообщений: 38172 Пользователь №: 1 Регистрация: 6.03.2004	:doh: -------------------- www.valinfo.ru Всегда... Always.... Quod licet jovi, non licet bovi!

1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)

0 Пользователей:

« Предыдущая тема | Международный конгресс юмористов (в Питере) + Text mining | Следующая тема »

Powered by Invision Power Board(U) v1.3 Final © 2003 IPS, Inc.
Установка, модификация и поддержка:
Barsum | 1px Design Group & Xac | OппаRU форум