(2017) О чем говорят женщины? Text mining of, beauty blogs
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
(2017) О чем говорят женщины? (Text mining of )Источник: https://habr.com/en/company/lanit/blog/329892/ QUOTE | В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов. |
QUOTE | Скажу сразу, мы выяснили следующее:
блоги бьюти-индустрии пишутся преимущественно в позитивном эмоциональном окрасе; блогеры-новички склонны к завышенным эмоциям; блогеры-мастера работают в узком эмоциональном диапазоне; самые горячие обсуждения происходят в блогах среднего масштаба аудитории, а блоги-гиганты превращаются в вещательный инструмент; большинство бьюти-блогеров являются обычными людьми в социальных сетях.
Думаю, что наши наиболее интересные открытия, которым и посвящена эта статья, будут полезны всем, кто так или иначе соприкасается с продвижением продуктов в Сети. Например, зависит ли популярность блога от активности блогера и как аудитория реагирует на общее настроение поста. А мне, помимо этого, на примере анализа блогосферы хочется рассказать о возможностях Text mining. |
--------------------
|
|
|
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Нам не пришлось собирать данные – массив был собран ранее, в результате краулинга бьюти-блогов. Правда, для наших задач он оказался очень сырым и потребовал предварительной обработки. Кроме того, тексты естественно не были размечены, поэтому не было возможности использовать инструменты машинного обучения с учителем. Отсекаем лишнее
40.4% данных составили пустые страницы и страницы с ошибками, страницы не на английском языке (23,461), фото- и видеоматериалы без текста (2,315), статьи с ресурса techcrunch.com, не имеющего отношения к бьюти-индустрии (очевидно, это ресурс, на котором тестировался краулер, собирающий материал, и его вклад в общем корпусе оказался заметным – 3,402 страниц). Конечно, получить в распоряжение почти 60 тыс. страниц, годных для анализа, тоже неплохо. Выяснилось, что этому объему текста соответствуют около 2 тыс. уникальных блогов, то есть за вычетом клонированных и схожих материалов этот объем текста создали две тысячи уникальных авторов. |
--------------------
|
|
|
VAL |
|
Offline

Мэтр, проФАН любви... proFAN of love
    
Профиль
Группа: Администраторы
Сообщений: 38049
Пользователь №: 1
Регистрация: 6.03.2004

|
QUOTE | Работа с брендом
Мы применили технику Fuzzy String Matching на весь корпус текстов и попытались найти упоминания бренда и его продуктов во всех текстах. Fuzzy String Matching основана на анализе расстояния Левенштейна, которое указывает на буквенные различия в словах. Строго говоря, расстояние Левенштейна определяет минимальное количество изменений одного символа (его удаления, замены, добавления), необходимых для превращения одного слова в другое. Расстояние, полученное с помощью модуля Python fuzzywuzzy, нормировано в диапазоне от 0 до 100. Таким образом, абсолютно различные слова будут иметь меру похожести, равную 0, а тождественные слова будут иметь меру похожести, равную 100. Например, в бородатом анекдоте о разнице между хлебом и пивом мера похожести будет равна нулю: чтобы из хлеба получить пиво, нужно заменить все четыре буквы. Необходимо отметить, что нам повезло с названиями продуктов бренда, т.к. они не были односложными (как известное мыло «Удав»), а состояли из нескольких слов, по которым можно было понять тип и отчасти назначение продукта, например, «Масло для лица Баба Яга». Fuzzy String Matching позволяет с соответствующими настройками отлавливать частичное упоминание, например, «Face Oil», и мы пытались на этом играть. Посты, в которых искомый продукт упоминался на 90% по метрике Fuzzy String Matching, отмечались в качестве «хороших». У бренда было около 100 продуктов, таким образом каждая статья проходила проверку для каждого продукта более 100 раз. |
--------------------
|
|
|
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей: