Помощь      Поиск      Участники      Календарь      Новости
 Учебные Материалы      ВАЛтест     Фотогалерея Фотогалерея
 Правила форума      Виртуальные тренажеры      Мемуары


  Reply to this topicStart new topicStart Poll

> (2017) О чем говорят женщины? Text mining of, beauty blogs
VAL
Дата 20.05.2019 23:58
Quote Post
Offline



Мэтр, проФАН любви... proFAN of love
*****

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004





(2017) О чем говорят женщины? (Text mining of )
Источник: https://habr.com/en/company/lanit/blog/329892/

QUOTE
В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.


QUOTE
Скажу сразу, мы выяснили следующее:

    блоги бьюти-индустрии пишутся преимущественно в позитивном эмоциональном окрасе;
    блогеры-новички склонны к завышенным эмоциям;
    блогеры-мастера работают в узком эмоциональном диапазоне;
    самые горячие обсуждения происходят в блогах среднего масштаба аудитории, а блоги-гиганты превращаются в вещательный инструмент;
    большинство бьюти-блогеров являются обычными людьми в социальных сетях.


Думаю, что наши наиболее интересные открытия, которым и посвящена эта статья, будут полезны всем, кто так или иначе соприкасается с продвижением продуктов в Сети. Например, зависит ли популярность блога от активности блогера и как аудитория реагирует на общее настроение поста.  А мне, помимо этого, на примере анализа блогосферы хочется рассказать о возможностях Text mining.


--------------------
www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!
PMEmail PosterUsers Website
Top
VAL
Дата 21.05.2019 00:01
Quote Post
Offline



Мэтр, проФАН любви... proFAN of love
*****

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004





QUOTE
Нам не пришлось собирать данные – массив был собран ранее, в результате краулинга бьюти-блогов. Правда, для наших задач он оказался очень сырым и потребовал предварительной обработки. Кроме того, тексты естественно не были размечены, поэтому не было возможности использовать инструменты машинного  обучения с учителем.

Отсекаем лишнее

40.4% данных составили пустые страницы и страницы с ошибками, страницы не на английском языке (23,461), фото- и видеоматериалы без текста (2,315), статьи с ресурса techcrunch.com, не имеющего отношения к бьюти-индустрии (очевидно, это ресурс, на котором тестировался краулер, собирающий материал, и его вклад в общем корпусе оказался заметным – 3,402 страниц).

Конечно, получить в распоряжение почти 60 тыс. страниц, годных для анализа, тоже неплохо. Выяснилось, что этому объему текста соответствуют около 2 тыс. уникальных блогов, то есть за вычетом клонированных и схожих материалов этот объем текста создали две тысячи уникальных авторов.


QUOTE
А автор кто?


--------------------
www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!
PMEmail PosterUsers Website
Top
VAL
Дата 21.05.2019 00:03
Quote Post
Offline



Мэтр, проФАН любви... proFAN of love
*****

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004





QUOTE
Работа с брендом

Мы применили технику Fuzzy String Matching на весь корпус текстов и попытались найти упоминания бренда и его продуктов во всех текстах.

Fuzzy String Matching основана на анализе расстояния Левенштейна, которое указывает на буквенные различия в словах. Строго говоря, расстояние Левенштейна определяет минимальное количество изменений одного символа (его удаления, замены, добавления), необходимых для превращения одного слова в другое. Расстояние, полученное с помощью модуля Python fuzzywuzzy, нормировано в диапазоне от 0 до 100. Таким образом, абсолютно различные слова будут иметь меру похожести, равную 0, а тождественные слова будут иметь меру похожести, равную 100. Например, в бородатом анекдоте о разнице между хлебом и пивом мера похожести будет равна нулю: чтобы из хлеба получить пиво, нужно заменить все четыре буквы.

Необходимо отметить, что нам повезло с названиями продуктов бренда, т.к. они не были односложными (как известное мыло «Удав»), а состояли из нескольких слов, по которым можно было понять тип и отчасти назначение продукта, например, «Масло для лица Баба Яга». Fuzzy String Matching позволяет с соответствующими настройками отлавливать частичное упоминание, например, «Face Oil», и мы пытались на этом играть.

Посты, в которых искомый продукт упоминался на 90% по метрике Fuzzy String Matching, отмечались в качестве «хороших». У бренда было около 100 продуктов, таким образом каждая статья проходила проверку для каждого продукта более 100 раз.


--------------------
www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!
PMEmail PosterUsers Website
Top
VAL
Дата 19.11.2023 10:12
Quote Post
Offline



Мэтр, проФАН любви... proFAN of love
*****

Профиль
Группа: Администраторы
Сообщений: 37820
Пользователь №: 1
Регистрация: 6.03.2004





:doh:


--------------------
www.valinfo.ru
Всегда... Always....
Quod licet jovi, non licet bovi!
PMEmail PosterUsers Website
Top
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Topic Options Reply to this topicStart new topicStart Poll