Проекты

Разработали систему ранжирования видео

Кейс использования технологий data science

Разработали систему ранжирования видео

Коротко о проекте

  • 01
    Заказчик

    Видеоплатформа с контентом для взрослых зарабатывает на показах рекламы

  • 02
    Проблема

    Система ранжирования на сайте работает плохо. В топе выдачи оказываются видео, которые люди не хотят смотреть.

    Если пользователи не кликают на ролик, они не смотрят рекламу, а платформа не получает вознаграждения

  • 03
    Задача

    Использовать данные о поведении пользователей, чтобы улучшить выдачу контента и повысить просмотры рекламы

  • 04
    Результат
    • Разработали новую систему рейтинга
    • Добавили категории для поиска видео
    • Создали дашборд для отслеживания рейтингов заказчиком
    • Заказчик отметил рост просматриваемости видео

Заказчик: платформа с видео зарабатывает на показах рекламы

Канадская компания владеет платформой с контентом для взрослых. Компания не снимает собственные видео, а собирает видеоролики с сайтов-источников.

Скриншот главной страницы платформы
На сайте заказчика собрано более 13 миллионов видео от создателей контента

Когда посетитель кликает на превью ролика, открывается новая вкладка — агрегатор перенаправляет его на сайт владельца контента. Там пользователь выполняет целевые действия: переходит по ссылкам, смотрит ролики и рекламу. Платформа получает за это вознаграждение.

Чем более качественные и интересные ролики предлагает платформа, тем дольше остается посетитель на сайте-источнике и тем больше рекламы он успевает посмотреть. Чтобы предлагать пользователям самый лучший контент, нужна система ранжирования, которая будет сортировать ролики на сайте по популярности.

Проблема: зрителям не интересны видео, которые попадают в топ выдачи

Компания настроила систему сбора big data, которая фиксирует информацию о пользователях: например, из каких стран они заходят на платформу, какие ролики система им предлагает, какие из них люди смотрят. На основе этих данных компания построила систему ранжирования.

После анализа выяснилось, что в топе выдачи оказывались не самые качественные и интересные ролики: посетители видели их, но не кликали. Если пользователи не смотрят видео, они не выполняют рекламные действия и прибыль компании снижается.

Задача: улучшить систему ранжирования

Компания обратилась в OrbitSoft, чтобы мы улучшили выдачу контента на платформе. Если система ранжирования будет предлагать первыми самые интересные видео, просмотров и прибыли с рекламы у заказчика будет больше.

Нам предстояло выяснить, почему старая система ранжирования не выполняла своих задач, и разработать новую систему: использовать собранную статистику, чтобы обучить AI выбирать ролики, которые зрители захотят посмотреть.

В практике OrbitSoft есть и другие кейсы применения методов data science для обработки big data и обучения AI.

Например, в статье «Как data science экономит сотни часов рабочего времени» рассказываем, как для этого же заказчика мы написали модуль на Python, который оценивает качество изображений. Это позволило удалить все размытые превью на платформе и еще больше увеличить число просмотров.
Для другого заказчика мы разработали модуль прогнозирования кликабельности на основе AI и помогли увеличить эффективность рекламных кампаний на 20%.

Провели анализ старой системы ранжирования

Чтобы разобраться, почему старая система ранжирования выдавала плохой результат, мы решили воспроизвести ее работу. Для этого взяли доверительный интервал Вильсона — это алгоритм, который применяют для сортировки контента на основе оценок пользователей.

Зрители контента для взрослых обычно не ставят оценки, поэтому мы доработали формулу с учетом той статистики, которая была у заказчика: показы и клики. Если пользователь кликнул на ролик, считаем это положительной оценкой. В расчет мы брали только те ролики, которые набрали 500 показов либо 2 клика.

формула доверительного интервала распределения Эдвина Вильсона
С помощью доверительного интервала распределения Эдвина Вильсона рассчитывают рейтинги

Результаты оказались такими же, как у старой системы ранжирования. Алгоритм присуждал высокий рейтинг роликам плохого качества. Причем чем дольше брали временной интервал для исследования, тем больше появлялось необъяснимых результатов.

Мы проанализировали возможные причины и обнаружили несколько проблем:

  • Часть аудитории не заинтересована. Платформа размещает рекламу на внешних ресурсах, чтобы привлечь посетителей. Однако не всегда такая реклама приводит заинтересованную аудиторию. Например, одна референсная ссылка вела с интернет-магазина средств по борьбе с насекомыми. Люди переходили оттуда на сайт со взрослым контентом и сразу закрывали его. Система ранжирования засчитывала показы видеороликов, но кликов по ним не было.
  • Поведение аудитории непредсказуемо. Зрители контента для взрослых ведут себя иначе, чем те же самые люди при просмотре видео на других развлекательных ресурсах вроде YouTube или TikTok. В их поведении трудно установить закономерности. Так, по времени посещения, регионам и странам были периоды как частых посещений, так и нулевых. Также мы отметили много необъяснимых случаев роста рейтинга. Например, ролик очень плохого качества вдруг набирал 90 000 кликов.
  • Статистика неполная. В базу данных поступало только 70% информации. Ошибочных данных не было, но некоторые действия пользователей не фиксировались. Например, платформа показала посетителю 30 роликов, а в статистику попали только 5.

Мы сделали вывод, что учитывать только клики и просмотры для ранжирования видео недостаточно. Нужно учитывать больше параметров, например страну расположения пользователя, разделы, в которых он ищет видео.

Разработали новую систему ранжирования

Новая система ранжирования внедрена в код платформы и работает совместно с другими решениями и сторонней системой сбора данных. Заказчик отметил рост просматриваемости видеороликов.

Система ранжирования работает так:

  • На главной странице платформы ролики ранжируются в зависимости от региона. Для человека из США список видео будет один, для человека из Китая — другой. Если пользователь заходит через VPN, ему показывают ролики в порядке глобального рейтинга. Он учитывает сумму всех мест в рейтинге по каждой стране с учетом показов, кликов и других параметров.
  • Когда пользователь начинает набирать слово в поисковой строке, система предлагает ему видео с совпадающими названиями и тоже сортирует их по популярности.
  • Рейтинги рассчитываются отдельно по разделам: категориям видео, актерам и каналам. Каждому ролику присваивается несколько URL-адресов, чтобы определить, как пользователь нашел его на сайте. Например, пользователь искал в разделе «Актеры», кликнул на ролик и посмотрел его — в адресе ролика сохраняется этот путь. Теперь для расчета формулы по актерам берутся не все показы этого ролика, а только в связке с параметром «Актеры».

Для удобства заказчика мы разработали дашборд — интерфейс, в котором можно следить за результатами работы системы.

Получите ответ по смс

Ваше сообщение успешно отправлено!
Представьтесь пожалуйста
Укажите номер, на который придет ответ
Нажимая на кнопку, вы даете согласие
на обработку персональных данных.

Перезвонить вам, чтобы ответить на вопросы?

Когда с вами связаться?

Связаться по телефону:+7 499 321-59-32

Нажимая на кнопку, я принимаю условия политики и пользовательского соглашения

Фото эксперта
Дмитрий

Проектный менеджер

Получите ответ на ваш вопрос в любимом мессенджере

Выберите удобный мессенджер и начните диалог прямо сейчас

Telegram WhatsApp

Рассчитать стоимость проекта

Расскажите о вашем проекте, чтобы мы могли проконсультировать вас.

Напишите ваше имя
Укажите ваш email

Выберите удобный для вас способ связи

Мы сразу получим ваш запрос и поможем в решении проблемы

Написать в Telegram

Написать в WhatsApp

Позвонить нам