Прежде всего система должна поймать само упоминание. То есть уметь следить за состоянием сотен, тысяч, десятков тысяч сайтов и страниц. Желательно в реальном времени. Ведь мало кому интересно узнать, что его уже пару дней "мочат" где-нибудь в Facebook
— особенно во времена, когда одним твитом можно
обвалить акции. Такое лучше выявлять в зародыше.
К примеру, в LOOQME говорят о мониторинге более 38 000 источников. "Каждые 15 минут в базу добавляются около 3825 новостей",
— делится данными Виталий Сидоренко, CEO компании. Причем, в одной базе собираются и офлайн- и онлайн-медиа.
Елена Шабунина говорит, что в системе Semantrum на сегодня больше 15 000 открытых веб-источников из различных стран, профили лидеров мнений и публичных страниц пяти социальных сетей.
Да, мониторить в современном изложении = забрать к себе. Система копирует на свои сервера содержимое огромного количества разных интернет-страниц: СМИ, форумов, интернет-магазинов, отзовиков, соцсетей. Вероятно, по отдельным сообщениям. Причем, как говорит Всеволод Гаврилюк из SemanticForce, за одно сообщение считается и одна статья, и один комментарий. В доступном индексе, по словам основателя компании, 5 млрд сообщений. Здесь для сбора даже есть отдельный продукт под названием Kindexer. Эта разработка обрабатывает неструктурированные виды медиа, где нет API. API есть, например, у YouTube, поэтому его относительно легко собрать.
В LOOQME данные собирают в MongoDB, в которой все хранится и ничего не меняется. По словам Виталия Сидоренко, интернет-ресурсы парсятся
(то бишь копируются и структурируются) напрямую, данные из офлайн-медиа забираются из FTP-серверов, а соцсети
— по API. Поисковый движок
— Solr. Он, мол, отлично справляется со сложными запросами.
В YouScan информация собирается через официальные API социальных платформ, а также с помощью собственных технологий сбора данных. Также компания лицензирует часть контента у провайдеров данных, специализирующихся на определенных типах медиа
— например, онлайн-СМИ.
А как же быть с более традиционными источниками: ТВ, радио, печатной прессой?
В Semantrum объясняют, что эта информация закупается у партнеров. Это уже готовые расшифровки аудио, видео и сканированных копий. Издания приходят, разобранные по статьям. Видео и аудио
— по смысловым сюжетам.
"То есть пользователь не читает полотно текста часового выпуска новостей
— видит только тот кусок, внутри которого упоминалась нужная клиенту тема",
— рассказывает Елена Шабунина.