Методология

Ростелеком

Особенностью данного исследования является использования в его основе искусственного интеллекта (машинного обучения), превалирование методов автоматического количественного анализа над работой экспертов в целях недопущения субъективных оценок и обеспечения достоверности результатов. Эксперты вовлекались для осуществления минимального количества операций, например, в части удаления наиболее общих трендов (таких как Software, Hardware) и расширения описания тренда синонимами (таких как SDN, Software Defined Network). Использование цифровых технологий позволяет существенно расширить исследуемую выборку, обеспечивая высокую степень достоверности результатов, а также существенно сократить срок обработки исходных данных, тем самым представляя результаты и рекомендации для принятия управленческих решений.

Исследование основано на анализе первичных источников, преимущественно текстовых. Текстовые поля и метаданные источников собраны с использованием API и выкачивающих роботов. Для получения структурированных данных из полученных массивов применяется машинный лингвистический анализ, а также анализ частоты упоминаний того или иного направления технологического развития и сферы его применения.

Преимущества использования цифровых технологий
Рис.: Преимущества использования цифровых технологий при анализе трендов цифровизации

Этапы исследования:

1 этап. Нормализация

Все анализируемые словосочетания на первоначальном этапе приводятся к нормальному, заранее определенному виду.

2 этап. Выделение трендов

Этот этап подразумевает выделение направлений технологического развития:

  • на входе получен перечень из более чем 2 тыс. первичных трендов, основанный на поиске ключевых слов в научных публикациях;
  • список первичных трендов автоматически расширен на основе лингвистического анализа других источников (патенты, финансовая информация). Результат — список трендов (около 3 тыс.);
  • на основе методов машинного обучения (с использованием вероятностных моделей) проведено автоматическое слияние семантически наиболее близких полученных трендов (например, тренды OpenFLOW и NFV были слиты с трендом SDN). Результат — список 200 трендов;
  • для устранения неточностей, допущенных в ходе предыдущего этапа, полученные тренды верифицированы экспертами в сфере информационно-коммуникационных технологий, уточненный перечень сократился до 150 трендов;
  • на основе метрик семантической близости перечень трендов был дополнен синонимичными выражениями (например, Software Defined Network для тренда SDN).
Порядок выявления трендов
Рис.: Порядок выявления трендов

3 этап. Сопоставление

На этом этапе список трендов сопоставляется с трендами, характерными для каждого документа (научными публикациями, патентами, финансовой информацией, публикациями СМИ).