Прогнозирование данных Elasticsearch для предсказания будущих возможностей

Что такое эластичное машинное обучение?

Методы машинного обучения используются для анализа ваших данных и построения моделей их моделей поведения. Тип анализа, который вы выберете, будет зависеть от тем или проблем, которые вы хотите решить, и от того, какие данные вы имеете в своем распоряжении.

Типы машинного обучения

Контролируемое машинное обучение.
Неконтролируемое машинное обучение.

Неконтролируемое машинное обучение

Обнаружение аномалий и обнаружение выбросов — это два типа анализа, которые могут определять закономерности и отношения в ваших данных без обучения или вмешательства человека.

Данные временных рядов необходимы для обнаружения аномалий. Он строит вероятностную модель и может работать непрерывно, чтобы отслеживать странные события по мере их возникновения. Модель меняется со временем; вы можете предсказать будущее поведение, используя его идеи.

Данные временных рядов не нужны для обнаружения выбросов. Изучая близость каждой точки данных к другим точкам и плотность кластера точек вокруг нее, этот тип аналитики фрейма данных находит выбросы в наборе данных.

Контролируемое машинное обучение

Подмножеством машинного обучения и искусственного интеллекта является контролируемое обучение, обычно называемое контролируемым машинным обучением. Его отличает то, как он обучает компьютеры точной классификации данных или прогнозированию результатов с использованием помеченных наборов данных.

Существует два типа аналитики фреймов данных, для которых требуются обучающие наборы данных: классификация и регрессия.

Чтобы прогнозировать дискретные категориальные значения, например, исходит ли запрос DNS из враждебного или безопасного домена, классификация изучает связи между вашими точками данных.

Регрессия использует ассоциации, обнаруженные между вашими точками данных, для прогнозирования постоянно меняющихся числовых переменных, таких как время, необходимое веб-запросу для ответа.

Прогнозировать будущее поведение

После того как задание по обнаружению аномалий создаст базовые показатели нормального поведения для ваших данных, вы можете использовать эту информацию для экстраполяции будущего поведения.
Вы также можете использовать его для оценки вероятности того, что значение временного ряда произойдет в будущем. Например, вы можете захотеть определить, насколько вероятно, что использование вашего диска достигнет 100 % до конца следующей недели.
Каждый прогноз имеет уникальный идентификатор, который можно использовать для различения прогнозов, созданных в разное время.
При создании прогноза вы указываете его длительность, которая указывает, насколько далеко прогноз выходит за пределы последней обработанной записи. По умолчанию продолжительность составляет 1 день.
Как правило, чем дальше в будущее, которое вы прогнозируете, тем ниже становятся уровни достоверности (то есть границы увеличиваются). В конце концов, если уровни достоверности слишком низкие, прогноз останавливается.

Неподдерживаемые конфигурации прогнозов

Существуют некоторые ограничения, влияющие на возможность создания прогноза:

Вы можете создать только три прогноза для каждого задания обнаружения аномалий одновременно. Количество прогнозов, которые вы сохраняете, не ограничено. Существующие прогнозы не перезаписываются при создании новых прогнозов. Скорее, они автоматически удаляются по истечении срока их действия.
Если вы используете свойство over_field_name в задании по обнаружению аномалий (то есть это задание заполнения), вы не можете создать прогноз.
Если вы используете какую-либо из следующих аналитических функций в своем задании по обнаружению аномалий, вы не можете создать прогноз:
lat_long
редкий и freq_rare
time_of_day и time_of_week

Настройка функций машинного обучения

Обзор требований

Чтобы использовать функции машинного обучения Elastic Stack, вам необходимо:

активирован соответствующий уровень подписки или бесплатный пробный период
Для xpack.ml.enabled установлено значение по умолчанию true на каждом узле в кластере (см. Параметры машинного обучения в Elasticsearch).
значение ml, определенное в списке node.roles на узлах машинного обучения
функции машинного обучения, видимые в пространстве Kibana
привилегии безопасности, назначенные пользователю, который:
предоставить использование функций машинного обучения и
предоставить доступ к исходным и конечным индексам.

Привилегии безопасности

Назначение прав безопасности влияет на доступ пользователей к функциям машинного обучения. Рассмотрим две основные категории:

Пользователь API Elasticsearch: использует клиент Elasticsearch, cURL или Kibana Dev Tools для доступа к функциям машинного обучения через API Elasticsearch. Для этого требуются привилегии безопасности Elasticsearch.
Пользователь Kibana: использует функции машинного обучения в Kibana и не использует Dev Tools. Для этого требуются либо привилегии функций Kibana, либо привилегии безопасности Elasticsearch, и предоставляется наиболее разрешительная комбинация обоих. Привилегии функции Kibana рекомендуются, если вы контролируете видимость уровня задания с помощью Spaces.

Мы можем настроить эти привилегии в разделе «Управление стеком» › Безопасность в Kibana или через соответствующие API безопасности Elasticsearch.

Пользователь API Elasticsearch

Если вы используете API машинного обучения, у вас должны быть следующие права доступа к кластеру и индексу:

Для полного доступа:

встроенная роль machine_learning_admin или эквивалентные привилегии кластера
чтение и просмотр_index_metadata исходных индексов
чтение, управление и индексирование целевых индексов (только для заданий аналитики фреймов данных)

Для доступа только для чтения:

встроенная роль machine_learning_user или эквивалентные привилегии кластера
привилегии чтения индексов исходных индексов
привилегии чтения индексов для целевых индексов (только для заданий аналитики фреймов данных)

Кибана безопасность

Видимость функций в Spaces

В Kibana функции машинного обучения должны быть видны в вашем пространстве. Чтобы контролировать, какие функции видны в вашем пространстве, используйте Управление стеком › Kibana › Spaces.

В дополнение к привилегиям индексирования представления исходных данных также должны существовать в том же пространстве, что и ваши задания машинного обучения. Их можно настроить в Stack Management › Kibana › Представления данных.

Каждое задание машинного обучения и обученную модель можно назначить всем, одному или нескольким пространствам. Это можно настроить в Stack Management › Alerts and Insights › Machine Learning. Вы можете редактировать пространства, которым назначено задание или модель, щелкая значки в разделе «Пространства».

Пользователь Кибаны

В пространстве Kibana для полного доступа к функциям машинного обучения вы должны иметь:

Машинное обучение: все привилегии Kibana
Управление представлениями данных: все привилегии функций Kibana
привилегии read и view_index_metadata для ваших исходных индексов
представления данных для ваших исходных индексов
права просмотра данных, чтения, управления и индексирования индексов в целевых индексах (только для заданий аналитики фреймов данных)

В пространстве Kibana для доступа только для чтения к функциям машинного обучения вы должны иметь:

Машинное обучение: чтение привилегий Kibana
представления данных для ваших исходных индексов
привилегия чтения индекса для ваших исходных индексов
просмотры данных и привилегии чтения индексов для целевых индексов (только для заданий аналитики фреймов данных)

Функция визуализатора данных

В пространстве Kibana для загрузки и импорта файлов в визуализаторе данных вам необходимо:

Машинное обучение: чтение или открытие: все привилегии функций Kibana
Управление представлениями данных: все привилегии функций Kibana
встроенная роль ingest_admin или привилегия кластера manage_ingest_pipelines
права на создание, создание_индекса, управление и чтение индексов для целевых индексов

Как настроить прогнозирование данных практически..

Шаг 1 → добавьте образец файла данных в формате csv. Вам нужно выбрать таблицу данных на основе времени

Шаг 2 → Создать задание для обнаружения аномалии

1 → Выберите загруженный файл данных

2 → выберите «Одна метрика»

3 → нажмите использовать полные данные

4 → выбрать поля

5 → введите идентификатор задания

6 → в сводном разделе нажмите «Создать задание»

7 → когда процесс завершится, нажмите «Начать выполнение задания в режиме реального времени»

8 → Посмотреть результаты

9 → Нажмите «Прогноз» и добавьте даты

10 → теперь вы можете видеть данные прогноза

Желтая линия на диаграмме представляет прогнозируемые значения данных. Заштрихованная желтая область представляет границы прогнозируемых значений, что также указывает на достоверность прогнозов.
При создании прогноза вы указываете его длительность, которая указывает, насколько далеко прогноз выходит за пределы последней обработанной записи. По умолчанию продолжительность составляет 1 день.

Прогноз с мультиметрическим представлением

Шаг 1 → Выберите файл данных

Шаг 2 → выберите представление с несколькими показателями

Шаг 3 → на шаге временного диапазона нажмите «использовать данные заполнения».

Шаг 4 → в разделе «Выбрать поля» добавьте несколько показателей с помощью раскрывающегося меню.

Шаг 5 → после добавления мультиметрики вы переходите в другой раздел на этой странице.

Шаг 6 → вы должны выбрать одного или трех влиятельных лиц. не используйте более трех

Влиятельные лица — выберите, какие категориальные поля влияют на результаты. Кого/что вы могли бы «обвинить» в аномалии? Порекомендуйте 1–3 влиятельных лиц.

Шаг 7 → используйте правильный идентификатор задания в разделе сведений о задании и описании.

Шаг 8 → если вы правильно выполнили вышеуказанные шаги, вы можете увидеть сообщения зеленого цвета, как показано ниже.

Шаг 9 → создать и просмотреть результаты

Шаг 10 → с помощью выпадающего меню детектора вы можете использовать разные метрики

Шаг 11 → прогноз данных с разными показателями

Шаг 12 → теперь вы можете изменить тип детектора и проверить детали прогноза

Вы можете увидеть данные в соответствии с влиянием

Шаг 13 → после добавления прогноза вы можете увидеть детали прогноза в нижней части

Заключение:

Этот метод прогнозирования помогает нам получить представление о будущем поведении. Прогнозирование позволяет компаниям ставить разумные и измеримые цели на основе текущих и исторических данных. Наличие точных данных и статистики для анализа помогает предприятиям решить, какое количество изменений, роста или улучшений будет определяться как успех.