Создание ценности в конвейерах данных

Понимание того, как данные могут обрабатываться и монетизироваться на каждом этапе конвейера данных

Специалисты по данным всегда находятся в поиске новых и инновационных способов использования данных. Данные используются для понимания мира и прогнозирования будущего, а применительно к ИИ данные становятся основой обучения алгоритмов машинного обучения. Они направлены на изучение точной модели мира в конкретных сценариях и приложениях, таких как робототехника, медицинская диагностика, финансы и другие приложения, которые могут привести к позитивным изменениям.

Чтобы быть точными и обеспечивать убедительные деловые и операционные результаты, модели машинного обучения требуют не только значительного объема данных, но и высококачественных данных, предоставляемых через высокоэффективные и масштабируемые конвейеры. Точно так же, как здоровое сердце нуждается в кислороде и надежном кровотоке, двигателям AI/ML нужен постоянный поток очищенных, точных и надежных данных.

В настоящее время данные являются большим препятствием для создания систем ИИ. Высококачественные тщательно подобранные данные редко доступны. Это привело к тому, что данные разрознены, а извлечение ценности сосредоточено в руках нескольких доминирующих игроков, что препятствует масштабным инновациям.

Необходимость на данный момент состоит в том, чтобы продвигать суверенитет данных и направлять экономику данных из ее прежнего затененного и непрозрачного состояния в состояние, которое способствует децентрализованному обмену данными и прозрачности.

Понимание того, как можно обрабатывать данные, является первым шагом к достижению этой цели.

В этой статье мы рассмотрим различные этапы подготовки данных и посмотрим, насколько ценен каждый этап конвейера данных.

Конвейер данных относится к действиям по обработке данных, которые выполняют расширенный поиск, обработку, преобразование и загрузку данных.

Этап 1. Извлечение данных

Извлечение данных является важным шагом в конвейерах обработки данных. Он включает в себя извлечение данных из необработанных источников данных и подготовку их для дальнейшего анализа. Источники данных могут включать контент из баз данных, файлов, веб-страниц или блокчейнов. Доступность этого позволяет нам начать путь данных к машинному обучению.

Подсказка: для извлечения ончейн-данных посетите Messari Subgraphs

Этап 2. Обработка данных

Этот этап включает очистку и форматирование данных для дальнейшего анализа или использования. В случае данных, применяемых к торговле, специалист по данным может взять данные свечей и вывести из них медианное значение. Они могут выполнять некоторую нормализацию очистки и преобразовывать необработанные данные (открытие, максимум, минимум, закрытие, объем) в обработанные данные (среднее значение). Существует бесконечное количество способов обработки данных, каждый со своим вариантом использования и значением.

Этап 3. Преобразование данных

Чтобы получить максимальную отдачу от данных, важно правильно преобразовать их. После обработки данных специалисты по данным могут извлекать векторы признаков. Например, может быть интересно определить, являются ли прошлые стоимости акций информативными для их будущей стоимости. Для этого широко используются базовые преобразования, такие как скользящее среднее (MA). Исследователи данных используют многие другие типы преобразований для извлечения ценной информации из данных, включая, среди прочего, нелинейные преобразования и многомерные расширения. ,.

Учитывая широкий спектр преобразований, доступных для извлечения признаков из данных, обычной практикой является создание как можно большего числа признаков, а затем ранжирование их в соответствии с их предсказательной силой. Когда доступно достаточно данных, извлечение/выбор признаков можно напрямую включить в модель машинного обучения во время обучения.

Этап 4. Обучение и тестирование модели

Это когда модель начинает обретать форму. Функции, извлеченные на этапе преобразования данных, предварительно выбираются на основе метрики производительности, которая показывает, насколько хорошо каждая функция помогает делать правильные прогнозы. Во время обучения модели параметры модели изучаются таким образом, чтобы минимизировать ошибку прогнозирования. Качество полученной модели зависит от выбранной модели, а также от качества и количества предоставленных данных/функций. Это аналогично тому, как ребенок учится говорить: чем больше он слушает правильно говорящих других взрослых, тем больше его языковые области мозга настроены на точное воссоздание речи.

Этап 5. Развертывание модели

Наконец, когда приходит время и модель обучена, мы используем эту модель для прогнозирования новых данных, когда целевая переменная неизвестна. Через этот конвейер проходит больше данных, которые принимаются и используются для получения более точного прогноза.

Как объяснялось выше, каждый набор данных требует обработки, прежде чем он сможет пройти следующую фазу конвейера данных. Поскольку для осуществления таких преобразований тратятся время и знания, ценность можно извлечь из каждого отдельного набора данных.

Более того, если наборы данных остаются свежими, а значит, постоянно очищаются, улучшаются и расширяются, то со временем могут быть разработаны многочисленные идеи и торговые стратегии, что сделает эти наборы данных чрезвычайно ценными.

В среде с открытым исходным кодом люди могут публиковать любые активы данных независимо от уровня преобразования. Например, можно сделать доступными только необработанные данные для пользователей. В качестве альтернативы, чтобы сэкономить время и пропустить начальные этапы конвейера очистки данных, пользователи могут решить купить чьи-то будущие векторные данные и заплатить за них дополнительную плату.

Итог: в конвейере данных существует множество различных точек, в которых может происходить вычисление данных, и на каждом этапе будет создаваться ценность для публикации этого актива данных, будь то необработанные данные или высокоточная прогностическая модель.

Поскольку проблемы с данными являются первым внутренним пользователем Ocean.py, мы стремимся расширить функции, доступные вместе с сообществом, и изучить различные способы извлечения пользы из всех этапов конвейера данных.

Серия Прогноз данных ETH предоставляет прекрасную возможность использовать технологии Ocean и ресурсы, которые сообщество создало вокруг них.

Ocean Market предоставляет широкий выбор наборов данных и возможность монетизировать данные и алгоритмы прогнозов, сохраняя при этом суверенитет над ними в полностью децентрализованной среде.

О протоколе Ocean

Ocean Protocol — это децентрализованная платформа для обмена данными, возглавляющая движение за демократизацию ИИ, устранение разрозненных хранилищ данных и открытый доступ к качественным данным. Интуитивная рыночная технология Ocean позволяет публиковать, обнаруживать и использовать данные безопасным и конфиденциальным образом, возвращая власть владельцам данных. Ocean находит компромисс между использованием личных данных и рисками их раскрытия.

Подпишитесь на Ocean Protocol в Twitter, Telegram или GitHub. И общаться напрямую с сообществом Ocean в Discord.

Создание ценности в конвейерах данных

Понимание того, как данные могут обрабатываться и монетизироваться на каждом этапе конвейера данных

Вопросы по теме