Понимание топологического анализа данных (теория графов)

DB-LSH: хэширование с учетом местоположения с динамическим группированием на основе запросов (arXiv)

Аннотация. Среди многих решений многомерной задачи поиска приближенных ближайших соседей (ANN) хэширование с учетом местоположения (LSH) известно сублинейным временем запроса и надежной теоретической гарантией точности запроса. Традиционные методы LSH могут быстро генерировать небольшое количество кандидатов из хеш-таблиц, но страдают от больших размеров индексов и проблем с границами хэшей. Недавние исследования, направленные на решение этих проблем, часто влекут за собой дополнительные накладные расходы для выявления подходящих кандидатов или устранения ложных срабатываний, в результате чего время запроса больше не является сублинейным. Чтобы решить эту дилемму, в этой статье мы предлагаем новую схему LSH под названием DB-LSH, которая поддерживает эффективный поиск ANN для больших наборов данных высокой размерности. Он организует спроецированные пространства с многомерными индексами, а не с использованием хэш-сегментов фиксированной ширины. Наш подход может значительно снизить затраты на пространство, поскольку позволяет избежать необходимости поддерживать множество хеш-таблиц для разных размеров сегментов. На этапе запроса DB-LSH небольшое количество высококачественных кандидатов может быть эффективно сгенерировано за счет динамического построения гиперкубических сегментов на основе запросов с требуемой шириной с помощью оконных запросов на основе индексов. Для набора данных из n d-мерных точек с коэффициентом аппроксимации c наш строгий теоретический анализ показывает, что DB-LSH обеспечивает меньшую стоимость запроса O(nρ∗dlogn), где ρ∗ ограничено 1/cα, а граница равна 1/ c в существующей работе. Широкий спектр экспериментов с реальными данными демонстрирует превосходство DB-LSH над современными методами как по эффективности, так и по точности.

2. BCD: межархитектурный эксперимент с базой данных для сравнения двоичных файлов с использованием алгоритмов хеширования с учетом местоположения (arXiv)

Автор:Хаокси Тан

Аннотация. Имея двоичный исполняемый файл без исходного кода, трудно определить, что делает каждая функция в двоичном файле, путем обратного проектирования, и еще сложнее без предварительного опыта и контекста. В этой статье мы выполнили сравнение эффективности различных функций хеширования при обнаружении похожих расширенных фрагментов кода LLVM IR, а также представили разработку и реализацию платформы для кросс-архитектурной базы данных поиска подобия двоичного кода с использованием MinHash в качестве выбранного алгоритма хеширования. через SimHash, SSDEEP и TLSH. Мотивация состоит в том, чтобы помочь реинжинирингу быстро получить контекст функций в неизвестном двоичном файле, сравнив его с базой данных известных функций. Код для этого проекта с открытым исходным кодом, его можно найти по адресу https://github.com/h4sh5/bcddb.

3. Агрегированная нелинейная матрица соседства с факторингом с учетом местоположения для онлайн-анализа разреженных больших данных (arXiv)

Автор:Цысюань Ли, Хао Ли, Кэнли Ли, Фань Ву, Лидия Чен, Кецинь Ли

Аннотация:Матричная факторизация (MF) может извлекать признаки низкого ранга и интегрировать информацию о распределении множества данных из многомерных данных, которые могут учитывать информацию о нелинейных окрестностях. Таким образом, MF привлекла широкое внимание к низкоранговому анализу разреженных больших данных, например, рекомендательных систем совместной фильтрации (CF), социальных сетей и качества обслуживания. Однако существуют следующие две проблемы: 1) огромные вычислительные затраты на построение матрицы сходства графов (GSM) и 2) огромные накладные расходы памяти для промежуточной GSM. Следовательно, MF на основе GSM, например, MF ядра, регуляризованный графом MF и т. д., не могут быть непосредственно применены к низкоранговому анализу разреженных больших данных на облачных и пограничных платформах. Чтобы решить эту трудноразрешимую проблему для анализа разреженных больших данных, мы предлагаем агрегированное MF с учетом местоположения (LSH) (LSH-MF), которое может решить следующие проблемы: 1) Предлагаемая вероятностная проекционная стратегия LSH-MF позволяет избежать построения GSM. Кроме того, LSH-MF может удовлетворить требования точной проекции разреженных больших данных. 2) Для запуска LSH-MF для тонкого распараллеливания и онлайн-обучения на графических процессорах мы также предлагаем CULSH-MF, который работает с распараллеливанием CUDA. Экспериментальные результаты показывают, что CULSH-MF может не только сократить время вычислений и объем памяти, но и получить более высокую точность. По сравнению с моделями глубокого обучения, CULSH-MF может не только сэкономить время обучения, но и добиться такой же точности.

4. Сублинейная итерация по методу наименьших квадратов с помощью локального хеширования (arXiv)

Автор:Аншумали Шривастава, Чжао Сун, Чжаочжуо Сюй

Аннотация: мы представляем первые доказуемые алгоритмы итерации по методу наименьших квадратов (LSVI), сложность выполнения которых сублинейна по количеству действий. Мы формулируем процедуру оценивания функции ценности в итерации ценности как приближенную задачу поиска максимального внутреннего продукта и предлагаем хеширование, чувствительное к локальности (LSH) [Indyk and Motwani STOC'98, Andoni and Razenshteyn STOC'15, Andoni, Laarhoven, Razenshteyn and Waingarten SODA '17] структура данных типа для решения этой проблемы с сублинейной временной сложностью. Кроме того, мы строим связи между теорией приближенного поиска максимального внутреннего продукта и анализом сожалений обучения с подкреплением. Мы доказываем, что с нашим выбором коэффициента аппроксимации наши сублинейные алгоритмы LSVI сохраняют то же сожаление, что и исходные алгоритмы LSVI, при этом уменьшая сложность выполнения до сублинейной по количеству действий. Насколько нам известно, это первая работа, в которой LSH сочетается с обучением с подкреплением, что приводит к доказуемым улучшениям. Мы надеемся, что наш новый способ объединения структур данных и итеративного алгоритма откроет двери для дальнейшего изучения снижения затрат при оптимизации.

5. Для многообразного обучения глубокие нейронные сети могут быть хэш-функциями, чувствительными к местоположению (arXiv)

Автор:Нишант Диккала, Гал Каплун, Рина Паниграхи

Аннотация: хорошо известно, что обучение глубоких нейронных сетей дает полезные представления, которые фиксируют основные характеристики входных данных. Однако эти представления мало изучены в теории и на практике. В контексте обучения с учителем важный вопрос заключается в том, фиксируют ли эти представления признаки, информативные для классификации, при этом отфильтровывая неинформативные зашумленные. Мы исследуем формализацию этого вопроса, рассматривая порождающий процесс, в котором каждый класс связан с многомерным многообразием, а разные классы определяют разные многообразия. В этой модели каждый ввод производится с использованием двух скрытых векторов: (i) «идентификатора многообразия» γ и; (ii) ~ «параметр преобразования» θ, который сдвигает примеры по поверхности многообразия. Например, γ может представлять собой каноническое изображение собаки, а θ может обозначать вариации позы, фона или освещения. Мы предоставляем теоретические и эмпирические доказательства того, что нейронные представления можно рассматривать как LSH-подобные функции, которые отображают каждый вход во вложение, которое является функцией исключительно информативного γ и инвариантно к θ, эффективно восстанавливая идентификатор многообразия γ. Важным следствием такого поведения является одноразовое обучение невидимым классам.

Новичок в трейдинге? Попробуйте криптотрейдинговых ботов или копи-трейдинг

Понимание топологического анализа данных (теория графов)

Вопросы по теме