Что означает сокращение размерности?

Question

Что означает сокращение размерности?

Что сокращение размерности означает точно?

Я искал его значение, я просто нашел, что это означает преобразование необработанных данных в более полезную форму. Таким образом, каково преимущество наличия данных в полезной форме, я имею в виду, как я могу использовать его в практической жизни (приложение)?

14

machine-learning artificial-intelligence data-mining terminology

задан hippietrail 3 January 2018 в 11:48

6 ответов

Другие вопросы по тегам:

machine-learning artificial-intelligence data-mining terminology

Похожие вопросы:

score 8 · Answer 1

Вопрос немного расплывчатый, но есть интересная статистическая техника, которая, возможно, и называется Principal Component Analysis, которая делает что-то похожее (и, кстати, чертит результаты, из которых была моя первая задача по программированию в реальном мире)

Это аккуратная, но умная техника, которая удивительно широко применима. Я применил её для определения сходства между белковыми аминокислотными последовательностями, но я видел, как она использовалась для анализа всего, начиная от отношений между бактериями и заканчивая солодовым виски.

Рассмотрим график некоторых атрибутов коллекции вещей, в которой есть две независимые переменные - для анализа отношений по этим двум очевидным графикам в двух измерениях, и вы можете увидеть рассеяние точек. Если у вас три переменные, то вы можете использовать 3D график, но после этого у вас начинает заканчиваться размерность.

В PCA могут быть десятки или даже сотни и более независимых факторов, все из которых должны быть построены по перпендикулярной оси. Используя PCA, человек делает это, а затем анализирует полученный многомерный график, чтобы найти на нем множество двух или трех осей, содержащих наибольшее количество информации. Например, первая главная координата будет представлять собой составную ось (т.е. под каким-то углом в n-мерном пространстве), которая при построении точек вдоль нее будет содержать наибольшее количество информации. Вторая ось перпендикулярна этому (помните, что это n-мерное пространство, поэтому здесь много перпендикуляров), содержащих второй по величине объем информации и т.д.

Построение результирующего графика в 2D или 3D, как правило, дает визуализацию данных, содержащих значительный объем информации в исходном наборе данных. Обычно техника считается действительной при поиске представления, содержащего около 70% исходных данных - достаточно для того, чтобы с некоторой долей уверенности визуализировать отношения, которые в противном случае не были бы видны в исходной статистике. Обратите внимание, что эта техника требует, чтобы все факторы имели одинаковый вес, но учитывая, что это чрезвычайно широко применяемый метод, который заслуживает более широкого распространения и доступен в большинстве статистических пакетов (я работал над ICL 2700 в 1980 году - который примерно так же мощен, как iPhone)

.

score 0 · Answer 2

Это метод извлечения данных из . Его основное преимущество заключается в том, что он позволяет получить визуальное представление многомерных данных. Человеческий мозг бесподобен в обнаружении и анализе закономерностей в визуальных данных, но может обрабатывать максимум три измерения (четыре, если использовать время, то есть анимированные дисплеи) - поэтому любые данные с более чем 3 измерениями должны быть как-то сжаты до 3 (или 2, так как построение данных в 3D часто может быть технически сложным).

BTW, очень простой формой уменьшения размерности является использование цвета для представления дополнительного измерения, например, в тепловых карт.

.

score 0 · Answer 3

Предположим, вы строите базу данных о большой коллекции взрослых людей. Также она будет достаточно подробной. Таким образом, можно сказать, что база данных будет иметь большие размеры.

AAMOF каждая запись в базе данных будет на самом деле включать показатель IQ человека и размер обуви. Теперь давайте притворимся, что эти две характеристики довольно сильно коррелируют. По сравнению с IQ размеры обуви могут быть легко измерены, и мы хотим заполнить базу данных полезными данными как можно быстрее. Единственное, что мы могли бы сделать - это продвинуться вперед и записать размеры обуви для новых записей в базе данных, отложив задачу сбора данных об IQ на потом. Мы все еще могли бы оценить IQ, используя размеры обуви, потому что эти два измерения коррелируют.

Мы бы использовали очень простую форму практического уменьшения размеров, оставив IQ вне записей изначально. Основные компоненты анализа, различные формы факторного анализа и другие методы являются продолжением этой простой идеи.

.

score 35 · Answer 4

Сокращение размерности заключается в преобразовании данных очень высокой размерности в данные гораздо меньшей размерности, так что каждый из нижних размеров передает гораздо больше информации.

Это обычно делается при решении задач машинного обучения, чтобы получить лучшие характеристики для задачи классификации или регрессии.

Есть надуманный пример - Предположим, у вас есть список из 100 фильмов и 1000 человек, и для каждого человека вы знаете, нравится или не нравится каждый из 100 фильмов. Таким образом, для каждого случая (что в данном случае означает каждый человек) у Вас есть двоичный вектор длиной 100 [позиция i равна 0, если человеку не нравится i-й фильм, 1 в противном случае ].
Вы можете выполнять задачи машинного обучения непосредственно по этим векторам... но вместо этого Вы можете выбрать 5 жанров фильмов и, используя уже имеющиеся у Вас данные, выяснить, нравится или не нравится человеку весь жанр, и, таким образом, уменьшить Ваши данные с вектора размера 100 в вектор размера 5 [позиция i равно 1, если человеку нравится жанр i]

Вектор длины 5 можно считать хорошим представителем вектора длины 100, так как большинство людей могут любить фильмы только в предпочитаемых ими жанрах.

Однако он не будет точным представителем, поскольку могут быть случаи, когда человек ненавидит все фильмы какого-либо жанра, кроме одного.

Дело в том, что уменьшенный вектор передает большую часть информации в большом, потребляя при этом намного меньше места и быстрее вычисляя.

score 2 · Answer 5

http://en.wikipedia.org/wiki/Dimension_reduction

возможно, вы слышали о PCA (анализ основных компонентов), который представляет собой алгоритм уменьшения размерности.

Другие включают LDA, методы на основе матричной факторизации и т. Д.

Вот простой пример. У вас много текстовых файлов, и каждый файл состоит из нескольких слов. Файлы можно разделить на две категории. Вы хотите визуализировать файл как точку в 2D / 3D пространстве, чтобы четко видеть распределение. Таким образом, вам нужно уменьшить размер, чтобы передать файл, содержащий много слов, только в 2 или 3 измерения.

score 2 · Answer 6

Размерность измерения чего-либо - это количество чисел, необходимое для его описания. Так, например, число чисел, необходимых для описания расположения точки в пространстве, будет 3 (x,y и z).

Теперь рассмотрим расположение поезда вдоль длинного, но извилистого пути через горы. На первый взгляд может показаться, что это трехмерная задача, требующая определения долготы, широты и высоты. Но это 3 измерения могут быть сведены к одному, если вы просто возьмете расстояние, пройденное по пути с самого начала.

Если вам была дана задача использовать нейронную сеть или какую-либо статистическую технику для предсказания того, как далеко может пройти поезд при определенном количестве топлива, то работать с одномерными данными будет намного проще, чем с трехмерной версией.