Действительно ли информацией является подмножество данных?

Я приношу извинения, поскольку я не знаю, является ли это большим количеством вопроса о математике, который принадлежит на mathoverflow или если это - вопрос об информатике, который принадлежит здесь.

Тем не менее я полагаю, что понимаю принципиальное различие между данными, информацией и знанием. Мое понимание - то, что информация несет и данные и значение. Одна вещь, на которой я не ясен, состоит в том, являются ли информацией данные. Информацию считают специальным видом данных или является ими что-то совершенно другое?

5
задан Brian Tompsett - 汤莱恩 17 January 2016 в 20:35
поделиться

5 ответов

Слова данные , информация и знание являются концепциями, основанными на ценностях, которые используются для категоризации субъективным образом , общего «краткость» и «полезность» определенного набора информации.
Эти слова не имеют точного значения , потому что они относятся к основной цели и методологии обработки информации; В области теории информации они вообще не имеют значения, потому что все три - одно и то же: совокупность «информации» (в теоретико-информационном смысле).
Тем не менее, они полезны, в контексте , для резюмирования общей природы набора информации, как в общих чертах поясняется ниже.

Информация получается (или иногда индуцируется) из данных, но она может быть богаче, а также более чистой (посредством чего некоторые значения были исправлены) и «более простой» (посредством чего некоторые нерелевантные данные были удалены. ). Таким образом, в смысле теории множеств, Информация - это не подмножество данных , а отдельный набор [который обычно частично пересекается с данными, но также может иметь элементы свой].

Знание (иногда называемое инсайт ) - это еще один уровень выше, он основан на информации и тоже не является подмножеством информации [теории множеств]. Действительно, Знание обычно не имеет прямой ссылки на элементы информации, а скорее рассказывает «метаисторию» об информации / данных.

Необоснованная идея о том, что по цепочке Данные -> Информация -> Знания более высокие уровни являются подмножествами более низких, вероятно, проистекает из того факта, что [обычно] происходит сокращение объема информации [IT sense]. Но качественно эта информация отличается, следовательно, нет реальной связи между подмножествами [теории множеств].

Пример :

  • Исходные данные фондовой биржи с Уолл-стрит - это ... Данные
    «Море данных»! Кому-то сложно напрямую найти то, что ему нужно, из этих данных. Возможно, эти данные необходимо нормализовать. Например, информация о цене иногда может быть выражена в текстовой строке с точностью до 1/32 доллара, в других случаях цены могут быть представлены как истинное двоичное целое число с точностью до 1/8 доллара. Также поле, в котором указывается, например, идентификатор покупателя или идентификатор продавца, может содержать опечатки и, следовательно, указывать на неправильного продавца / покупателя. и т. д.

  • Электронная таблица, созданная на основе вышеизложенного, является ... Информация
    К данным применялись различные процессы:
    -очистка / корректировка различных значений
    {{1 }} -кросс-ссылки (например, поиск связанных кодов, таких как добавление столбца для отображения фактического имени человека / компании рядом со столбцом идентификатора покупателя)
    -слияние при дублировании записей, относящихся к одни и те же события (но, скажем, из разных источников) используются для подтверждения друг друга, но также объединяются в одной записи.
    -агрегирование: например, вычисление суммы всей стоимости транзакции для данной акции (вместо отображения всех отдельных транзакций.
    Все это (и некоторые другие) превратили данные в информацию, то есть в совокупность [IT-смысла] информации, которую легко использовать, где можно быстро найти некоторые "данные", например, например, Открытие и коэффициент закрытия акций IBM на 8 июня 2009 г.
    Обратите внимание, что, хотя он более удобен в использовании, отчасти более точен / точен, а также сводится к минимуму, реальной информации [по мнению ИТ] нет. в них, которые не могут быть обнаружены или вычислены из оригинала относительно простыми (хотя бы кропотливыми) процессами.

  • Отчет финансового аналитика может содержать ... информацию
    Например, если в отчете указано [фиктивный пример], что всякий раз, когда цена на нефть превышает определенный порог, стоимость золота начинает снижаться, но затем снова быстро подскакивает, примерно в то же время цены на кофе и чай стабилизируются. Это конкретное понимание составляет знание. Это знание могло быть скрыто в одних только данных все время, но стало очевидным только тогда, когда кто-то применил какой-то модный статистический анализ и / или потребовал помощи человека-эксперта, чтобы найти или подтвердить такие закономерности.

Между прочим, в смысле слова «информация» в теории информации «данные», «информация» и «знание» содержат информацию [в смысле ИТ].
Можно было бы пойти по скользкой дорожке, заявив, что «По мере того, как мы поднимаемся вверх по цепочке, энтропия уменьшается», но это верно лишь отчасти, потому что

  • уменьшение энтропии напрямую или систематически не связано с "полезность для человека"
    (типичный пример: сжатый текстовый файл имеет меньшую энтропию, но его читать неинтересно)
  • фактически происходит потеря информации (в дополнение к потере энтропии)
    (например, когда данные являются агрегированными, информация [IT sense] об отдельных записях теряется)
  • есть, в частности, в случае Информация -> Знание, изменение уровня абстракции

Заключительный момент (если я еще не запутал всех ...)заключается в том, что цепочка данные-> информация-> знание эффективно относительно предполагаемого использования / цели информации [IT-sense].
ewernli в комментарии ниже приводит пример проверки орфографии, т.е. когда основное внимание уделяется английской орфографии, наиболее проницательная статья гения Уоллстрита представляет собой просто строку слов, фактически «сырые данные», некоторые нуждаются в доработке (по цепочке целей орфографии.
Точно так же лингвист, использующий тысячи газетных статей, которые обычно (мы можем надеяться ...) содержат по крайней мере некоторые идеи / знания (в общий смысл), может просто считать эти статьи необработанными данными, которые помогут ему / ей автоматически создать франко-немецкий лексикон (это будет информация), и в процессе работы над проектом он может обнаружить систематический семантический сдвиг в использовании общие слова между двумя языками и, следовательно, позволяют лучше понять различные культуры.

6
ответ дан 14 December 2019 в 01:06
поделиться

информация является расширением данных:

  • данные инертны
  • информация применима к действию

обратите внимание, что информация без данных - это просто мнение; -)

{ {1}}
1
ответ дан 14 December 2019 в 01:06
поделиться

Сначала определите информацию и данные, очень тщательно.

Что такое информация и что такое данные, очень зависит от контекста. Крайний пример - ваша фотография на вечеринке, которую вы отправляете по электронной почте. Для вас это информация, но для провайдера это просто данные, которые нужно передать.

Иногда просто добавление правильного контекста меняет данные на информацию.

Итак, отвечая на ваш вопрос: Нет, информация не является подмножеством данных. Это может быть как минимум следующее.

  1. Сверхмножество, когда вы добавляете контекст

  2. Подмножество, проблема "иголка в стоге сена"

  3. Функция данных, например, в дайджесте

Возможно, есть и другие ситуации.

1
ответ дан 14 December 2019 в 01:06
поделиться

Информация может быть данными, если у вас есть какой-то способ представления дополнительного содержания, которое делает ее информацией. Программа, которая пытается "понять" письменный текст, может преобразовать входной текст в формат, который позволяет более сложную обработку смысла этого текста. Этот преобразованный формат является своего рода данными, которые представляют собой информацию, если понимать их в контексте общей системы обработки. Извне системы он выглядит как данные, в то время как внутри системы это информация, которую пытаются понять".

0
ответ дан 14 December 2019 в 01:06
поделиться

Вот как я это вижу ...

Данные грязные и сырые. Вероятно, у вас его будет слишком много.

... Jason ... 27 ... Denton ...

Информация - это данные, которые вам нужны, организованные и значимые.

Jason.age=27
Jason.city=Denton

Знания - вот почему существуют вики, блоги: чтобы отслеживать идеи и опыт. Обратите внимание, что это человеческие (и общественные) атрибуты. За исключением, может быть, странного научного проекта, на Facebook нет компьютера, говорящего людям, во что он верит .

1
ответ дан 14 December 2019 в 01:06
поделиться
Другие вопросы по тегам:

Похожие вопросы: