From gena@ps.bkc.com.ua Mon Nov 22 22:25:23 1999
Newsgroups: relcom.sci.philosophy
Subject: Теория информации. Вопросы.
From: "Gennady Ya. Kiss"
Date: Mon, 22 Nov 1999 15:25:23 +0200
--------
Добрый день!

Мне необходимо было сделать обзор по методам сжатия данных. Я решил
копнуть немного глубже и к своему удивлению обнаружил, что в доступных
мне источниках нигде нет четкого определения понятия данных и
информации. То есть в базовых понятиях отсутствует необходимая четкость.

Вопрос по-моему интереснный, и я решил выложить ее для общего
обсуждения.

Кратко изложу имеющиеся результаты (в моей интерпретации).

Пусть есть некий объект и субъект. Субъект делает свои суждения об
объекте на основе ДАННЫХ о нем. Например это могут быть какие либо
измерения или наблюдения. Результат наблюдения называется СООБЩЕНИЕМ. В
теории информации объект называется ИСТОЧНИКОМ информации. Сперва знание
об объекте почти отсутствует, в процессе наблюдений знание накапливается
и в итоге данные перестают нести ИНФОРМАЦИЮ (I), поскольку данные уже
известны. Например, если мы можем в результате изучения источника
предсказать (смоделировать любое сообщение источника) с вероятностью 1,
то мы обладаем полным знанием об объекте и все последующие сообщения
полностью неинформативны (значит I(а|при полном знании)=0 , где а-любые
сообщения).

Таким образом, I - это мера полученного знания об объекте в сообщении (и
накопленного тоже).

I должна обладать следующими свойствами:
1) независит от представления и количества данных.
2) I>=0. Для элементарного сообщения (Да/Нет) I=1. Информация в таком
элементарном сообщении называется БИТ.
3)аддитивна для независимых сообщений источника: Если с=а+b тогда I(c) =
I(а)+I(b)
4) зависит от имеющихся данных (знании) об источнике.

Рассмотрим последний пункт более подробно:
Дальнейшие рассуждения строятся на вероятностных модельных
представлениях об источнике данных. Источник данных всегда можно
представить как результат некоторого марковского процесса. Классический
пример:
Вам надо узнать результат бросания монеты. Вы знаете результат с
вероятностью в 1/2 (априорное знание). После опыта (апостериорно)
вероятность 1, то есть мы будем обладать полным знанием о бросании
монеты. Таким образом мы сняли неопределенность знания в 1/2.

Всякое знание о марковском источнике можно представить в виде
вероятностей и условных вероятностей появления сообщений. Поэтому
информация сообщения - это функция этих вероятностей. Для эргодического
дискретного источника ( или марковского процесса 0-порядка) то есть,
когда все сообщения попарно независимы получаем что I=f(p), где
р-вероятность появления сообщения. Единственная аддитивная функция - это
логарифм, тогда I=-log2(p).

Источники информации делят по видам сообщений на дискретные, дискретные
с конечным алфавитом, континуальные, многомерные - то есть, чем является
пространство сообщений.
Дискретные с конечным алфавитом это напр, естественные языки.
Каждое сообщение такого источника делится на элементарные сообщения -
символы АЛФАВИТА (мн-во элементарных сообщений).
Информацию содержащуюся в сообщениях источника принято измерять
ИНФОРМАЦИОННОЙ ЭНТРОПИЕЙ. Она характеризует алфавит источника в целом, и
говорит о снятой неопределенности в среднем при получении символа.
Численно равна математическому ожиданию (среднему) от I по всем символам
алфавита.
Для марковских процессов более высокого порядка необходимо усреднять по
условным вероятностям.

Для английских текстов энтропия 4.05 бит/символ для модели марковского
источника нулевого порядка, а для второго порядка уже 3.1 бит/символ. А
реально если учитывать логическую связь текста (более высокий порядок
марковости) исследования показали что избыточность английского языка
около 50%., получется всего необходимо от 0.6 до 2 бит на символ для его
кодирования. Наверное первым на проблему избыточности обратил внимание
Самюэль Морзе при кодировании в телеграфе более часто встречающихся
символов более короткими цепочками.
Также например, гласные в основном смысловой нагрузки не несут и их
часто можно опускать совершенно без потери понимания текста.

Вышеизложенное определение информации требует вашей критики. Хотелось бы
увидеть другие определения.
Теперь остановлюсь на вопросах по данной теме, которые возникли у меня.

Проблема 1. Почему "Да/Нет" минимальный элемент дискретной информации,
можно ли это доказать? Отправная идея - существование некоего
элементарного источника информации в которых можно мерять другие
источники.
Проблема 2. Что есть данные и что есть информация? В чем разница?
Некоторые справочники дают, что данные - это информация, подготовленная
к обработке, что противоречит принятым мной определениям.
Также очень сильная зависимость информации от субъекта (модели
источника)
Проблема 3. Кодирование и информация.
Представление сообщения в виде кода называется кодированием. Но что
такое код нет четкого определения. Например, частая цитата:
"Под стоимостью кодирования понимается средняя длина кодового
слова (в битах). Фундаментальная теорема
Шеннона о кодировании источников говорит о том, что стоимость
кодирования всегда не меньше энтропии источника, хотя может быть сколь
угодно близка к ней. Избыточность кодирования равна разности между
стоимостью и энтропией кодирования. Очевидно, что хороший алгоритм
сжатия должен минимизировать избыточность."
Но откуда некое кодовое слово взялось непонятно. Бит-то - мера
информации! Значит кодовое слово тоже рассматривается как информация.
Проблема 4. Возможность передачи сообщений с полной информацией.
Если передана полная информация об источнике, то log(1)=0 и мы об
источнике вообще ничего неузнаем.
Хотя даже в худшем случае мы всегда знаем о возможных состояниях
источника при идее равновероятного появления сообщений, но тогда полную
информацию мы в принципе получить не можем.
Проблема 5. Связь с гносеологией и научным методом.
Всякое знание объекта - это возможность моделирования его действий
(предсказание), построение законов. Видна связь с теорией познания, хотя
бы предметной областью, было бы интересно как теория информации
соотносится с гносеологией.

С уважением, Геннадий.



Built by Text2Html