Введение

Сеть Internet является самой большой в мире компьютерной сетью, объединяющей в единое информационное пространство миллионы компьютеров во всем мире. Число пользователей этой сети удваивается в среднем каждые полгода. Колоссальными темпами растет количество информационных ресурсов, доступных через сеть Internet. Однако существует целый ряд проблем, препятствующих развитию сети, одной из которых является множественность кодировок национальных алфавитов, в частности русского языка.

Кодировкой называется специальное представление всех уникальных символов своими униакльными представлениями, необходимыми для опознования каждого символа.

Текстовая информация хранится в компьютере следующим способом: текст разбивается на символы, включая пробелы, знаки препинания, переходы на другую строку, и перечисляются соответствующие этим символам их номера в таблице символов (она еще называется кодовая страница). То есть каждый символ (букву, восклицательный знак, пробел и др.) компьютер превращает в числа (а затем числа в двоичный код). Мы тоже можем превратить буквы в числа и закодировать так свое письмо, например, буква А - 1, Б - 2, В - 3 и т. д. Только компьтер не выдумывает сам числа, а берет их из кодовой страницы. Понятно, что каждый может придумать свою кодировку, но для общего использования это неудобно: чтобы понять чужой текст надо знать чужую кодовую страницу. Поэтому со временем возникла необходимость в единой стандартной кодировке. Первыми разработали такую кодировку в США, которую назвали ASCII. В ней приведены символы с кодами от 32 до 127 (латинские буквы, цифры, знаки препинания и т. д.), от 0 до 31 управляющие коды (возврат каретки, перевод строки, звонок и т. д.), с помощью которых можно выполнять простейшее форматирование текста. Понятно, что можно составить кодовые таблицы для любого существующего языка.

Например, только кодировок арабского алфавита существует более 30, а кириллического алфавита около 10 (широко используются только 5). Вопрос унификации кодировок неоднократно поднимался на различных конференциях, но пока еще далек от какого-либо решения. Русскоязычные серверы работают во всех широко используемых кодировках, и пользователям сети Internet приходится приспосабливаться к существующему положению. Если опытный пользователь, в принципе, всегда может определить, в какой кодировке работает сервер, и настроить свое программное обеспечение (браузер) на кодировку сервера, то работа поисковых "роботов", которые ориентируются на смысловое содержание текста, наталкивается пока на непреодолимые трудности, связанные с распознаванием текста.

У нас в стране были разработаны собственные кодировки, из которых до наших дней дожила КОИ-8. Фирма IBM создала кодировку, включающую в себя всю ASCII с добавлением символов, использующихся в странах Европы (но не в России) и псевдографических символов для рисования таблиц. В основном в России применяется, так называемая, альтернативная кодировка, за основу которой взята кодировка IBM, только вместо символов стран Европы введены все символы русского алфавита. Обе эти кодировки совместимы с кодировкой ASCII, но не наоборот и не между собой. Фирма Microsoft для операционной системы Windows разработала собственную русскую кодировку ANSI-1251, а альтернативная кодировка (ANSI-866) используется в MS-DOS. В связи с этим возникают проблемы при транспортировки текстов, созданных средствами Windows в MS-DOS и наоборот. Но мощные текстовые редакторы могут работать с разными кодировками.

TBN.ru - ????, ??????? ?? ????????
интересная гинекология. популярное dvd порно доставка только для взрослых