Алгоритмы обработки символьной информации на языке Си

жүктеу/скачать 89,27 Kb.

бет	2/6
Дата	19.02.2023
өлшемі	89,27 Kb.
	#69188

1 2 3 4 5 6

Байланысты:
Алгоритмы обработки символьной информации на языке Си

Классификация языка I C

Обширный характер характера

Важным понятием языка является идентификатор (функция, переменная, константа и т. Д.), Используемый в качестве имени объекта. Идентификаторы следует выбирать исходя из следующих правил:

Они должны начинаться с буквы латинского алфавита (a, ..., z, A, ..., Z) или символа подчеркивания (_).
Они могут использовать буквы латинского алфавита, подчеркивание и цифры (0, ..., 9). Использование других символов в идентификаторах запрещено.
В языке C строчные буквы (a ..., z) отличаются от букв верхнего регистра (A, ..., Z), используемых в идентификаторах. Следующие идентификаторы считаются разными: name, NaMe, NAME и так далее. б.
Идентификаторы могут быть любой длины, но только часть символов принимается и используется для различения объектов (функций, переменных, констант и т. Д.). Их количество варьируется для разных систем программирования, но не превышает 32 в соответствии со стандартом ANSI C (в C ++ это ограничение снято). Если длина идентификатора равна 5, то счетчик имен и счетчик совпадают, поскольку их первые пять цифр совпадают.
Идентификаторы новых объектов не должны совпадать с ключевыми словами языка и названиями стандартных функций в библиотеке.
Комментарии играют важную роль в программах на языке C. Они увеличивают наглядность и удобство чтения программ. Комментарии заключены в рамку / * и * /. Вы можете написать их где угодно в программе.
В C ++ есть еще один тип комментариев. Все, что находится после знака // до конца текущей строки, рассматривается как комментарий. Обратите внимание, что компилятор si, включенный в систему программирования Borland C ++, позволяет использовать это определение в программах si.
Программы на C игнорируют пробелы, табуляторы и переводы строк. Это позволяет вам писать различные выражения в удобочитаемом виде. Вы также можете запускать строки программы с любой позиции, что позволяет разделить группу операторов в тексте.
Программы работают с различными данными, которые могут быть простыми и структурированными. Простые данные - это целые и действительные числа, символы и указатели (адреса объектов в памяти). Целых чисел нет, а в действительных числах есть дроби. Структурные массивы данных и структуры; они обсуждаются ниже.
В языке есть понятия «тип данных» и «модификатор типа». Тип данных является, например, целым числом и имеет или не имеет модификатора. Целое число без знака имеет положительные и отрицательные значения, а целое число без знака имеет только положительные значения. В C можно выделить пять основных типов с помощью следующих ключевых слов:
Char-персонаж;
int-целое число;
специфичные для поплавков;
двойная физическая двойная точность;
пустота-не важно.
Даем им краткое описание:
Переменная типа Char имеет размер 1 байт, значениями которой являются разные символы в кодовой таблице, например: 'F', ':', 'j' (при записи в программе они заключаются в кавычки).
Размер переменной Int в стандарте языка C не определен. В большинстве систем программирования переменная типа size типа int соответствует размеру всего машинного слова. Например, компиляторы для 16-битных процессоров имеют переменную типа int размером 2 байта. В этом случае символьные значения этой переменной могут находиться в диапазоне от -32768 до 32767.
Ключевое слово Float позволяет вам определять переменные определенного типа. Их значения имеют дробную часть, разделенную точкой, например: -5,6, 31,28 и так далее. действительные числа также могут быть записаны с плавающей запятой, например: -1.09 e + 4. Число перед буквой «е» называется сан мантиссой, а за буквой «е» следует порядок. Занимает 32 бита памяти переменных с плавающей запятой. Может принимать значения от 3,4 e-38 до 3,4 e + 38.
Ключевое слово Double позволяет указать конкретную переменную двойной точности. Она занимает вдвое больше памяти, чем переменная с плавающей запятой (т.е. 64 бита). Переменные двойного типа могут принимать значения от 1,7 e-308 до 1,7 e + 308.
Ключевое слово Void используется для нейтрализации значения объекта, например, для объявления функции, не возвращающей никакого значения.
Объект может быть изменен на какой-либо базовый тип. Для этого используются специальные ключевые слова, называемые модификаторами. Стандарт Si ansi содержит следующие типы модификаторов:
беззнаковый
подписанный
короткая
длинный
Модификаторы записываются перед типичными спецификаторами, например: unknown char. Если спецификатор не принимается после модификатора, компилятор предполагает, что спецификатор - это int. Таким образом, следующие строки:
длинный а;
long int a;
они одинаковы и определяют форму А как длинное целое. Таблица. Описывает возможные комбинации модификаторов 1 (unsigned, signed, short, long) со спецификаторами (char, int, float и double), а также показывает размер и диапазон значений объекта (для 16-битных компиляторов). Предоставляет текстовую информацию на любом языке программирования. и инструменты для обработки. Другое дело, что программист обычно имеет дело с типом данных (формой представления) - способом, вместе с символами, и скрывает особенности своей организации и предоставляет стандартный набор функций для работы. В C, напротив, форма пути открыта, и программист работает с ней «на низком уровне».
Представление символов и строк в C.
Немного истории. В языке C символы и строки реализованы в соответствии со стандартами представления текста, установленными в 70-х годах прошлого века. Уровень техники того времени привел к тому, что в качестве единицы представления символов был выбран байт с информационной емкостью 28 = 256. Это означает, что программа может отображать не более 256 различных символов одновременно. Этого достаточно для стандартного набора символов и букв латинского алфавита. Для других символов (кириллица, национальные алфавиты, псевдографика, математические) используются другие кодовые таблицы, которые не включены в языковые стандарты (т. Е. Просто не указаны). Точно так же разные операционные системы имеют разные варианты отображения символа «конец строки», что вызывает проблемы с передачей текстовых файлов.
Предупреждение. Исторически сложившееся «рыночное разнообразие» на момент существования стандарта привело к существованию нескольких кодовых таблиц, представляющих кириллицу:
График Windows CP-1251 k;
кодовая таблица dos CP-866;
UNIX, Linux, FreeBSD и др. б. Кодовая таблица ISO-8859-5 Международной организации по стандартизации (ISO), используемая семействами мобильных ОС;
Таблицы «советских» стандартов кодов обмена информацией (КОИ-8) - КП КОИ-8у и КП КОИ-8Р.
Стандартный ввод / вывод. Текстовый файл. Стандартный символьный ввод-вывод, доступный в большинстве языков программирования, соответствует работе программы в режиме командной строки (консольное приложение). Хотя этот режим работы не получил широкого распространения, он остается актуальным для «внутреннего» программирования по следующим причинам:
Работа с текстовыми файлами «записана» в стандартную систему ввода-вывода. Например, в si потоки ввода-вывода могут быть направлены как в текстовый файл, так и в консольный ввод-вывод (экран клавиатуры);
текстовые файлы - это исходные файлы программ (ci-cpp, Pascal-pas, basic-bas), различных приложений (ini), командные файлы (-bat command sequence files) (значительная часть файлов с параметрами);
Если приложения не работают с форматами данных друг друга (не соответствуют данным), то единственным форматом обмена является текстовый файл (пробел, таблица, запятая, точка с запятой, конец строки), разделенный стандартными разделителями числовых (или символьных) данных. Обмен данными через такие файлы называется экспортом-импортом. В Si файлы в этом формате читаются с помощью функций ввода стандартного формата;
Многие приложения (компиляторы, серверные приложения), наряду с оконными интерфейсами, позволяют работать в режиме командной строки и читать управляющие (текстовые) командные файлы.
Текстовый символ. Под базовым типом данных Char понимается тройка: байт - это минимальная адресная единица представления данных на компьютере, целое число со знаком (в диапазоне -127 ... + 127) и текстовый символ. Этот факт отражает общепринятые стандарты предоставления «защищенной» текстовой информации в компьютерной архитектуре (клавиатура, экран, принтер) и системных программах. Стандарт определяет соответствие между символами и присвоенными им целочисленными переменными (кодами). Любое устройство, которое отображает символьные данные, отображает соответствующий символ при получении кода. Точно так же клавиатура (вместе с драйвером) кодирует любое нажатие клавиши в соответствующий код с учетом регистра и управляющих клавиш.

'' - 0x20, 'B' - 0x42,

'*' - 0x2A, 'Y' - 0x59,

'0' - 0x30, 'Z' - 0x5A,

'1' - 0x31, 'a' - 0x61,

'9' - 0x39, 'b' - 0x62,

'A' - 0x41, 'z' - 0x7A.

Обработка персонажей. Числовая и символьная интерпретация типа данных Char позволяет использовать простые операции для работы с целыми числами для обработки текстовых символов. Нет ограничений на выполнение операций, разрешенных для всех переменных в типе данных Char, от операций сравнения и присваивания до арифметических операций и отдельных битовых операций. Но, за исключением редких случаев, знать коды символов не обязательно. Вы можете использовать символьные константы для представления отдельных символов. Вместо такой стабильности переводчик всегда заменяет код соответствующего символа:

char c;

for (c = 'A'; c <= 'Z'; c ++) ...

жүктеу/скачать 89,27 Kb.

Достарыңызбен бөлісу:

1 2 3 4 5 6