Язы́к ассе́мблера (англ.assembly language, разг.ассе́мблер) — представление команд процессора в виде, доступном для чтения человеком. Язык ассемблера считается языком программирования низкого уровня в противовес высокоуровневым языкам, не привязанным к конкретной реализации вычислительной системы. Программы, написанные на языке ассемблера, однозначным образом переводятся в инструкции конкретного процессора и в большинстве случаев не могут быть перенесены без значительных изменений для запуска на машине с другой системой команд. Ассемблером также называется программа-компилятор, преобразующая код на языке ассемблера в машинный код. Программа, выполняющая обратную задачу, называется дизассемблером.
Первые ассемблеры были спроектированы Кэтлин Бут в 1947 под ARC2[2] и Дэвидом Уилером[англ.] в 1948 под EDSAC[3], при этом термин «ассемблер» не использовали, просто называя язык «множеством базовых команд» (англ.basic order set) и «начальными командами» (англ.initial orders) соответственно. Впервые термин «ассемблер» для процесса объединения полей в командное слово начали использовать более поздние отчёты по EDSAC.
Также на ранних этапах развития программирования было введено понятие автокод — язык программирования, предложения которого по своей структуре в основном подобны командам и обрабатываемым данным конкретного машинного языка[4][значимость факта?]. В настоящее время термин фактически не используется.
Исторически, если первым поколением языков программирования считать машинные коды, то язык ассемблера можно рассматривать как второе поколение языков программирования[источник не указан 825 дней]. Недостатки языка ассемблера, например, сложность разработки на нём больших программных комплексов, позже привели к появлению языков третьего поколения — языков программирования высокого уровня (таких как Фортран, Лисп, Кобол, Паскаль, Си и другие).
Синтаксис
Не существует общеупотребительного синтаксиса языка ассемблера. Так как системы команд различных процессоров значительно отличаются, также и отличаются языки ассемблера для этих процессоров. Кроме того, каждая программа-ассемблер может использовать отличающийся от других синтаксис. В ассемблерах для процессоров x86 наибольшее распространение получил так называемый Intel-синтаксис, в меньшей степени — синтаксис AT&T.
Мнемоники
Базовой конструкцией языка ассемблера является мнемоника, или мнемокод — краткое символьное представление команды процессора. Как правило, она состоит из нескольких символов, обозначающих производимое действие (например, mov — для пересылки из одного регистра в другой, add — для сложения значений и т.д.). Также в мнемонику может входить объект, над которым производится операция (регистр, память, стек), либо другие особенности (влияние на регистр флагов, условия исполнения и т.д.), однако в других диалектах те же особенности могут задаваться в операндах.
Как правило, ассемблер каждого процессора имеет свой традиционный набор мнемоник, но встречаются ассемблеры с кроссплатформенным синтаксисом (такие, как синтаксис AT&T), однако кроссплатформенными в них остаются только обозначения, код одного процессора не может быть напрямую перенесён на другой.
Операнды
В качестве операндов могут указываться регистры, константные значения, адреса ячеек памяти и портов ввода-вывода, константы, метки и т.д. Разные ассемблеры могут требовать разного порядка операндов: в одних реализациях первым идёт оператор, в который записывается значение, в других он идёт последним. Как правило, операнды отделяются от мнемоник команд пробелами.
Литералы
Наиболее распространённым типом данных, с которыми умеют работать большинство процессоров, является целое число, упакованное в машинное слово, либо один или несколько байтов, реже число с плавающей запятой. В программах на языке ассемблера значительно чаще используются значения, заданные в разных системах счисления. Прежде всего в компьютерах с восьмибитным байтом часто используется шестнадцатеричная запись числа, так как в один байт помещаются две шестнадцатеричные цифры. Некоторые значения могут записываться двоичными кодами. В ранних компьютерах с шестибитным байтом встречалась также восьмеричная система счисления. Способы записи могут различаться в различных ассемблерах, например:
Для записи числа в десятичной системе счисления в одних трансляторах требуется представление только в виде цифр (255, 65535), тогда как в других для этого требуется начать число с точки (.255, .65535).
Для записи числа в шестнадцатеричной системе требуется начать число с префикса «0x» (0xFF, 0x2000), в других — добавить в конце числа «h» (0FFh, 2000h), в третьих — записывать только цифры (0FF, 2000), при этом в последних двух случаях у чисел, начинающиеся с A…F, для отличия их от символьных имён спереди добавляют ноль.
Признаком восьмеричной системы в некоторых трансляторах является ведущий ноль (0377, 0177777), в других требуется добавить префикс в виде буквы «O», а число заключить в апострофы (O’377’, O’177777’).
Для записи констант в двоичной системе распространённым является формат вида b'10010111'.
Кроме того, иногда требуется задавать блоки данных, загружаемые вместе с программным кодом, для чего ассемблер может содержать специализированные директивы. Современные ассемблеры могут поддерживать также организацию данных в виде различных структур.
Элементы выразительности
Ассемблеры могут поддерживать различные конструкции для облегчения чтения ассемблерного кода, снятия с программиста необходимости следить за адресами инструкций, а также для реализации элементов, характерных для языков высокого уровня.
Метки — указывают на места в программе, на которые может производиться условный или безусловный переход, вызов процедуры, а также хранения данных и т.д. При ассемблировании метка преобразуется в адрес;
Именованные константы — позволяют давать осмысленное имя числовому значению, а также централизованно его менять. В процессе ассемблирования константа заменяется соответствующим ей значением;
Комментарии в языке ассемблера имеют большее значение, чем в языках высокого уровня, так как он не может обеспечить самодокументируемость кода.
Макросы — позволяют упаковать часто встречающиеся последовательности команд, давая им осмысленное имя;
В ассемблерном коде как правило не применяются характерные для языков высокого уровня отступы и операторные скобки. Ассемблерный код обычно записывается в несколько колонок, которые включают:
Адрес инструкции (необязательная колонка);
Метки;
Мнемонику самой инструкции;
Операнды;
Комментарии.
Такой способ записи отражает особенность исполнения программ на процессорах общего назначения: на уровне машинных кодов программы как правило линейны, не имеют никакой структуры и из одного места программы может быть осуществлён переход на другое безотносительно того, где находится начало программного кода и программа продолжит исполнение с того места, куда был осуществлён переход.
Пример программы на языке ассемблера для архитектуры PIC16:
Again:movf0x40,W;Скопировать ячейку с адресом 0x40 (десятичное 64) в регистр Waddlw0x05;Добавить константу 5 к регистру WmovwfPORTC;Записать регистр W в выходной порт PORTC микроконтроллераclrw;Очистить регистр W (у данной инструкции нет операндов)gotoAgain;Перейти на метку Again
Достоинства и недостатки
Так как ассемблерный код однозначно переводится в машинный код для заданного процессора, это позволяет более полно использовать все возможности процессора, сокращать количество ненужных «холостых» операций и использовать прочие приёмы оптимизации программного кода, недоступные при использовании компиляторов, однако развитие оптимизирующих компиляторов приводит к тому, что качество генерируемого ими кода может быть выше, чем может написать программист на ассемблере средней квалификации[5]. При этом чем больше объём программы, тем меньше выигрыш от использования языка ассемблера.
Программы на ассемблере не допускают неопределённого поведения, однако в целом написание и отладка кода на ассемблере требует больше усилий. На ассемблере недоступен контроль типов, из-за чего смысл того или иного значения и допустимые действия над ним должен контролировать сам программист. При написании программ на языке ассемблера требуется постоянно пользоваться стеком и ограниченным количеством регистров общего назначения, а также указателями, что требует от программиста внимательности и хорошей памяти.
Программы на языке ассемблера практически невозможно перенести на машину с другой архитектурой или системой команд без переписывания программы, даже если при написании использовался «кроссплатформенный» диалект ассемблера: разные архитектуры процессоров имеют разные наборы регистров, флагов, разные размеры машинного слова, а также могут иметь узкоспециализированные команды, отсутствующие на других платформах.
Программа на ассемблере имеет больше возможностей для взаимодействия с оборудованием и ядром ОС. К примеру, в ранних домашних компьютерах и игровых приставках мог отсутствовать встроенный таймер достаточно высокого разрешения, но при этом тактовая частота процессора была стандартной для всех устройств одного типа, что позволяло использовать процессор в качестве таймера, рассчитывая количество тактов на выполнение тех или иных команд и вставляя в нужных местах пустые операции. В современных процессорах, использующих встроенные схемы оптимизации исполнения, динамическое изменение тактовой частоты и сложные системы прерываний, а тем более под управлением многозадачных ОС такие приёмы стали невозможны, однако продолжают использоваться на некоторых микроконтроллерах.
Применение
Появление ассемблеров значительно облегчило задачу программирования ранних компьютеров, но достаточно быстро сложность прикладных задач потребовала использования языков высокого уровня. Однако эти языки исполнялись достаточно медленно, к тому же им не всегда были доступны все аппаратные возможности компьютера. По мере роста производительности мейнфреймов и мини-компьютеров, а также с появлением таких языков, как Си, актуальность ассемблера начала снижаться, однако вновь возросла с появлением микрокомпьютеров. Как правило, ранние микропроцессоры имели невысокую производительность и небольшой объём доступной оперативной памяти, к тому же для них не сразу появились качественные компиляторы языков высокого уровня. Часто программы для домашних компьютеров, в том числе игры, писались целиком на ассемблере. Однако к началу XXI века к растущей производительности компьютеров добавились оптимизирующие компиляторы, которые генерировали машинный код более оптимальный, чем мог бы написать программист средней квалификации. Кроме того, важное значение стал приобретать вопрос переносимости между разными платформами.
Язык ассемблера также используется в отладке и обратной разработке, с использованием программ-дизассемблеров. Пользуясь дизассемблером можно контролировать исполнение программы на уровне машинных команд, что бывает полезно, например, при поиске мест с неопределённым поведением, или ошибок, возникающих при работе с указателями.
Ассемблерные вставки
Для облегчения разработки применялся следующий подход: большая часть кода пишется на языке высокого уровня, и только участки, для которых критична производительность, либо требующие обращения непосредственно к аппаратным ресурсам компьютера, пишутся на ассемблере.
formatPEconsoleentrystartinclude'include\win32a.inc'section'.data'datareadablewriteablemessagedb'Hello,world!',0section'.code'codereadableexecutablestart:; CINVOKE макрос в составе FASM.; Позволяет вызывать CDECL-функции. cinvokeprintf,messagecinvokegetch; INVOKE аналогичный макрос для STDCALL-функций. invokeExitProcess,0section'.idata'importdatareadablelibrarykernel,'kernel32.dll',\msvcrt,'msvcrt.dll'importkernel,\ExitProcess,'ExitProcess'importmsvcrt,\printf,'printf',\getch,'_getch'
64-битная программа для Windows на диалекте YASM (c использованием линковщика от Microsoft)
Примеры компиляции Си в язык ассемблера для архитектуры ARM
Битовые операции:
Си:
z=(a<<2)|(b&15);
Ассемблер:
ADRr4,a; get address for aLDRr0,[r4]; get value of aMOVr0,r0,LSL#2; perform shiftADRr4,b; get address for bLDRr1,[r4]; get value of bANDr1,r1,#15; perform ANDORRr1,r0,r1; perform ORADRr4,z; get address for zSTRr1,[r4]; store value for z
SUBR0,R0,R0; i -> R0 and i = 0startCMPR0,#15; is i < 15?ADDLTR1,R1,R1; j = j + jADDLTR0,R0,#1; i++BLTstart
Программа для микроконтроллера PIC16F628A (архитектура PIC)
В случае, когда к порту PORTB микроконтроллера подключены 8 светодиодов, программа включит их через один:
LISTp=16F628A__CONFIG0309HSTATUSequ0x003RP0equ5TRISBequ0x086PORTBequ0x006ORG0x0000;Вектор запускаgotostart;Переход на начало основного кодаstart:bsfSTATUS,RP0;Выбор банка 1clrfTRISB;Все биты порта PORTB - выходыbcfSTATUS,RP0;Выбор банка 0led:movlw.170;Запись двоичного значения "10101010" в PORTBmovwfPORTBgotoled;ЗацикливаниеEND
↑ГОСТ 19781-83 // Вычислительная техника. Терминология: Справочное пособие. Выпуск 1 / Рецензент канд. техн. наук Ю. П. Селиванов. — М.: Издательство стандартов, 1989. — 168 с. — 55 000 экз. — ISBN 5-7050-0155-X.