Вход |  Регистрация
 
 
Время электроники Вторник, 17 июля
 
 

Это интересно!

Новости


Обзоры, аналитика


Интервью, презентации

Ранее

Высокопроизводительные вычисления на многоядерных процессорах в реальном времени

В статье рассматриваются методы оптимизации многоядерных систем для выполнения высокопроизводительных вычислений в реальном времени на примере процессора Intel. Данные методы применяются во многих проектах, включая мониторинги здоровья, системы контроля зданий или объектов, «помощники водителя» и т.д. Статья представляет собой сокращенный перевод [1].

16- и 32-разрядные МК: за и против

16-разрядные микроконтроллеры вполне эффективно могут применяться в следующем поколении встраиваемых систем, несмотря на то, что 32-разрядные МК успешно завоевывают массовые рынки. В статье подробно рассматриваются причины, позволяющие сделать такой вывод.

ColdFire: перспективные решения для встраиваемых приложений

В статье рассказывается о микропроцессорах и микроконтроллерах ColdFire, их производительности, функциональных особенностях и преимуществах по сравнению с другими 32-разрядными микропроцессорами и микроконтроллерами для встраиваемых приложений.

 

1 сентября

Большие частоты не означают более высокую производительность

Несколько последних лет компания AMD пыталась убедить OEM-производителей, производителей ПК и потребителей в том, что частота — не тот параметр, который годится для оценки производительности ЦП для ПК. В статье на конкретных примерах показано, как за счёт усовершенствования архитектуры повысить производительность системы, не увеличивая тактовую частоту процессора. Статья представляет собой перевод [1].



В

действительности, процессоры с высокими тактовыми частотами потребляют намного больше энергии из-за того, что рассеивание мощности растёт быстрее рабочей частоты. Все основные поставщики ЦП для ПК в настоящее время предлагают многоядерные процессоры, работающие на более низких тактовых частотах, чем предыдущее поколение одноядерных процессоров.
Тот же аргумент справедлив и для встраиваемых процессоров. На самом деле, он более важен для встраиваемых систем (например, для портативных устройств), для которых предусмотрено весьма скромное энергопотребление, т.к. более продолжительный срок эксплуатации аккумуляторов является важным маркетинговым преимуществом. Эти соображения действуют и в отношении непортативных устройств, т.к. потребителям не нравится шум, производимый охлаждающими вентиляторами в приставках к телевизорам или в плоскопанельных ТВ-приёмниках, а ИТ-менеджерам требуются маршрутизаторы и коммутаторы с пониженным расходом электроэнергии, чтобы уменьшить общее потребление ВЦ. Из этих соображений разработчики СнК пытаются повысить производительность системы, не увеличивая тактовую частоту.

Потребители желают, чтобы устройства имели высокую производительность, а батареи — больший срок службы

Системные разработчики должны постоянно пополнять встраиваемые решения всё большим числом функций. В первую очередь это относится к портативным бытовым устройствам, чтобы сохранить их маркетинговую привлекательность на постоянно меняющемся рынке. Эти новые функции облегчают возможность прослушивания музыки, просмотра видеофильмов, работы с электронной почтой и даже чтения документов на переносных медиаплеерах, мобильных телефонах и КПК. Новые функции увеличивают требования к вычислительным ресурсам приложений и мультимедийных чипсетов.
В течение ряда лет поставщики процессорных RISC-ядер со стандартной системой набора команд ISA (Instruction Set Architecture) отвечали на растущие вычислительные потребности, создавая процессоры с более глубокой конвейерной обработкой, работающими на более высоких частотах. Этот «метод грубой силы» по увеличению производительности процессора позволил создать ядра с тактовыми частотами, которые за последние пять лет выросли быстрее, чем за то же время усовершенствовалась лежащая в их основе технология. В то время как процессоры с более высокими тактовыми скоростями полностью отвечают требованиям по MIPS для приложений общего назначения, эти процессоры не в состоянии решить задачи DSP-приложений по обработке, например, мультимедийных данных и в основной полосе радиочастот, поскольку DSP, как правило, не работают со смесью сигналов быстрого SRAM-кэша и медленной DRAM-памяти большого объёма так, как это делают процессоры общего назначения. Высокие тактовые скорости также влекут за собой большое количество недостатков, к числу которых относятся высокая рабочая мощность, большая площадь кристалла и во многих случаях — худшая суммарная производительность, о чём мы поговорим ниже.

Проблема с более длинными конвейерами и повышенными тактовыми частотами

Для увеличения тактовых скоростей стандартным RISC-процессорам требуются более глубокие конвейеры. Большее число этапов обработки в таких конвейерах упрощает логику на каждом этапе и таким образом увеличивает его скорость, позволяя получить более высокую тактовую частоту процессора. Однако конвейеры с более глубокой обработкой имеют следующие серьёзные недостатки:
– очень большие задержки из-за отсрочки ветвления и ошибочного прогнозирования ветви;
– большой объем памяти, требуемый для пересылки данных и управления логикой, необходимой для более глубокой обработки;
– дополнительные дорогостоящие блоки, например блоки предсказания ветвления для снижения задержек.
Эти недостатки снижают эффективность использования архитектуры. Ухудшение производительности из-за всех этих факторов снижает выигрыш от работы на более высоких тактовых частотах.
Однако самый большой недостаток глубоких конвейеров и работы на более высоких тактовых частотах в том, что энергопотребление процессорного ядра значительно возрастает. В лучшем случае рассеиваемая мощность возрастает пропорционально частоте. На практике перерасход ресурсов памяти при использовании глубокой конвейерной обработки ещё больше увеличивает расходы энергии. Взаимосвязь между тактовой частотой и рассеиванием мощности носит нелинейный характер — второй показатель растёт быстрее первого.
Глубокая конвейерная обработка, удовлетворяя более строгим требования к вычислительным ресурсам, снижает срок эксплуатации батарей, а эта характеристика является ключевой для потребителей, приобретающих медиаплееры, мобильные телефоны и КПК. Таким образом, вопрос энергопотребления является самым важным для разработчиков при проектировании СнК наряду с её площадью и производительностью.
Увеличение рабочей частоты встраиваемого процессора для повышения производительности системы более не является правильной стратегией разработки. Из-за высоких тактовых частот процессор потребляет слишком много энергии и вынуждает использовать более быструю и ёмкую кэш-память SRAM, что также приводит к увеличению энергорасходов.
Возникает закономерный вопрос: можно ли увеличить производительность встраиваемых процессоров, не повышая тактовую частоту?

Высокая производительность без повышения частоты

Если коллектив разработчиков знает, какие приложения будут запускаться на встраиваемом процессоре, его можно оптимизировать таким образом, чтобы повысить производительность, не увеличив тактовую частоту. В некоторых случаях можно повысить производительность на один-два порядка, вовсе не изменяя частоту. Оптимизированный под конкретное применение процессор с помощью параллельности инструкции и данных этого приложения способен значительно ускорить выполнение задачи.
Оптимизация заключается в использовании автоматизированных средств настройки процессора с усовершенствованной и расширяемой конфигурацией, как например в случае процессора Xtensa компании Tensilica. Для оптимизации не требуется прибегать к услугам по проектированию процессоров — автоматизированные инструменты позволяют разработчикам программно-аппаратных средств создать оптимизированные под приложение процессоры.
Если встраиваемый процессор должен выполнять стандартный набор приложений, неизвестных на момент разработки, одной из альтернатив повышения производительности процессора остаётся увеличение его тактовой частоты. Например, процессор с архитектурой VLIW (Very Long Instruction Word — архитектура с командными словами очень большой длины) позволяет создать решение с высокой производительностью при относительно невысоких тактовых частотах. VLIW-процессор с ядром Diamond 570T компании Tensilica, исполняющий три инструкции за такт, достиг максимальной производительности при сравнительном тестировании встраиваемых процессоров с помощью средств консорциума EEMBC даже на частоте 200…250 МГц. Ядро Diamond 570T показало лучший результат по сравнению с процессорными ядрами, выполняющими одну инструкцию за такт и работающими на вдвое быстрой тактовой частоте.
Комплекты EEMBC, оснащённые рядом приложений, которые наиболее часто используются во встраиваемых СнК, позволяют сравнить параметры различных процессорных ядер. Из рисунка 1 видно, что процессор с ядром Diamond 570T превосходит по параметрам такие ядра как ARM11 и MIPS 24K.

Рис. 1. Сравнение ядра Diamond 570T компании Tensilica с ARM11 и MIPS 24K с помощью комплекта EEMBC. Обратите внимание, что MIPS 20K — процессор с попарно запускаемыми командами и, следовательно, у него более высокая производительность, чем у ядра MIPS 24K

Архитектура VLIW позволяет выполнять более одной операции на инструкцию (несколько операций на цикл). Таким образом, VLIW-процессор с ядром Diamond 570T, исполняющий три инструкции за такт, выполняет три операции на инструкцию и повышает производительность приложения, исполняя большее количество инструкций за цикл, чем классический RISC-конвейер. В результате в идеальном случае этот процессор может обеспечить в три раза большую производительность, чем RISC-процессор, исполняющий одну нструкцию за такт. (В DSP также используется архитектура VLIW для повышения производительности. Например, компания Texas Instruments применяет эту архитектуру в семействе DSP C6x, которое отличается самой высокой производительностью).

Diamond 570T — ядро встраиваемого процессора с самой высокой производительностью

Diamond Standard 570T — RISC-процессор с пятиэтапным конвейером с системой набора команд Xtensa ISA (Xtensa Instruction Set Architecture (ISA) Reference Manual) и усовершенствованной архитектурой VLIW. Система Xtensa ISA использует 16- и 24-разрядные инструкции при лучшей в своём классе плотности кода, что позволяет минимизировать размер и стоимость памяти для хранения команд. VLIW-операции ядра Diamond 570T кодируются в 64-разрядные инструкции. Однако в отличие от других VLIW-архитектур, процессор Diamond 570T избегает избыточного кода VLIW путём не зависящего от режима выполнения любой смеси 64-, 24- и 16-разрядных инструкций. Компилятор ядра процессора Diamond 570T автоматически выбирает инструкцию соответствующего размера, чтобы свести к минимуму объём кода и максимально увеличить производительность.
Инструментальные средства разработки программного обеспечения для ядра процессора Diamond 570T включают компилятор Xtensa C/C++ Compiler (XCC), а также полный набор средств на основе OC GNU, включая отладчик, профилировщик, ассемблер и компоновщик. XCC представляет собой усовершенствованный, оптимизированный компилятор, который автоматически определяет параллельно исполняемые команды на уровне инструкций из исходного кода C/C++ и автоматически связывает параллельные операции в VLIW-инструкции, если это возможно. В средства разработки также входит сложный имитатор ISS (cycle-accurate instruction-set simulator — программа, в точности моделирующая поведение целевого процессора); быстрый симулятор TurboXim и модели системы (на основе языков SystemC и С) для простого и быстрого моделирования процессора и системы на его основе.

Более высокая производительность без использования дополнительного объёма памяти позволяет снизить энергопотребление

Несмотря на то, что процессорное ядро Diamond 570T, выполняющее три инструкции за такт, является суперскалярным устройством статического типа, оно занимает намного меньшую площадь, чем процессорные ядра, работающие на более высоких частотах. Это ещё одно преимущество VLIW-архитектуры, позволяющей увеличить производительность за счёт параллельного выполнения инструкций, а не более глубокой конвейерной обработки и высоких тактовых частот, как это происходит при использовании 8- или 9-этапных RISC-ядер.
На рисунке 2 сравнивается занимаемая на кристалле площадь и энергопотребление ядер ARM11, MIPS 24K и Diamond 570T, изготовленных по технологии 130 нм. Процессор Diamond 570T примерно на 50% меньше двух других, но при этом он обеспечивает в среднем в 2,5 раза более высокую производительность по сравнению с ARM11 и почти в 2,2 раза большую производительность, чем MIPS 24K, как показали результаты сравнительного теста EEMBC. Преимущество меньшего размера процессора Diamond 570T отразилось также на меньшем соотношении Вт/МГц и меньшей рабочей мощности. Процессор Diamond 570T рассеивает около 1/6 мощности ARM11 или MIPS 24K, обладая в то же время намного большей производительностью.

Рис. 2. Сравнение между занимаемыми площадями кристалла и рассеиваемой активной мощностью ядер ARM11, MIPS 24K и Diamond 570T, реализованных по технологии 0,13 мкм. Значения площади и рассеиваемой мощности для процессоров ARM и MIPS приводятся в соответствии с опубликованными данными на веб-сайтах компаний (MIPS не привела данные для 90-нм процессора); март 2007 г.

Заключение

Наиболее важными количественными показателями при выборе процессорного ядра для СнК являются его площадь, производительность, мощность и цена. Расхожие представления увязывают рост производительности с увеличением тактовой частоты. На примере процессорного ядра Diamond 570T мы увидели, что большей производительности можно достичь за счёт параллелизма при более низких тактовых частотах и рабочей мощности, а также при меньшей площади кристалла.
Желание потребителей иметь нешумящие устройства с большим сроком службы батарей приводит к тому, что энергопотребление является для разработчика главным показателем при выборе процессорного ядра для СнК. В результате в системах используются процессоры, приспособленные под нужды конкретного приложения. К числу таких устройств относится настраиваемый процессор Xtensa компании Tensilica, а также процессоры общего применения, например Diamond 570T, которые обеспечивают более высокую производительность при меньших тактовых частотах.

Литература

1. Tensilica White Paper, October 24, 2008//www.tensilica.com



Вы можете скачать эту статью в формате pdf здесь.
Оцените материал:



Комментарии

0 / 0
0 / 0

Прокомментировать





 

Горячие темы

 
 




Rambler's Top100
Руководителям  |  Разработчикам  |  Производителям  |  Снабженцам
© 2007 - 2018 Издательский дом Электроника
Использование любых бесплатных материалов разрешено, при условии наличия ссылки на сайт «Время электроники».
Создание сайтаFractalla Design | Сделано на CMS DJEM ®
Контакты