TMS320C6472 Информационный документ — дата окончательной копии 23.10.2009.
Лок Труонг (Loc Truong)
Старший сотрудник группы инженерно-технического персонала
Высокопроизводительные многоядерные системы
Отдел процессорных устройств
Texas Instruments
Многоядерные процессоры заслужили репутацию высокопроизводительных устройств. Многие специалисты по проектированию полагают, что повышение уровня производительности также существенно увеличивает энергопотребление и стоимость.
Процессор TMS320C6472 производства компании Texas Instruments опровергает такие мнения, обеспечивая незаурядную эффективность по энергопотреблению для доступных по цене решений в целом ряде приложений. Получая питание от шести ядер ЦСП TMS320C64x+™, процессор C6472 потребляет всего 60 процентов мощности и занимает на 80 процентов меньше площади на плате, чем шесть ЦСП TMS320C6415.
Потребляя 3,7 Вт, этот процессор сберегает даже больше энергии, чем процессоры общего назначения (GPU) того же уровня производительности. Помимо естественного для него преимущества при обработке сигналов, процессор C6472 также способен соперничать с устройствами GPU в большинстве общих применений, ориентированных на задачи управления. Такими применениями являются, в числе прочего, мультимедийные блейд-серверы, голосовая конференц-связь, получение медицинских изображений, промышленные системы машинного зрения, военные аэрокосмические приложения, а также испытательное и измерительное оборудование.
Низкое энергопотребление и конкурентоспособная цена делают шестиядерный процессор TMS320C6472 идеальным решением для высокопроизводительных приложений
По мере того как все больше систем на базе многоядерных процессоров находят применение в области высокопроизводительных приложений, преимущества многоядерной архитектуры получают все более широкое признание в сообществе разработчиков.
Большинство преимуществ проистекает из возможности распараллелить и распределить вычислительную нагрузку в системе. Распределение задач, которые должны исполняться более или менее одновременно, между несколькими ядрами позволяет поддерживать необходимую функциональность при меньшем числе устройств, каждое из которых работает при меньшей тактовой частоте. В подобных ситуациях многоядерные устройства в целом потребляют меньше энергии, нежели комбинация одноядерных устройств, вынужденных работать намного быстрее для выполнения тех же задач. Во многих случаях многоядерный процессор превосходит по быстродействию одноядерное устройство, работающее с утроенной или учетверенной тактовой частотой. Это приводит к впечатляющему соотношению мощности и производительности, эффективности энергопотребления как у устройств C55x™ компании TI, заметному снижению стоимости и сокращению площади монтажа, а также большему удобству использования.
Благодаря интеграции и меньшему нагреву при работе многоядерные устройства позволяют снизить стоимость корпуса. В той мере, в какой ядра совместно используют устройства ввода-вывода, память и другие функциональные блоки, также снижается стоимость других полупроводниковых компонентов. Кроме того, пониженная тактовая частота системы позволяет изготавливать микросхемы по более отработанной, менее дорогой технологии производства полупроводниковых приборов. По сравнению с системами, в которых используются отдельные процессоры вместо каждого из ядер многоядерного устройства, можно достичь колоссальной экономии пространства на плате.
Системы на основе многоядерных устройств — не новость. Однако многие из прежних реализаций не смогли достичь того уровня производительности или успеха на рынке, на какой рассчитывали разработчики системы. Причину этого обычно можно усмотреть в неполном использовании возможностей распараллеливания, предоставляемых многоядерными архитектурами. А это, в свою очередь, часто связано с архитектурой, замыкающей разработчиков в рамках конкретной реализации. Почти неизменно большую проблему представляет собой разработка программного обеспечения.
В некоторых случаях маркетинговые цели противоречат реальным возможностям. Иными словами, вступает в игру закон Амдала, гласящий о невозможности полного разбиения на параллельные задачи. Но гораздо чаще программный код не модифицируется и не оптимизируется для параллельной обработки, и это особенно справедливо для встраиваемых систем, когда тщательное программирование всегда приводит к разительно отличающимся результатам. Компания TI успешно учла эти соображения в процессоре C6472, применив более общую реализацию, ориентированную на совместное использование памяти и избавленную от сложности и негибкости предшествующих реализаций многоядерных архитектур.
Современные передовые высокопроизводительные приложения можно разделить на три большие категории: приложения, поддерживающие множество каналов; приложения, требующие максимальной производительности на единицу объема; а также революционные приложения, для реализации которых разработчики должны иметь доступ к сложным функциям. Некоторые приложения попадают более чем в одну из этих категорий.
Совсем недавно появилось еще одно требование к многоядерности, состоящее в том, что заданный уровень производительности должен сопровождаться существенно меньшим энергопотреблением и низкой ценой. Высокий приоритет малого энергопотребления для систем, получающих питание не от батарей, может показаться противоречащим здравому смыслу. Однако минимизация рассеиваемой мощности часто имеет решающее значение для высокопроизводительных систем, заключенных в ограниченном пространстве, когда высокая температура окружающей среды приводит к падению производительности и даже к сбоям. В действительности все высокопроизводительные системы имеют свой бюджет энергии и чувствительны к затратам, особенно в том случае, когда группы разработчиков подсистем руководствуются перспективой полной оптимизации системы.
Хотя устройство C6472 находится среди самых высокопроизводительных ЦСП компании TI, оно также отличается низкой потребляемой мощностью и конкурентоспособной ценой. Сочетание шести ЦСП-ядер C64x+™, внутрикристальной памяти объемом 4,8 МБ и оптимизированной архитектуры ЦСП обеспечивает производительность, эквивалентную тактовой частоте 4,2 ГГц. Три варианта устройств с разной тактовой частотой — 500, 625 и 700 МГц — имеют производительность соответственно 24 000, 30 000 и 33 600 MMAC (16-разрядные операции). Процессор C6472 потребляет 0,15 мВт/MIPS при тактовой частоте 3 ГГц, а также имеет низкую стоимость начального уровня.
В процессоре предусмотрен богатый набор периферийных устройств, включая Gigabit Ethernet, sRIO, DDR2, TSIP, HPI, Utopia, I2C, таймер и порты GPIO.
Обзор архитектуры
Процессор C6472 имеет в своей основе ядро C64x+, достигающее одного из самых высоких уровней быстродействия по оценкам компании Berkeley Design Technology Inc. (BDTI), и обладает 100-процентной обратной совместимостью с другими ЦСП семейства C64x. Это позволяет использовать существующий программный код и сокращает время выхода на рынок. В большинстве случаев, однако, будет ошибкой просто повторно использовать программный код или всего лишь оптимизировать его для многоядерного процессора. Чтобы получить наибольшую возможную производительность, программный код должен быть оптимизирован для параллельной обработки. В случае высокопроизводительных встраиваемых приложений разработчики неизменно нуждаются в наибольшей производительности.
Сочетание улучшенного взаимодействия между ядрами и проверенной на практике архитектуры памяти оптимизирует производительность процессорного устройства. Вместо навязывания специфического «тотального» подхода к симметричной многоядерной архитектуре были добавлены лишь такие ключевые усовершенствования, как совместное использование памяти и агрегирование событий. При этом архитектура сохраняет нейтральный характер, что облегчает ее адаптацию для встраиваемых процессоров. В случае многоканальных приложений с высокой плотностью компонентов разработчики пришли к выводу, что самый удобный подход — это максимальное использование всех шести ядер C6472.
В устройстве C6472 применена архитектура, аналогичная предшествующим устройствам компании TI, подтвердившим свою производительность и эффективность по энергопотреблению, главным образом, в приложениях коммуникационной инфраструктуры. Большой объем внутрикристальной памяти исключает необходимость во внешней памяти, что снижает рассеяние мощности системой и стоимость системы, а также оптимизирует плотность элементов на плате. На рисунке 1 показаны основные функциональные блоки процессора C6472.
Рис. 1. Интеграция контроллера EDMA с коммутационной фабрикой ускоряет взаимодействие с памятью и периферийными устройствами.
Характеристики доступа к памяти являются важной особенностью этой архитектуры. Помимо кэш-памяти L1 и L2, выделенной для каждого ядра, все шесть ядер совместно используют 768 КБ кэш-памяти L2. Общая кэш-память L2 управляется отдельным контроллером и может конфигурироваться в качестве памяти программ и памяти данных. Часть общей кэш-памяти L2 объемом 608 КБ, выделяемая для каждого ядра, обладает такой же универсальностью. Эту память можно использовать и как память программ, и как память данных; при использовании в качестве памяти для хранения данных ее можно сконфигурировать как кэш-память. Кроме того, имеется 32 КБ памяти L1 для хранения программ и 32 КБ памяти L1 для хранения данных, которые также можно сконфигурировать как кэш-память.
Производительность дополнительно улучшается за счет непосредственного соединения EDMA и коммутационной фабрики в едином функциональном блоке. При этом создается быстродействующее подключение к памяти и периферийным устройствам, способное поддерживать высокую скорость обмена с центральными процессорами и периферийными устройствами, имеющими широкую полосу пропускания данных. Коммутационная фабрика использует ряд методов для максимального увеличения скорости обмена, не последним из которых является поддержка нескольких параллельных передач. Эта архитектура также позволяет коммуникационным периферийным устройствам инициировать передачу данных без вмешательства центрального процессора, что уменьшает необходимое число тактов синхронизации и улучшает общие показатели коммуникации.
Тщательно подобранный набор коммуникационных периферийных устройств поддерживает специфические приложения: UTOPIA 2 для телекоммуникаций, 10/100/1G Ethernet для IP-сетей, а интерфейс Serial RapidIO — для взаимодействия между ЦСП. Интерфейсы Serial RapidIO могут подключаться к ЦСП непосредственно или через коммутационную фабрику. Порты TDM могут поддерживать до 3072 таймслотов, а хост-порт предназначен для обеспечения прямого доступа к пространству памяти ЦСП.
Интерфейс внешней памяти (EMIF) поддерживает стандарт DDR2, позволяя выбрать недорогой вариант на современном рынке модулей памяти. Сконфигурированные для 8- или 16-разрядного режима передачи, модули памяти DDR могут работать с регламентированной стандартом скоростью передачи данных от 400 до 533 МГц.
Как было упомянуто выше, благодаря меньшему нагреву при работе шестиядерный процессор C6472 может быть собран в менее дорогом корпусе. В некоторых случаях две платы можно заменить одной, что приводит к существенному снижению стоимости. Кроме того, малая площадь основания корпуса FC-BGA с размерами 24x24 мм позволяет отвести больше места для других микросхем, что помогает повысить общую производительность.
По результатам независимого анализа, в таких нетрадиционных для ЦСП применениях, как обработка управляющей информации или сегмент блейд-серверов, повышенная производительность процессора C6472 по порядку величины сравнима с производительностью микросхем на базе GPU, если оставаться в рамках таких стандартных для отрасли профилей мощности, как в случае систем ATCA и uTCA.
На рисунке 2 представлены результаты сравнительного анализа производительности в среде VirtualLogix, показывающие, что одноядерный процессор C6472 обеспечивает лучший показатель соотношения мощности и производительности среди протестированных микросхем. Поэтому система меньше нагревается при работе, что позволяет более плотно компоновать платы.
BYTEmark — это серия эталонных тестов журнала BYTE, в которой используются тесты алгоритмического уровня. На рисунке 2 производительность подсистемы памяти (MEM) и производительность выполнения целочисленных операций (INT) сравнивается для четырех процессоров. Среди ЦСП компании TI тестировался одноядерный процессор с целью нормирования результатов сравнения, поскольку процессоры имеют неодинаковое число ядер. Также следует отметить, что ядра работают с разными тактовыми частотами, причем тактовая частота TMS320C6474 приблизительно вдвое превышает тактовую частоту остальных трех процессоров. Это повлияло на значения общей производительности. Остальные три процессора обеспечивают в целом такую же общую производительность, но это не самое важное соображение в приложениях с ограничениями по мощности.
Два столбца в правой части таблицы содержат результаты измерения эффективности по энергопотреблению, полученные делением результатов тестирования общей производительности (для MEM и для INT) на потребляемую мощность. С учетом потребляемой мощности процессор TMS320C6472 имеет очевидное преимущество по сравнению с процессорами других производителей, а также превосходит по рабочим показателям процессор TMS320C6474.
Рис. 2. Нормированные результаты тестов nBench BYTEmark журнала BYTE.
ЦСП способны превосходно работать в очень высокопроизводительных приложениях, имеющих также ограничения по мощности, и даже в том случае, если приложение преимущественно оперирует управляющими функциями. Одна из причин такого положения вещей состоит в том, что по мере развития архитектур GPU и ЦСП длина конвейера в обеих архитектурах имеет тенденцию к сближению. В прошлом ЦСП имели более длинный конвейер, что снижало производительность.
В контрольном тестировании использовался программный код на стандартной версии языка C, исполняемый под управлением наиболее распространенной версии ОС Linux. Эта серия тестов широко используется и включает в себя следующие функции: сортировка одномерного массива целых чисел со знаком, сортировка одномерного массива символьных строк, побитовые операции (измерение производительности при обработке вызовов от файловой подсистемы), эмуляция математического сопроцессора (операции с плавающей точкой), вычисление коэффициентов Фурье, работа с целочисленным массивом (последовательные итерации в задаче о назначениях), шифрование данных с помощью алгоритма IDEA, сжатие данных по алгоритму Хаффмана, моделирование работы нейронной сети, LU-разложение квадратной матрицы.
Разработка программного обеспечения
Основной составляющей успеха, особенно в случае встраиваемых систем, является разработка программного кода, оптимизированного для параллельного исполнения на многоядерном процессоре. Хотя концепция не требующей усилий переориентации линейного программного кода средствами машинной генерации кода и привлекательна, она не реалистична.
Компания TI предоставляет ориентированные на C6472 инструментальные средства, а также целую экосистему сторонних партнеров, что устраняет многие препятствия на пути от начального замысла до выхода на рынок, обычно связанные с разработкой оптимизированного программного кода.
Техническая поддержка предлагается, начиная с недорогого оценочного модуля (EVM) для C6472, включающего в себя Code Composer Studio™ версии 4 (CCSv4) с поддержкой возможностей многоядерного процессора. Эта версия представляет собой существенное обновление на базе среды разработки программного обеспечения с открытым исходным кодом Eclipse, ставшей стандартной средой разработки для поставщиков встроенного программного обеспечения. Среда Code Composer Studio сочетает преимущества интегрированной среды разработки ПО Eclipse с расширенными встроенными возможностями отладки, предлагаемыми компанией TI. В результате получается привлекательная, многофункциональная среда разработки для создателей встроенного программного обеспечения.
Модуль EVM также включает в себя драйвер для эмулятора XDS100 компании TI, базовой конструкции аппаратного обеспечения JTAG с интерфейсом USB, имеющей сверхнизкую цену. Аппаратная часть производится такими сторонними партнерами компании TI, как Sundance, Surf, Radisys и eInfochips.
Существующие инструменты для разработки программного обеспечения включают в себя библиотеку программ для реализации математических функций, библиотеку для обработки сигналов, библиотеку для обработки изображений и эмуляции операций с плавающей запятой, библиотеку для BIOS/NDK, а также библиотеку вспомогательных программных кодов для микросхем. В число партнеров по программному обеспечению в технологической экосистеме C6472 входят компании ADT и ENEA.
Приложения
Общая вычислительная мощность и большое количество каналов параллельной обработки делают устройство C6472 хорошим решением для приложений, поддерживающих множество каналов, а также для приложений, требующих максимального показателя соотношения мощности и производительности. Хорошими кандидатами являются также приложения с передового края технологий, для реализации которых разработчики должны иметь доступ к сложным функциям.
Тестер беспроводных коммуникаций
Новое поколение тестеров беспроводных коммуникаций стало ближе к потребителю благодаря многоядерным устройствам ЦСП, поскольку они ассоциированы с базовыми станциями беспроводной связи. Эти универсальные анализаторы объединяют в себе функциональность, необходимую для тестера базовой станции, тестера мобильного пользовательского оборудования, тестера зоны обслуживания базовой станции, а также такие зависящие от применяемой технологии варианты стандартного испытательно-измерительного оборудования, как генераторы цифровых сигналов и логические анализаторы.
Основное преимущество применения устройств C6472 в конструкции таких тестеров высокого класса состоит в числе каналов, поддерживаемых многоядерными устройствами. Параллелизация данных обеспечивается легко, основной задачей является обработка сигналов, так что становится намного легче спроектировать систему, в которой потребление мощности сохраняется в разумных пределах.
Возможность программирования устройства во время работы также весьма важна, поскольку в качестве многофункциональной системы тестер должен выполнять очень большое число функций, в том числе (но заведомо не ограничиваясь этим):
Автоматизированный контроль с широкими функциональными возможностями
Обработка изображений обычно требует большой вычислительной мощности. Системы автоматизированного контроля с широкими функциональными возможностями, использующие средства машинного зрения, расширяют пределы производительности еще больше, особенно в полупроводниковой промышленности.
Например, в системах контроля полупроводниковых пластин от изображения требуются, помимо прочего, очень высокие значения разрешения и частоты кадров. Во многих подобных системах используется несколько камер, что увеличивает требуемую пропускную способность канала. Системы высокого класса нередко генерируют изображения размером 10 мегапикселов и работают с частотой кадров от 120 до 300 кадров в секунду. А для контроля солнечных элементов и полупроводниковых пластин большего размера требуются еще более объемные изображения.
Перечень необходимых функциональных возможностей автоматизированных испытательных установок столь же впечатляющ. К ним относится предварительная обработка изображений и снижение уровня шума, улучшение качества изображения, 2D/3D фильтрация, выделение контуров, идентификация дефектов и частотный анализ данных.
Системы на базе C6472 исполняют эти функции очень эффективно благодаря своей естественной способности обрабатывать сигналы. Почти столь же важна способность процессоров C6472 поддерживать множество каналов, особенно при использовании нескольких камер. Системы машинного контроля с широкими функциональными возможностями применяются на производственных объектах, отличающихся от заводов по обработке полупроводниковых пластин. При использовании нескольких систем в большом заводском цехе преимущества низкого энергопотребления процессоров C6472 могут привести к существенному снижению себестоимости.
Ультразвуковой неразрушающий контроль
Ультразвук можно использовать в качестве неинвазивного средства зондирования в медицинских и в промышленных приложениях. Высокий уровень детализации в окончательных изображениях получается с помощью фазированной решетки ультразвуковых трансмиттеров, излучающих импульсы в заданной последовательности, чтобы создать хорошо управляемый, узко сфокусированный луч сверхвысокого разрешения.
Этот метод создает изображения высокого разрешения, показывая сечения объекта. Для данных от фазированной решетки, принимаемых сенсорами, требуется до 256 каналов, каждый из которых работает на частоте от 2 до 20 МГц. Для получения требуемых изображений типичная ультразвуковая система, создающая картинки размером немного менее 1 МБ на кадр, должна работать со скоростью 20 кадров в секунду и достигать времени задержки менее 50 мс.
Обработка сигналов является центральным вопросом технологии и включает в себя управление положением и фокусировкой луча, предварительную обработку сигнала, подавление шума, сканирующее преобразование, постобработку и частотный анализ данных.
Системы на базе устройств C6472 в состоянии обеспечить как число каналов, так и производительность обработки сигналов, необходимые для ультразвуковой испытательной установки высокого класса.
Заключение
По мере того как высокопроизводительные приложения требуют все большего числа каналов и большей вычислительной мощности, многоядерные устройства обретают популярность. Энергопотребление и стоимость устройства всегда были вопросами, находящимися в центре внимания. Шестиядерный процессор TMS320C6472 производства компании TI решает эти сложные вопросы, обеспечивая доступные по цене решения с низким энергопотреблением для целого ряда приложений. Независимое тестирование показало, что процессор C6472 в состоянии конкурировать с процессорами общего назначения, особенно с учетом энергопотребления.
Чтобы помочь в оптимизации разработок многоядерных устройств, компания TI предоставляет широкую техническую поддержку для процессора C6472, включая оценочный модуль, библиотеки программного обеспечения и целую экосистему сторонних разработчиков.
TMS320C64x+, C55x, C64x и Code Composer Studio являются товарными знаками компании Texas Instruments. Все прочие товарные знаки являются собственностью их владельцев.
SPRY130
В .xls файле для расчета энергопотребления данного процессора не удалось получить потребляемую мощность более 13W. 13/6 = 2.1 на ядро. В посте указана другая величина. Чему верить? Далее по тексту упоминается частота в 3e9, но максимальная доступная - 700e6. Предполагаю, что 3e9 получено как 500e6 * 6, но так же нельзя :-)
Жаль, что в нем нет VCP ни одного.
Андрей,
Наши инженеры попробовали установить очень высокую производительность в excel файле (rev 1_1_6) из документа SPRAB76, и как Вы упоминали макс. расход энергии равен ~ 13W. Какой именно документ/пост Вы имеете ввиду?
При рассмотрении Excel файла, имеется ввиду диапазон частоты, который может быть применён – между 375 МГц и 700 МГц. Если Вы вводите другой диапазон, то появится всплывающее окно, чтобы исправить на действительный диапазон. Мы не заметили проблем с .xls файлом и смогли ввести частоту в пределах данного диапазона.
Более подробно это описывает 3-я секция документа SPRAB76.
Мы предполагаем, что 3.7W, которые упопянуты в посте (SPRY130), для использования по сценарию очень близкому к примеру «Example 1» (.xls файла) и с процессорами работающими в диапазоне 375 МГц.
С уважением,
Команда Инженерного Сообщества TI
Алексей, я говорю о том, что (третий абзац) "Потребляя 3,7 Вт на ядро...". Чуть выше говориться о том, что процессор является шестиядерным. 6*3.7 = 22.2. Возможно, я чего-то не понимаю. С .xls всё в порядке.
В перевод вкралась ошибка. Согласно SPRY130 - "At 3.7 watts per device, ..etc", что подтверждает следующее "Потребляя 3,7 Вт на устройство...". Ошибка откорректирована.
Благодарим за Ваше внимание.
ВСЕ СОДЕРЖИМОЕ И ВСЕ МАТЕРИАЛЫ ЭТОГО САЙТА ПРЕДОСТАВЛЯЮТСЯ "КАК ЕСТЬ". КОМПАНИЯ TI И ЕЕ СООТВЕТСТВУЮЩИЕ ПОСТАВЩИКИ НЕ ДЕЛАЮТ НИКАКИХ ЗАЯВЛЕНИЙ О ПРИГОДНОСТИ ЭТИХ МАТЕРИАЛОВ ДЛЯ КАКИХ-ЛИБО ЦЕЛЕЙ И ОТКАЗЫВАЮТСЯ ОТ ЛЮБОЙ ОТВЕТСТВЕННОСТИ В ОТНОШЕНИИ ЭТИХ МАТЕРИАЛОВ, ВКЛЮЧАЯ (НО НЕ ОГРАНИЧИВАЯСЬ) ВСЕ КОСВЕННЫЕ ГАРАНТИИ И УСЛОВИЯ О ПРИГОДНОСТИ ЭТИХ МАТЕРИАЛОВ ДЛЯ ПРОДАЖИ, ДЛЯ КОНКРЕТНЫХ ЦЕЛЕЙ, ПРАВООСНОВАНИЕ И СОБЛЮДЕНИЕ ПРАВ ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ ЛЮБОЙ ТРЕТЬЕЙ СТОРОНЫ. КОМПАНИЯ TI НЕ ПЕРЕДАЕТ НИКАКИХ ЛИЦЕНЗИЙ, ЯВНО ВЫРАЖЕННЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВОЗНИКАЮЩИХ В СИЛУ ЛИШЕНИЯ ПРАВ ВОЗРАЖЕНИЯ ИЛИ НА ИНЫХ ОСНОВАНИЯХ. ДЛЯ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИИ, РАЗМЕЩЕННОЙ НА ЭТОМ ВЕБ-САЙТЕ, МОЖЕТ ПОТРЕБОВАТЬСЯ ЛИЦЕНЗИЯ ОТ ТРЕТЬЕЙ СТОРОНЫ ИЛИ ОТ КОМПАНИИ TI. Содержимое этого сайта может содержать или подпадать под указания или ограничения на использование. Все постинги и использование содержимого этого сайта подпадают под Условия использования сайта; сторонние лица, использующие данное содержимое, соглашаются соблюдать любые ограничения или указания и соблюдать Условия использования сайта. Компания TI и ее поставщики оставляют за собой право делать исправления, удаления, изменения, доработки, улучшения и другие изменения содержимого и материалов, своей продукции, программ и услуг в любое время или удалять или прекращать публикацию (выпуск) любого содержимого, продукции, программ или услуг без уведомления.