Выпуск #9/2018
Бобков Сергей Геннадьевич, Власов Александр Олегович, Горелов Андрей Алексеевич, Эмин Евгений Константинович
Особенности маршрута схемотехнического синтеза и топологического проектирования СБИС по технологическим нормам 28 нм
Особенности маршрута схемотехнического синтеза и топологического проектирования СБИС по технологическим нормам 28 нм
Просмотры: 3635
В данной работе проводится исследование свойств библиотечных ячеек TSMC, выполненных по технологическому процессу 28 нм. Рассматривается маршрут физической имплементации RTL_to_GDS с учетом данных свойств и дальнейшей реализации топологического размещения и трассировки межсоединений.
УДК 621.382.2/.3
DOI: 10.22184/1993-8578.2018.82.286.293
УДК 621.382.2/.3
DOI: 10.22184/1993-8578.2018.82.286.293
Теги: cadence circuit synthesis route of design topological design tsmc 28nm tsmc 2 — m vlsi маршрут проектирования сбис схемотехнический синтез топологическое проектирование
ВВЕДЕНИЕ
По мере уменьшения технологических норм проектирования рассматриваются проблемы, связанные с оптимизацией и улучшением уже существующих маршрутов разработки СБИС. Прямым следствием уменьшения норм технологического процесса является уменьшение площади библиотечных ячеек, а следовательно, увеличение степени интеграции компонентов ИС и увеличение быстродействия транзисторов. Однако стоит учесть, что при разработке проекта по технологическим нормам ниже 65 нм, растет вклад статической мощности, обусловленной токами утечки, в общую мощность потребления [1]. Данный параметр является таким же критичным, как и быстродействие, также оказывая значительное влияние на маршрут физической имплементации.
ИССЛЕДОВАНИЕ СВОЙСТВ БИБЛИОТЕЧНЫХ ЯЧЕЕК TSMC 28 НМ HPC+
Основной принцип построения библиотек основан на PVT (process/voltage/temperature) моделировании в крайних углах: макс/мин быстродействие, максимальная мощность, а также в типичных углах эксплуатации.
Исходной точкой для данного исследования служил разработанный под технологический процесс TSMC65 маршрут физической имплементации. Его особенностью была возможность оптимизации статической мощности проекта, используя библиотечные ячейки, построенные на транзисторах с различными пороговыми значениями напряжения (рис. 1).
На данном рисунке можно увидеть, что основная структура библиотеки заключается в разбиении ячеек на подгруппы, которые реализуются при помощи транзисторов с разными пороговыми значениями напряжения, а именно:
HVT (High Voltage Threshold) — ячейки, построенные на транзисторах с высоким пороговым значением напряжения. Обладают низкой потребляемой мощностью и низким быстродействием. Оптимизация данными ячейками происходит в некритических по быстродействию путях проекта для понижения статической мощности.
RVT (Standard Voltage Threshold) — ячейки, построенные на транзисторах со стандартным значением порогового напряжения. Являются компромиссом между HVT и LVT ячейками. Сбалансированы по быстродействию и по потребляемой мощности.
LVT (Low Voltage Threshold) — ячейки, построенные на транзисторах с низким значением порогового напряжения. Обладают высоким быстродействием, меньшими задержками по сравнению с HVT и RVT, но более затратны по потребляемой мощности. Используются для обеспечения хорошего результата в критических путях проекта.
Исследование библиотечных ячеек, выполненных по технологическому процессу TSMC 28 нм HPC+, показало, что в отличие от TSMC65, в структуре библиотеки добавляется классификация по длине канала транзисторов (L). Пользователю доступно 3 варианта: (L30) — длина канала 30 нм, (L35) — длина канала 35 нм и (L40) — длина канала 40 нм (рис. 1). Данная вариация позволяет уменьшить потребляемую мощность не только в режиме переключения функциональных ячеек, но и в режиме «ожидания». Использование ячеек с меньшей длиной канала позволяет достигнуть наибольшего быстродействия, поэтому их используют для оптимизации критических путей, в то время как ячейки с более длинным каналом способны значительно понизить мощность утечки в путях, которые некритичны по быстродействию.
Для дальнейшей реализации топологии исследуемого блока был произведен дополнительный анализ библиотечных ячеек для улучшения результатов топологического проектирования по технологии 28 нм. Так, в данном техпроцессе в составе одной библиотеки возможно наличие дополнительных реализаций ячеек, выделяемых в отдельные группы и отмеченных индексами:
Р (performance category) — характеризуются меньшими задержками и увеличенной площадью по сравнению с базовыми ячейками. Могут применяться в критических путях.
HP (high performance category) — характеризуются еще более меньшими задержками и еще большей площадью по сравнению с базовыми ячейками. Могут применяться в критических путях.
M (maximum category) — все транзисторы в данных ячейках имеют максимальные размеры. Таким образом, возможно уменьшение внутренних задержек. Площадь ячеек совпадает с площадью базовых.
RE (reversed category) — вариант ячеек с измененным порядком пинов, благодаря чему возможно уменьшение задержек на определенных входах за счет увеличения их на других.
REM — вариант ячеек с максимально возможной шириной транзисторов и измененным порядком пинов. Эффект сходен с вариантом М.
REP — вариант Р категории с измененным порядком пинов.
REHP — вариант НР категории с измененным порядком пинов.
OPT (option category) — вариант ячейки с минимально возможным использованием металла М2 для трассировки соединений внутри самой ячейки.
Также характерная особенность использования TSMC 28нм HPC+ заключается в том, что невозможно провести полную трассировку топологии всех ячеек в первом слое металлизации (М1). Соединительные линии, при помощи которых осуществляется подключение контактов ячеек к сетке земли/питания, как правило, расположены непосредственно над соответствующими контактами и выполняются в слое М1. Согласно документации библиотек [3] стандартных элементов технологического процесса 28 нм, сопротивление М1 по сравнению с остальными металлами значительно больше; следовательно, для исключения возникновения ситуации нарушения заданного допустимого максимального падения напряжения питания следует размещать сопровождающие контакты элементов линии не только в М1, но и в М2, соответственно, в слое М2 уменьшается количество вариантов для трассировки межсоединений. Следовательно, в случае невозможности проведения этапа трассировки при заданном значении плотности расположения элементов, целесообразно использовать ячейки OPT (рис. 2, рис. 3).
ВЫБОР ОПТИМАЛЬНОГО НАБОРА СТАНДАРТНЫХ ЯЧЕЕК ПРИ СХЕМОТЕХНИЧЕСКОМ СИНТЕЗЕ ПРОЕКТА
Разработка подходов к оптимизации происходила на примере блока целочисленных операций int_mult_div, входящего в состав микропроцессорного ядра, разрабатываемого НИИСИ РАН. Данный блок был выбран из соображений, что в нем отсутствуют макроблоки, элементы памяти, и его структура достаточно неоднородна. Данное обстоятельство позволяет адекватно выявить свойства библиотечных ячеек. Весь маршрут разработки интегральной схемы проводился в программном обеспечении компании CADENCE. Схемотехнический синтез выполнялся в САПР GENUS[2].
Первым этапом в оптимизации уже имеющегося маршрута стояло определение основных качественных характеристик, в соответствии с которыми будет происходить оценка и дальнейшая оптимизация:
частота тактового сигнала;
площадь блока;
статическая мощность;
суммарная потребляемая мощность.
Для наиболее точной оценки воспользовались некоторыми ограничениями, а именно:
использование одинаковых функциональных логических ячеек комбинационной и последовательной логики во всех вариациях проекта;
одинаковые ограничения, наложенные на блок, в рамках одного и того же маршрута.
Оптимизация происходила до достижения максимального быстродействия.
Рассмотрим влияние различных технологических ячеек на определенные ранее характеристики. В качестве базовой реализации проекта был выбран вариант, содержащий ячейки, построенные на транзисторах с длиной канала L, равной 35 нм, и со стандартным значением порогового напряжения RVT. Для дальнейшего исследования и более наглядной визуализации полученных данных все значения характеристик, полученных при реализации различных вариаций блока int_mult_div, были нормированы на базовую реализацию проекта.
Из табл. 1 видно, что в данном сравнении, при уменьшении длины канала транзистора L наблюдается увеличение производительности на 12 %, но для достижения таких результатов необходимо пожертвовать потребляемой мощностью. В данном случае мощность утечки возрастает на 105 %. В варианте проекта, основанном на ячейках с длиной канала L, равной 40 нм, наблюдается ухудшение производительности на 9 %, но также понижается мощность утечки на 42 % относительно референсного варианта. Исходя из этого были сделаны следующие выводы:
при уменьшении длины канала L происходит увеличение быстродействия;
с увеличением длины канала L достигается наименьшее значение мощности утечки;
исходя из области применения интегральных схем, а именно устройства, требующие повышенной производительности, или устройства, главным критерием которых является пониженное энергопотребление, можно сказать, что основным преимуществом вариации проекта по длине канала является снижение статической мощности (наблюдается существенный разброс значений относительно референсного варианта +105 % и −42 % соответствующим L30 и L40 нм).
Следующим этапом было выявлено, какой эффект оказывает оптимизация проекта ячейками, имеющими разные длины каналов и разные пороговые значения напряжения (табл. 2 и 3).
В ходе проведенного исследования видно, что в случае оптимизации дизайна ячейками, построенными на транзисторах с длиной канала 30 нм и имеющими следующие значения порогового напряжения LVT, повышается производительность на 18 %, но проигрыш в мощности составляет почти 4 раза (396 % относительно базовой реализации проекта); при оптимизации HVT ячейками с той же длиной канала наблюдается ухудшение производительности и мощности утечки соответственно на 1 % и 3 %.
При использовании в ходе оптимизации проекта ячеек, построенных на транзисторах с длиной канала 40 нм и имеющих разные значения порогового напряжения, было выявлено, что оптимизация проекта LVT ячейками почти не дает прирост по производительности и по потребляемой мощности, так же как и в случае с HVT ячейками. Это объясняется малым процентным соотношением используемых ячеек при оптимизации проекта.
Резюмируя полученные данные, можно сделать следующие выводы:
наиболее кардинальные изменения параметров проекта при оптимизации LVT и HVT ячейками будут наблюдаться, если в процессе синтеза доля ячеек будет превышать 20 % от общего числа, иначе использование LVT и HVT ячеек не дает существенных преимуществ;
оптимизация проекта ячейками, содержащими только транзисторы со стандартным значением порогового напряжения, но с различными длинами каналов экономически эффективна, так как для внедрения в проект HVT и LVT ячеек требует создания дополнительных фотошаблонов, стоимость которых составляет больший процент от затрат на весь маршрут разработки интегральной схемы.
Для более точного анализа всех полученных данных необходимо получить три критичных по производительности и потребляемой мощности варианта дизайна. Для этого проанализируем варианты, построенные на ячейках с L30 LVT и L40 HVT, и вариант, построенный на L30 LVT и L40 HVT (табл. 4)
Исходя из полученных данных, наибольшей производительностью обладает проект, построенный на L30 LVT (+30 % по сравнению с L35 RVT), но значительно ухудшается энергопотребление на 746 %. Наилучшим энергопотреблением обладает проект, построенный на L40 HVT, а именно, уменьшение мощности утечки на 82 % по сравнению с L35 RVT, но также наблюдается ухудшение производительности на 17 %. Наилучшим решением в плане производительности и энергопотребления является вариант, построенный на L30 LVT и L40 HVT ячейках. В данном случае идет повышение производительности на 26 % и снижение энергопотребления на 18 %.
Обобщая вышесказанное, можно сделать вывод, что для кардинального изменения параметров производительности и энергопотребления необходимо использовать LVT ячейки, для оптимизации критичных по быстродействию путей и HVT ячейки для оптимизации некритичных, в плане быстродействия, путей, для уменьшения статической мощности, так как использование ячеек, построенных на транзисторах с различной длиной канала, не дает значительных преимуществ при оценке наиболее важных параметров схемы. При адаптации уже имеющегося маршрута проектирования под технологический процесс TSMC28HPС+, учитывался тот факт, что изначально необходимо предоставить инженеру возможность реализации 3-х основных вариантов дизайна (табл. 5), а именно:
референсный, обладающий компромиссом между энергопотреблением и производительностью;
сверхэкономичный вариант, обладающий низким энергопотреблением с наименьшей потерей быстродействия;
высокопроизводительный, обладающий наилучшей производительностью, при этом оптимизированный по статической мощности.
Самый производительный вариант не учитывался по причине несоразмерного роста производительности и потребляемой мощности.
Данные вариации позволяют пользователю выбирать нужную имплементацию в зависимости от технического задания, учитывая область использования интегральной схемы и исходя из экономической реализации проекта.
ТОПОЛОГИЧЕСКОЕ РАЗМЕЩЕНИЕ ЯЧЕЕК И ТРАССИРОВКА МЕЖСОЕДИНЕНИЙ
Согласно технической документации производителя [3], в рамках одной библиотеки стандартных элементов существует несколько вариаций одной ячейки, отличающихся технологическими параметрами. Таким образом, в рамках уже разработанного маршрута топологического проектирования есть дополнительные возможности для влияния на соотношение производительность/энергопотребление, а также ряд подходов, позволяющих уменьшить количество возможных DRC нарушений и общее время синтеза топологии. Синтез проводился в САПР INNOVUS[4]. Для проверки влияния вышеупомянутых опций техпроцесса на реализацию заданного блока int_mult_div все вариации стандартных ячеек были разбиты на 5 условных групп:
Базовая реализация без использования специальных вариантов логических элементов, на которую в дальнейшем будет производиться нормировка полученных результатов.
Реализация с использованием ячеек ОРТ. Из описания, приведенного в документации [3], можно сделать предположение, что применение группы данных ячеек позволит сократить количество возникающих DRC нарушений, связанных с невозможностью трассировки элементов и увеличить общую плотность расположения ячеек.
Реализация с использованием P, HP и M ячеек. Согласно технической документации [3], использование данных элементов ведет к улучшению временны̓х характеристик, путем уменьшения задержек по некоторым входам.
Реализация с использованием всех доступных ячеек (ОРТ, P, HP, M, все вариации R). В соответствии с описанием данных библиотек [3] можно сделать предположение, что данная вариация топологии блока будет обладать лучшими временными характеристиками, а также наименьшей плотностью размещения элементов. Кроме того, уменьшение общего числа ячеек, использованных при синтезе топологии, может значительно уменьшить статическую потребляемую мощность всего блока в целом. Существенным недостатком данной вариации является значительное увеличение времени синтеза.
Реализация с использованием всех ячеек, кроме OPT (P, HP, M, все вариации R). Предполагается, что данная вариация будет обладать преимуществами варианта 4, т. е. улучшенными временными характеристиками, уменьшенной статической мощностью потребления по сравнению с базовым вариантом. И в то же время возможно увеличение количества возникающих DRC нарушений и времени выполнения топологического синтеза.
Для более полного анализа введем ограничение на площадь блока: это необходимо для наблюдения изменений в плотности размещения ячеек.
Проанализируем полученные результаты. Для всех пяти реализаций были наложены довольно жесткие ограничения на временные характеристики. Таким образом, можно считать, что данный маршрут проектирования был ориентирован именно на частотные характеристики. Следует отметить, что базовая реализация блока имеет наибольшее количество элементов и обладает практически наибольшей плотностью размещения ячеек внутри заданной площади блока. Примечательно, что реализация без ограничений выбора ячеек на 2 % меньше базовой. Данный факт объясняется возможностью применения ячеек с наилучшими временными характеристиками и соответственно уменьшением общего количества элементов, в то время как в базовой реализации появляется необходимость постановки дополнительных буферов для обеспечения необходимых задержек нарастания сигналов.
Кроме того, учитывалось количество нарушений DRC. Так, можно отметить существенное увеличение количества ошибок для 4-го варианта, т. е. увеличение составило 79 % по сравнению с базовой вариацией. Кроме того, для вариации с OPT ячейками отмечается уменьшение количества DRC ошибок на 14 % по сравнению с базовым вариантом, что согласуется с выдвинутым утверждением. Увеличение числа нарушений DRC необязательно ведет к ухудшению характеристик дизайна, но приводит к необходимости исправлять возникающие ошибки, что ведет к значительным временным затратам в процессе проектирования.
Потребляемая мощность для всех вариаций кроме 2-й практически не изменилась. Для второй вариации общая потребляемая мощность увеличилась на 12 %, а статическая составляющая потребления — на 6 %. Помимо того, для третьего варианта можно отметить незначительное уменьшение статической мощности потребления на 4 %.
Дополнительно было проанализировано время синтеза каждого из блоков. Следует отметить существенное увеличение времени выполнения — для вариации без ограничения выбора ячеек 241 %, а также вариации без использования ОРТ ячеек 214 %.
Полученные данные позволяют сделать следующие выводы:
выдвинутое выше предположение подтвердилось, использование ОРТ ячеек привело к снижению количества возникающих DRC нарушений на 14 %, связанных с трассировкой в первых двух слоях металлов. С другой стороны, это привело к увеличению потребляемой мощности на 12 %. Целесообразность применения данного подхода зависит от задач, поставленных перед маршрутом проектирования.
в критичных, с точки зрения временных характеристик, случаях САПР может использовать различные вариации ячеек Р, НР, М, RE, что в конечном итоге позволяет существенно сократить плотность и потребляемую мощность, в том числе мощность статического потребления. Все это можно объяснить отсутствием необходимости постановки дополнительных буферов и, следовательно, оптимизацией размеров ячеек, что в конечном итоге позволяет обеспечить заданные временные характеристики. Главным недостатком применения данных вариаций является существенное увеличение времени синтеза топологии блока и количества DRC нарушений, что при разработке сложных блоков может весомо увеличить время проектирования.
Таким образом, по сравнению с технологическими нормами топологического проектирования TSMC65nm можно отметить появление еще большего количества опций для изменения характеристик как в сторону улучшения энергопотребления, так и в сторону улучшения временных характеристик, а также уменьшения площади блока.
Использование всех возможных наборов ячеек ведет к существенному увеличению времени выполнения синтеза и количества DRC нарушений, что, в свою очередь, ведет к значительному увеличению времени выполнения маршрута топологического проектирования. При синтезе следует внимательно подходить к вопросу о целесообразности применения тех или иных элементов.
ЗАКЛЮЧЕНИЕ
В данной статье были рассмотрены основные ключевые моменты схемотехнического и топологического проектирования по технологическим нормам TSMC28nm. Анализ библиотечных ячеек позволил интегрировать в разработанный ранее маршрут проектирования СБИС новые аспекты, направленные на оптимизацию таких критичных параметров, как быстродействие и энергопотребление, при минимальном количестве DRC нарушений и отсутствии ошибок по времени предустановки и удержания тактового сигнала в ходе статистического временного анализа в регистровых элементах комбинационной логики. Полученные данные актуальны в свете будущих работ НИИСИ РАН.
ЛИТЕРАТУРА
1. Власов А. О. «Оптимизация потребляемой мощности микросхем с использованием транзисторов с разным пороговым напряжением» 13-я Российская научно-техническая конференция «Электроника, микро- и наноэлектроника» Сборник научных трудов, 2011. — С. 65–68.
2. Genus User Guide for Legacy UI. Product Version 16.2. April 2017, Cadence Design Systems, Inc.
3. Dolphin Technology Standard Cell Usage Document, September 2012, Dolphin Tecnology, Inc.
По мере уменьшения технологических норм проектирования рассматриваются проблемы, связанные с оптимизацией и улучшением уже существующих маршрутов разработки СБИС. Прямым следствием уменьшения норм технологического процесса является уменьшение площади библиотечных ячеек, а следовательно, увеличение степени интеграции компонентов ИС и увеличение быстродействия транзисторов. Однако стоит учесть, что при разработке проекта по технологическим нормам ниже 65 нм, растет вклад статической мощности, обусловленной токами утечки, в общую мощность потребления [1]. Данный параметр является таким же критичным, как и быстродействие, также оказывая значительное влияние на маршрут физической имплементации.
ИССЛЕДОВАНИЕ СВОЙСТВ БИБЛИОТЕЧНЫХ ЯЧЕЕК TSMC 28 НМ HPC+
Основной принцип построения библиотек основан на PVT (process/voltage/temperature) моделировании в крайних углах: макс/мин быстродействие, максимальная мощность, а также в типичных углах эксплуатации.
Исходной точкой для данного исследования служил разработанный под технологический процесс TSMC65 маршрут физической имплементации. Его особенностью была возможность оптимизации статической мощности проекта, используя библиотечные ячейки, построенные на транзисторах с различными пороговыми значениями напряжения (рис. 1).
На данном рисунке можно увидеть, что основная структура библиотеки заключается в разбиении ячеек на подгруппы, которые реализуются при помощи транзисторов с разными пороговыми значениями напряжения, а именно:
HVT (High Voltage Threshold) — ячейки, построенные на транзисторах с высоким пороговым значением напряжения. Обладают низкой потребляемой мощностью и низким быстродействием. Оптимизация данными ячейками происходит в некритических по быстродействию путях проекта для понижения статической мощности.
RVT (Standard Voltage Threshold) — ячейки, построенные на транзисторах со стандартным значением порогового напряжения. Являются компромиссом между HVT и LVT ячейками. Сбалансированы по быстродействию и по потребляемой мощности.
LVT (Low Voltage Threshold) — ячейки, построенные на транзисторах с низким значением порогового напряжения. Обладают высоким быстродействием, меньшими задержками по сравнению с HVT и RVT, но более затратны по потребляемой мощности. Используются для обеспечения хорошего результата в критических путях проекта.
Исследование библиотечных ячеек, выполненных по технологическому процессу TSMC 28 нм HPC+, показало, что в отличие от TSMC65, в структуре библиотеки добавляется классификация по длине канала транзисторов (L). Пользователю доступно 3 варианта: (L30) — длина канала 30 нм, (L35) — длина канала 35 нм и (L40) — длина канала 40 нм (рис. 1). Данная вариация позволяет уменьшить потребляемую мощность не только в режиме переключения функциональных ячеек, но и в режиме «ожидания». Использование ячеек с меньшей длиной канала позволяет достигнуть наибольшего быстродействия, поэтому их используют для оптимизации критических путей, в то время как ячейки с более длинным каналом способны значительно понизить мощность утечки в путях, которые некритичны по быстродействию.
Для дальнейшей реализации топологии исследуемого блока был произведен дополнительный анализ библиотечных ячеек для улучшения результатов топологического проектирования по технологии 28 нм. Так, в данном техпроцессе в составе одной библиотеки возможно наличие дополнительных реализаций ячеек, выделяемых в отдельные группы и отмеченных индексами:
Р (performance category) — характеризуются меньшими задержками и увеличенной площадью по сравнению с базовыми ячейками. Могут применяться в критических путях.
HP (high performance category) — характеризуются еще более меньшими задержками и еще большей площадью по сравнению с базовыми ячейками. Могут применяться в критических путях.
M (maximum category) — все транзисторы в данных ячейках имеют максимальные размеры. Таким образом, возможно уменьшение внутренних задержек. Площадь ячеек совпадает с площадью базовых.
RE (reversed category) — вариант ячеек с измененным порядком пинов, благодаря чему возможно уменьшение задержек на определенных входах за счет увеличения их на других.
REM — вариант ячеек с максимально возможной шириной транзисторов и измененным порядком пинов. Эффект сходен с вариантом М.
REP — вариант Р категории с измененным порядком пинов.
REHP — вариант НР категории с измененным порядком пинов.
OPT (option category) — вариант ячейки с минимально возможным использованием металла М2 для трассировки соединений внутри самой ячейки.
Также характерная особенность использования TSMC 28нм HPC+ заключается в том, что невозможно провести полную трассировку топологии всех ячеек в первом слое металлизации (М1). Соединительные линии, при помощи которых осуществляется подключение контактов ячеек к сетке земли/питания, как правило, расположены непосредственно над соответствующими контактами и выполняются в слое М1. Согласно документации библиотек [3] стандартных элементов технологического процесса 28 нм, сопротивление М1 по сравнению с остальными металлами значительно больше; следовательно, для исключения возникновения ситуации нарушения заданного допустимого максимального падения напряжения питания следует размещать сопровождающие контакты элементов линии не только в М1, но и в М2, соответственно, в слое М2 уменьшается количество вариантов для трассировки межсоединений. Следовательно, в случае невозможности проведения этапа трассировки при заданном значении плотности расположения элементов, целесообразно использовать ячейки OPT (рис. 2, рис. 3).
ВЫБОР ОПТИМАЛЬНОГО НАБОРА СТАНДАРТНЫХ ЯЧЕЕК ПРИ СХЕМОТЕХНИЧЕСКОМ СИНТЕЗЕ ПРОЕКТА
Разработка подходов к оптимизации происходила на примере блока целочисленных операций int_mult_div, входящего в состав микропроцессорного ядра, разрабатываемого НИИСИ РАН. Данный блок был выбран из соображений, что в нем отсутствуют макроблоки, элементы памяти, и его структура достаточно неоднородна. Данное обстоятельство позволяет адекватно выявить свойства библиотечных ячеек. Весь маршрут разработки интегральной схемы проводился в программном обеспечении компании CADENCE. Схемотехнический синтез выполнялся в САПР GENUS[2].
Первым этапом в оптимизации уже имеющегося маршрута стояло определение основных качественных характеристик, в соответствии с которыми будет происходить оценка и дальнейшая оптимизация:
частота тактового сигнала;
площадь блока;
статическая мощность;
суммарная потребляемая мощность.
Для наиболее точной оценки воспользовались некоторыми ограничениями, а именно:
использование одинаковых функциональных логических ячеек комбинационной и последовательной логики во всех вариациях проекта;
одинаковые ограничения, наложенные на блок, в рамках одного и того же маршрута.
Оптимизация происходила до достижения максимального быстродействия.
Рассмотрим влияние различных технологических ячеек на определенные ранее характеристики. В качестве базовой реализации проекта был выбран вариант, содержащий ячейки, построенные на транзисторах с длиной канала L, равной 35 нм, и со стандартным значением порогового напряжения RVT. Для дальнейшего исследования и более наглядной визуализации полученных данных все значения характеристик, полученных при реализации различных вариаций блока int_mult_div, были нормированы на базовую реализацию проекта.
Из табл. 1 видно, что в данном сравнении, при уменьшении длины канала транзистора L наблюдается увеличение производительности на 12 %, но для достижения таких результатов необходимо пожертвовать потребляемой мощностью. В данном случае мощность утечки возрастает на 105 %. В варианте проекта, основанном на ячейках с длиной канала L, равной 40 нм, наблюдается ухудшение производительности на 9 %, но также понижается мощность утечки на 42 % относительно референсного варианта. Исходя из этого были сделаны следующие выводы:
при уменьшении длины канала L происходит увеличение быстродействия;
с увеличением длины канала L достигается наименьшее значение мощности утечки;
исходя из области применения интегральных схем, а именно устройства, требующие повышенной производительности, или устройства, главным критерием которых является пониженное энергопотребление, можно сказать, что основным преимуществом вариации проекта по длине канала является снижение статической мощности (наблюдается существенный разброс значений относительно референсного варианта +105 % и −42 % соответствующим L30 и L40 нм).
Следующим этапом было выявлено, какой эффект оказывает оптимизация проекта ячейками, имеющими разные длины каналов и разные пороговые значения напряжения (табл. 2 и 3).
В ходе проведенного исследования видно, что в случае оптимизации дизайна ячейками, построенными на транзисторах с длиной канала 30 нм и имеющими следующие значения порогового напряжения LVT, повышается производительность на 18 %, но проигрыш в мощности составляет почти 4 раза (396 % относительно базовой реализации проекта); при оптимизации HVT ячейками с той же длиной канала наблюдается ухудшение производительности и мощности утечки соответственно на 1 % и 3 %.
При использовании в ходе оптимизации проекта ячеек, построенных на транзисторах с длиной канала 40 нм и имеющих разные значения порогового напряжения, было выявлено, что оптимизация проекта LVT ячейками почти не дает прирост по производительности и по потребляемой мощности, так же как и в случае с HVT ячейками. Это объясняется малым процентным соотношением используемых ячеек при оптимизации проекта.
Резюмируя полученные данные, можно сделать следующие выводы:
наиболее кардинальные изменения параметров проекта при оптимизации LVT и HVT ячейками будут наблюдаться, если в процессе синтеза доля ячеек будет превышать 20 % от общего числа, иначе использование LVT и HVT ячеек не дает существенных преимуществ;
оптимизация проекта ячейками, содержащими только транзисторы со стандартным значением порогового напряжения, но с различными длинами каналов экономически эффективна, так как для внедрения в проект HVT и LVT ячеек требует создания дополнительных фотошаблонов, стоимость которых составляет больший процент от затрат на весь маршрут разработки интегральной схемы.
Для более точного анализа всех полученных данных необходимо получить три критичных по производительности и потребляемой мощности варианта дизайна. Для этого проанализируем варианты, построенные на ячейках с L30 LVT и L40 HVT, и вариант, построенный на L30 LVT и L40 HVT (табл. 4)
Исходя из полученных данных, наибольшей производительностью обладает проект, построенный на L30 LVT (+30 % по сравнению с L35 RVT), но значительно ухудшается энергопотребление на 746 %. Наилучшим энергопотреблением обладает проект, построенный на L40 HVT, а именно, уменьшение мощности утечки на 82 % по сравнению с L35 RVT, но также наблюдается ухудшение производительности на 17 %. Наилучшим решением в плане производительности и энергопотребления является вариант, построенный на L30 LVT и L40 HVT ячейках. В данном случае идет повышение производительности на 26 % и снижение энергопотребления на 18 %.
Обобщая вышесказанное, можно сделать вывод, что для кардинального изменения параметров производительности и энергопотребления необходимо использовать LVT ячейки, для оптимизации критичных по быстродействию путей и HVT ячейки для оптимизации некритичных, в плане быстродействия, путей, для уменьшения статической мощности, так как использование ячеек, построенных на транзисторах с различной длиной канала, не дает значительных преимуществ при оценке наиболее важных параметров схемы. При адаптации уже имеющегося маршрута проектирования под технологический процесс TSMC28HPС+, учитывался тот факт, что изначально необходимо предоставить инженеру возможность реализации 3-х основных вариантов дизайна (табл. 5), а именно:
референсный, обладающий компромиссом между энергопотреблением и производительностью;
сверхэкономичный вариант, обладающий низким энергопотреблением с наименьшей потерей быстродействия;
высокопроизводительный, обладающий наилучшей производительностью, при этом оптимизированный по статической мощности.
Самый производительный вариант не учитывался по причине несоразмерного роста производительности и потребляемой мощности.
Данные вариации позволяют пользователю выбирать нужную имплементацию в зависимости от технического задания, учитывая область использования интегральной схемы и исходя из экономической реализации проекта.
ТОПОЛОГИЧЕСКОЕ РАЗМЕЩЕНИЕ ЯЧЕЕК И ТРАССИРОВКА МЕЖСОЕДИНЕНИЙ
Согласно технической документации производителя [3], в рамках одной библиотеки стандартных элементов существует несколько вариаций одной ячейки, отличающихся технологическими параметрами. Таким образом, в рамках уже разработанного маршрута топологического проектирования есть дополнительные возможности для влияния на соотношение производительность/энергопотребление, а также ряд подходов, позволяющих уменьшить количество возможных DRC нарушений и общее время синтеза топологии. Синтез проводился в САПР INNOVUS[4]. Для проверки влияния вышеупомянутых опций техпроцесса на реализацию заданного блока int_mult_div все вариации стандартных ячеек были разбиты на 5 условных групп:
Базовая реализация без использования специальных вариантов логических элементов, на которую в дальнейшем будет производиться нормировка полученных результатов.
Реализация с использованием ячеек ОРТ. Из описания, приведенного в документации [3], можно сделать предположение, что применение группы данных ячеек позволит сократить количество возникающих DRC нарушений, связанных с невозможностью трассировки элементов и увеличить общую плотность расположения ячеек.
Реализация с использованием P, HP и M ячеек. Согласно технической документации [3], использование данных элементов ведет к улучшению временны̓х характеристик, путем уменьшения задержек по некоторым входам.
Реализация с использованием всех доступных ячеек (ОРТ, P, HP, M, все вариации R). В соответствии с описанием данных библиотек [3] можно сделать предположение, что данная вариация топологии блока будет обладать лучшими временными характеристиками, а также наименьшей плотностью размещения элементов. Кроме того, уменьшение общего числа ячеек, использованных при синтезе топологии, может значительно уменьшить статическую потребляемую мощность всего блока в целом. Существенным недостатком данной вариации является значительное увеличение времени синтеза.
Реализация с использованием всех ячеек, кроме OPT (P, HP, M, все вариации R). Предполагается, что данная вариация будет обладать преимуществами варианта 4, т. е. улучшенными временными характеристиками, уменьшенной статической мощностью потребления по сравнению с базовым вариантом. И в то же время возможно увеличение количества возникающих DRC нарушений и времени выполнения топологического синтеза.
Для более полного анализа введем ограничение на площадь блока: это необходимо для наблюдения изменений в плотности размещения ячеек.
Проанализируем полученные результаты. Для всех пяти реализаций были наложены довольно жесткие ограничения на временные характеристики. Таким образом, можно считать, что данный маршрут проектирования был ориентирован именно на частотные характеристики. Следует отметить, что базовая реализация блока имеет наибольшее количество элементов и обладает практически наибольшей плотностью размещения ячеек внутри заданной площади блока. Примечательно, что реализация без ограничений выбора ячеек на 2 % меньше базовой. Данный факт объясняется возможностью применения ячеек с наилучшими временными характеристиками и соответственно уменьшением общего количества элементов, в то время как в базовой реализации появляется необходимость постановки дополнительных буферов для обеспечения необходимых задержек нарастания сигналов.
Кроме того, учитывалось количество нарушений DRC. Так, можно отметить существенное увеличение количества ошибок для 4-го варианта, т. е. увеличение составило 79 % по сравнению с базовой вариацией. Кроме того, для вариации с OPT ячейками отмечается уменьшение количества DRC ошибок на 14 % по сравнению с базовым вариантом, что согласуется с выдвинутым утверждением. Увеличение числа нарушений DRC необязательно ведет к ухудшению характеристик дизайна, но приводит к необходимости исправлять возникающие ошибки, что ведет к значительным временным затратам в процессе проектирования.
Потребляемая мощность для всех вариаций кроме 2-й практически не изменилась. Для второй вариации общая потребляемая мощность увеличилась на 12 %, а статическая составляющая потребления — на 6 %. Помимо того, для третьего варианта можно отметить незначительное уменьшение статической мощности потребления на 4 %.
Дополнительно было проанализировано время синтеза каждого из блоков. Следует отметить существенное увеличение времени выполнения — для вариации без ограничения выбора ячеек 241 %, а также вариации без использования ОРТ ячеек 214 %.
Полученные данные позволяют сделать следующие выводы:
выдвинутое выше предположение подтвердилось, использование ОРТ ячеек привело к снижению количества возникающих DRC нарушений на 14 %, связанных с трассировкой в первых двух слоях металлов. С другой стороны, это привело к увеличению потребляемой мощности на 12 %. Целесообразность применения данного подхода зависит от задач, поставленных перед маршрутом проектирования.
в критичных, с точки зрения временных характеристик, случаях САПР может использовать различные вариации ячеек Р, НР, М, RE, что в конечном итоге позволяет существенно сократить плотность и потребляемую мощность, в том числе мощность статического потребления. Все это можно объяснить отсутствием необходимости постановки дополнительных буферов и, следовательно, оптимизацией размеров ячеек, что в конечном итоге позволяет обеспечить заданные временные характеристики. Главным недостатком применения данных вариаций является существенное увеличение времени синтеза топологии блока и количества DRC нарушений, что при разработке сложных блоков может весомо увеличить время проектирования.
Таким образом, по сравнению с технологическими нормами топологического проектирования TSMC65nm можно отметить появление еще большего количества опций для изменения характеристик как в сторону улучшения энергопотребления, так и в сторону улучшения временных характеристик, а также уменьшения площади блока.
Использование всех возможных наборов ячеек ведет к существенному увеличению времени выполнения синтеза и количества DRC нарушений, что, в свою очередь, ведет к значительному увеличению времени выполнения маршрута топологического проектирования. При синтезе следует внимательно подходить к вопросу о целесообразности применения тех или иных элементов.
ЗАКЛЮЧЕНИЕ
В данной статье были рассмотрены основные ключевые моменты схемотехнического и топологического проектирования по технологическим нормам TSMC28nm. Анализ библиотечных ячеек позволил интегрировать в разработанный ранее маршрут проектирования СБИС новые аспекты, направленные на оптимизацию таких критичных параметров, как быстродействие и энергопотребление, при минимальном количестве DRC нарушений и отсутствии ошибок по времени предустановки и удержания тактового сигнала в ходе статистического временного анализа в регистровых элементах комбинационной логики. Полученные данные актуальны в свете будущих работ НИИСИ РАН.
ЛИТЕРАТУРА
1. Власов А. О. «Оптимизация потребляемой мощности микросхем с использованием транзисторов с разным пороговым напряжением» 13-я Российская научно-техническая конференция «Электроника, микро- и наноэлектроника» Сборник научных трудов, 2011. — С. 65–68.
2. Genus User Guide for Legacy UI. Product Version 16.2. April 2017, Cadence Design Systems, Inc.
3. Dolphin Technology Standard Cell Usage Document, September 2012, Dolphin Tecnology, Inc.
Отзывы читателей