EDN China > 技术文章 > 微处理器与DSP > DSP应用 > 正文
? 2016博客大赛-不限主题,寻找电子导师,大奖升级??

(多图) KeyStone存储器架构

德州仪器 (TI) 胡春华 David Bell : EDN China?? 2011年08月12日 ?? 收藏1

  序言

  随着全球范围内的海量数据对无线和有线网络的强大冲击,运营商面临着严峻的挑战,他们需要不断推出既能满足当前需求也能满足未来需求的网络。因此,通信基础局端设备制造商在致力于降低每比特成本和功耗的同时,也在不断寻求能够满足当前及至未来需求的核心技术。TI最新推出的新型 KeyStone 多内核 SoC 架构能够游刃有余地满足这些挑战。

  基于新型 KeyStone 多内核 SoC 架构的器件集成了多达 8 个TMS320C66x DSP CorePac,能够实现无与伦比的定点与浮点处理能力。KeyStone 架构经精心设计,是一款效率极高的多内核存储器架构,允许并行执行任务的同时,还能使所有的 CorePac实现全速处理。本文探讨了 KeyStone 存储器的层级结构,及其将如何与 SoC架构的其他组件进行连接以实现多内核全速处理。

  KeyStone存储器架构

  德州仪器 (TI) 积极创新,努力迎接多内核 SoC 技术带来的挑战。TI KeyStone 架构拥有众多组件,其中包含全新的 C66x 定点和浮点 DSP 内核、可实现基于标准的优化功能和接口的可配置协处理器、层级存储器架构、TeraNet 交换结构以及可将上述各组件连结在一起的多内核导航器。KeyStone 架构具备三个存储等级。每个 C66xCorePac 均拥有自己的一级程序 (L1P) 和一级数据 (L1D) 存储器。另外,每个 CorePac 还拥有局域的二级统一存储器。每个局域存储器均能独立配置成存储器映射的SRAM、高速缓存,或是两者的组合。

  KeyStone 架构包含共享的存储器子系统,其由通过多内核共享存储器控制器 (MSMC) 连接的内部和外部存储器组成。MSMC 允许CorePac动态地分享程序和数据的内外部存储器。

KeyStone 器件方框图 - TMS320TCI6616

图 1 - KeyStone 器件方框图 - TMS320TCI6616

  MSMC 的内部 RAM 允许各部分被配置成共享的二级 RAM 或者共享三级 (SL3) RAM,从而可为程序员提供高度的灵活性。SL2 RAM 仅能够在局域 L1P 和 L1D 高速缓存中缓存,而 SL3另外还可在局域 L2 高速缓存中进行缓存。

  为向软件执行提供快速通道,外部存储器同内部共享存储器一样,通过同一存储器控制器进行连接,而并非像在嵌入式处理器架构上所进行的传统做法那样,与芯片系统实现互通互连。外部存储器始终被看作是 SL3 存储器,并可在 L1 和 L2 中缓存。接下来的我们将探讨在KeyStone 架构中实现的各种性能增强。

  存储性能增强

  C66x CorePac 的内部存储器架构与此前 C6000? DSP 系列产品相比,主要在四个方面实现了增强,而这突出体现在性能指标和实用性方面。这些改进旨在实现如下优势:1) 无论多个内核和数据 I/O 是否处于高度繁忙状态,都能提高存储器各级的执行效率;2) 更轻松便捷地管理多个内核和数据 I/O 之间的缓存一致性;3) 存储器的保护与地址扩展,以及;4) 将对软错误的保护进一步扩展至较高级别的存储器。

  执行效率 —— C66x CorePac 的存储器子系统在功能上与最新的 C64x+? 和C67x? 系列 DSP 系列 C64x+? 和 C67x? 的相当。每个局域 L1存储器均为 32KB,并能够配置成全速缓存(默认)、全存储器映射 SRAM,或是 4、8 或 16KB 高速缓存选项的组合。L1P 始终为直接映射,而 L1D 则始终为双向集关联 (two-way set-associative)。

CorePac 存储器增强

图2 – CorePac 存储器增强

  相应地,局域 L2 存储器是高达 1MB 的统一存储器(最初宣布推出的器件为 512KB 或 1MB)。此外,该存储器也可配置为全高速缓存、全存储器映射 SRAM(默认),或是 32、64、128、256 或 512KB 四路集关联高速缓存选项的组合。

  至共享存储器子系统的存取路径经过精心的重新设计,能够显著降低至较高级存储器的时延,无论所有CorePac和数据 I/O 是否处于繁忙状态,均能维持相同的效率。

  二级存储器效率 —— 与之前的系列产品相比,LL2 存储器器件和控制器的时钟运行速率更高。C66x LL2 存储器以等同于 CPU 时钟的时钟速率运行。更高的时钟频率可实现更快的访问时间,从而减少了因 L1 高速缓存失效造成的停滞,在此情况下必须从 LL2 高速缓存或 SRAM 获取存储器)。光这一项改进就自动使得从 C64X+ 或 C67X 器件进行应用升级实现了很大的速度提升,而且无需为 C66x 指令集进行重新编译。

  此外,无论是对用户隐藏的还是由软件命令驱动的高速缓存一致性操作都会变得更高效,而且需要执行的周期数也更少。反之,这也意味着自动的高速缓存一致性操作(例如检测、数据移出)对处理器的干扰更小,因而停滞周期数也更少。手动的高速缓存一致性操作(例如全局或模块回写和/或无效)占用较少的周期即可完成,这就意味着在为共享存储器判优的过程中,实现CorePac 之间或 CorePac 与 DMA 主系统的同步将需要更短的等待时间。

  共享存储器效率 —— 为进一步提高共享存储器的执行效率,在 CorePac 内置了扩展存储器控制器 (XMC)。对共享内部存储器 (SL2/SL3) 和外部存储器 (DDR3 SRAM) 来说,XMC 是通向 MSMC 的通道,且架构的构建基础实施在此前具有共享二级(SL2)存储器(比如TMS320C6472 DSP)的器件之上。

共享存储器架构

图 3 - 共享存储器架构


上一页12下一页
?? ?? ??


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友
?? ??

KeyStone? 存储器? TMS320TCI6616? DSP?

相关文章

我来评论
美国的游客
美国的游客 ??? (您将以游客身份发表,请登录 | 注册)
?
有问题请反馈