脑机接口 (BMI) 有望恢复受损的运动功能,并且由于它们可以解码神经信号来推断行为,因此可以作为了解运动控制神经机制的有力工具。然而,诸如声音交流之类的复杂行为超出了最先进的解码技术的范围,这些技术目前仅限于相对简单的运动动作。这里我们介绍了一种用于鸟鸣的 BMI,它可以直接从神经活动中解码复杂的、习得的声音行为。
最先进的 BMI 通过将神经元群体活动的特征映射到运动空间,成功地从大脑活动中解码行为意图。然而,这些运动空间被现有技术限制为相当简单的动作。为了设计一个从神经活动中解码复杂、自然通信信号的原型,我们利用了鸟鸣声的两个方面。鸟鸣声是一种强大的动物声音学习模型,与人类语言有许多共同之处。首先,鸟鸣声具有时间结构(就像人类语言一样);可以使用循环神经网络将这种时间模式构建到解码器中。其次,鸟鸣声产生的生物力学已被充分理解;这使我们能够采用发声器官的生物物理模型,该模型可以捕捉歌曲的大部分复杂性并将其降低到低维参数空间 。通过结合这些技术,我们可以直接从神经活动中解码逼真的合成鸟鸣声。
我们的解码器与感觉运动核 HVC(用作专有名词)接口,其中的神经元产生高级运动指令,从而影响所学歌曲的产生。成年斑胸草雀(Taeniopygia guttata)会唱出一个刻板的主题(3-10 个音节的序列),其时间和/或运动结构被认为是在两种主要类型的 HVC 神经元的活动中编码的(图 1a)8-13。我们在雄性成年斑胸草雀体内植入了 16/32 位点 Si 探针,并同时记录了它们的歌声和 HVC 中的神经活动;然后我们使用这些数据训练一个长短期记忆网络(LSTM 5 ),将神经活动直接转化为歌声。该网络的目标是根据前几个时间段的神经活动特征值,预测时间段 t i处歌曲的频谱成分(图 1d -f)。神经活动以矩阵的形式输入,该矩阵包含每个时间段的平均发放率,每个假定的单/多单元从记录14(32/64 个簇)中自动排序;歌曲的频谱成分由 64 个对数间隔频带上的功率表示。对于每个会话(天),我们将鸟儿唱的主题的 70-110 个版本分开。然后,我们训练 LSTM 网络以找到神经到歌曲的频谱映射,并从神经活动的测试集中解码相应的频谱成分,最终恢复合成生成的歌曲主题的波形。我们采用了几种方法来避免过度拟合。首先,将每对神经特征窗口/目标呈现给网络的顺序是随机的,以便每个时间点的频谱成分预测是独立的;其次,我们使用了标准技术,例如 L2 权重正则化、dropout 和提前停止(参见方法)。我们还采用了两种不同的程序来生成训练/验证和测试集。对于按主题进行训练/解码,我们将数据分成不重叠的歌曲主题集(保留 10% 用于测试),并在这些集上进行训练/解码。或者,对于分段训练/解码,我们训练网络时将每个主题的一部分从训练集中剔除,这样网络就可以在一个全新的歌曲片段上进行测试);我们使用不重叠的测试片段重复此过程以获得完整的解码主题(参见方法)。
图 1.基于神经网络的解码器,从运动前神经活动合成鸟鸣声。(a)收集清醒歌唱动物的神经活动。经过分类的、细胞外记录的单个/多个单元显示出不同程度的与歌唱相关的稀疏性、稳健性和脉冲精度(4 个示例簇,顶部轨迹:与鸟类主题的再现对齐的超过 70 的归一化平均发放率,声谱图)。(b)在 HVC 的下游,后运动通路核(nXII、RAm/PAm)控制驱动声音产生的肌肉20。注射器和呼吸肌协同作用,调节通过阴唇组的空气流动并产生声音15 。复杂的阴唇运动由非线性振荡器17的方程捕捉;定义声音声学特性的参数是注射器和呼吸肌活动的替代物6。(c)为了从生物物理模型中重现特定的声音(顶部),我们拟合参数(中间 {α(t), β(t), e(t)}),使得在整合后,合成歌曲(底部)与音高和频谱丰富度相匹配(参见方法)。(d)解码器神经网络的输入是一个数组,其中包含一组神经特征的值(排序单元/多单元的尖峰计数),该值位于 M 个前时间步骤的窗口内。(e)解码器网络的隐藏层由密集连接的 LSTM 单元组成。(f)当直接训练/解码歌曲的频谱特征时,网络的输出是给定时间内跨一系列频带的功率向量;然后将解码的频谱切片反转以产生合成歌曲(顶部)。当通过生物物理模型进行训练/解码时,网络在给定时间的输出是一个三维参数向量(如 c 所示);然后将模型方程与这些值集成,产生合成歌曲(底部)。
合成的神经解码歌曲听起来与目标鸟类自己的歌曲 (BOS) 相似 (补充文件 A1、A2;图 2a 、b;图 S1中的其他鸟类)。我们通过计算每个解码基序与其对应 BOS 之间的声谱图均方根误差 (sRMSE) 来量化这种相似性。作为参考,我们计算了会话中鸟儿唱出的所有基序对之间的 sRMSE。作为对照,我们展示了每个基序(BOS 和合成)与一组来自 47 只同种鸟 (CON) 的基序之间的 sRMSE。通过这种测量,解码的歌曲与高度刻板的鸟类自己的歌曲非常相似:解码歌曲的 sRMSE 在内在 BOS 变异范围内,并反映了 BOS 和 CON 之间的差异 (图 2d )。
图 S1.用 LSTM 训练频谱成分生成的三只鸟的合成基序。(a)每只鸟的基序(BOS)的示例声谱图和从神经活动解码的相应基序(鸟 z007、z017、z020;每只鸟一个会话)。歌曲是通过基序训练/解码合成的(表示为 SYN)。(b)性能评估,每个箱线图的构建方式与之前针对图 1 的描述一致。
图 2.从运动前神经活动解码出的歌曲与记录下来的鸟类自己的歌曲相似。(a)鸟类基序的一个演绎的声谱图和波形(z007)。(b)通过解码神经活动的频谱成分并反转声谱图生成的基序。(c)通过解码神经活动的生物物理模型参数并整合模型生成的基序。(d)在频谱成分上训练的 LSTM 解码器的性能(会话 z007-09-09)。每个箱线图总结了所有成对声谱图-RMSE 比较:使用整个基序训练网络时每个解码的基序及其对应的目标(Mot-wise/BOS)、使用基序片段训练网络时每个解码的基序及其目标(Pc-wise/BOS)以及鸟类自己歌曲的不同演绎提供的参考(BOS/BOS);同样,对于控制,对鸟类基序和同种鸟类基序(BOS/CON)、解码基序和同种基序(Mot-wise/CON 和 Pc-wise/CON)的演绎也采用相同的测量方法。(e)与 (d) 中通过生物物理模型(会话 z007-09-10)的 LSTM 解码器相同,但增加了从神经活动解码的每个基序与通过将模型与目标参数(Mot-wise/FIT 和 Pc-wise/FIT)相结合获得的相应合成基序之间的 sRMSE 比较。面板 (a、b、c) 中表示的声音对应于补充音
我们可以通过考虑位于运动指令和声音输出之间的生物力学装置来简化解码问题。鸣管由两组唇皱襞组成,它们振荡并调节气流以产生声音(图 1b )。这些阴唇的动态可以用非线性振荡器的运动方程来建模,其中产生的声音的特征仅由两个参数决定,这两个参数代表驱动鸣管的生理运动指令 (呼吸和鸣管肌肉活动) 。该模型可以实时产生合成发声,并且由它产生的声音是逼真的,因为将它们回放给睡眠/麻醉动物会在 HVC 神经元中引发听觉反应,其与对 BOS 9 的反应中观察到的高选择性相匹配。该模型使我们能够降低解码器目标空间的维数:对于记录的每一个发声,我们找到在对模型的微分方程进行积分后,在音高、频谱丰富度和振幅方面产生最接近匹配的参数(图 1c、S5、S6)。因此,我们将每个歌曲片段表示为 3d 参数空间中的时间序列。然后,我们训练网络以生成与一组脉冲活动相对应的参数值(遵循与之前相同的机制)(图 1d -f),最后将这些参数输入生物物理模型并将其集成以产生声音。
东莞富临医疗科技有限公司是Open Ephys 和 Intan Technologies 在亚洲的代理商,富临医疗为亚洲客户提供“技术服务”与“电生理产品”
这种基于生物物理模型的解码器产生的发声听起来与自然声音相似(补充文件 A1、A3)。尽管网络的目标不是频谱成分的相似性,而是驱动模型的参数的相似性(图 2e;图 S6表示解码参数的性能) ,但 BOS/解码歌曲之间的 sRMSE 明显小于控制(BOS/CON)。
我们在此介绍的解码器可用于实时 BMI。解码参数(频谱/生物物理)和随后合成歌曲所涉及的计算很容易实时进行(反转频谱图/集成生物物理模型)。我们还可以通过跳过尖峰分类的计算负担来提高神经特征表示的效率:相反,我们使用超阈值尖峰事件(未分类的尖峰)来训练/测试解码器(图 S4、S5)。我们还能够解码未来 30 毫秒的频谱特征,从而在活动读数和预期歌曲合成之间分配计算时间(图 S3)。此外,生物物理模型实现的简化使我们能够使用轻量级前馈神经网络 (FFNN) 实现解码器(图 S6)。
图 S2.从数量减少的回溯箱解码的合成基序(通过频谱成分进行训练/解码;基序方式)。(a)在输入到解码器的神经活动窗口中,对从数量减少的回溯箱 (LB) 解码的合成基序的性能评估。解码基序与其对应的 BOS 基序之间的 RMSE 与鸟类自己的歌曲 (BOS/BOS) 之间的 RMSE 以及同种基序与鸟类自己的歌曲 (CON/BOS) 之间的 RMSE 进行比较。(b)从数量减少的回溯箱解码的鸟类自己的基序和相应的合成基序的示例频谱图。
图 S3.解码时,神经特征窗口与目标频谱成分之间存在延迟。(a)使用不同数量的延迟箱(Lats)(神经特征窗口右端与目标频谱切片之间的时间箱)解码的基序的性能。具有不同数量延迟箱的合成基序与相应的 BOS 基序之间的 RMSE,以及同种基序与鸟类自己的歌曲(CON/BOS)之间的 RMSE。(b)使用不同数量的延迟箱(最多 8 个箱或 34.4 毫秒的延迟)解码的合成基序的示例声谱图。
图 S4.使用频谱特征和未分类的尖峰(阈值化的细胞外活动)训练 LSTM 解码器。(a)从排序的尖峰计数(BOSSpikesorted)和阈值化活动(BOS/Thresholded)解码的合成歌曲之间的性能比较。(b)示例声谱图。
图 S5.从阈值细胞外活动(未分类的尖峰)解码的合成歌曲和拟合细节。(a)解码的主题。(b)解码的生物物理模型参数及其目标(离线拟合以近似 BOS)。(c)由 (c) 中的参数产生的合成主题对应(目标)。(d)性能评估(主题训练/解码)。(p<1e-10;双侧 Mann-Whitney 检验)。
图 S6.使用前馈架构和拟合细节从排序的尖峰解码合成歌曲。(a)解码的主题。(b)生物物理模型的解码参数及其目标(离线拟合以近似 BOS)。(c)由(c)中的参数产生的合成主题(目标)。(d)对应的 BOS。(e)性能评估(与正文中图 2的标题相同)。(f)每个主题的目标和解码参数(Neur/Fit)之间的平均相关性。训练/解码条件用 MW(主题)或 PW(分段)表示;作为参考,我们还计算了每个训练条件(Neur/FitShuff)的目标和打乱解码参数之间的相关性。(p<1e-10;双侧 Mann-Whitney 检验)
图 S7.以相关系数的形式对频谱成分进行训练的 LSTM 解码器的性能。相关系数:同种基序和鸟类自身基序 (CON/BOS);通过基序训练解码的同种基序和合成基序 (CON/Motif-wise);通过分段训练解码的同种基序和合成基序 (CON/Piece-wise);所有鸟类自身基序对 (BOS/BOS);通过基序训练 (BOS/Motif-wise) 和分段训练 (BOS/Piece-wise) 得到的合成基序和相应的自然基序。
我们已经展示了一种用于复杂通信信号的脑机接口,使用动物模型进行人类语音和多巴胺能运动学习。我们的解码器可以打开通往新模型和实验的大门,旨在了解神经活动如何转化为自然动作。此外,它提供了意图和复杂运动输出之间的生物力学联系,使我们能探究运动行为的外周效应器如何影响运动意图的神经编码。由于脑机接口与模拟人类发声运动皮层4的运动前区相连,并且所涉及的计算模块可实时实现,我们的方法还为生物医学语音假体设备提供了宝贵的试验场。
一、方法
1.1 主题
所有程序均经加州大学动物护理和使用委员会批准(协议编号 S15027)。电生理数据收集自 n=3 只成年(>120 天/小时)雄性斑胸草雀。在整个实验期间,鸟类被单独饲养,并保持 14 小时的明暗循环。这些鸟类未用于任何其他实验。
1.2 神经和音频记录
我们使用了 4 柄、16/32 点 Si 探针,内部涂有 PEDOT。我们将探针安装在内部设计的可打印微驱动器上,并植入靶向 HVC 核的微驱动器中。音频通过连接到前置放大器(ART Tube MP)的麦克风记录。使用 Intan RHD2000 采集系统、Open Ephys和定制软件将细胞外电压和预放大音频放大并以 30KHz 的频率数字化。
1.3 歌曲检测
使用用 Python 编写的模板匹配过滤器来查找主题的推定实例,然后手动管理以排除假阳性。
1.4 尖峰分类
使用 Kilosort 检测和排序尖峰;有关该过程的详细信息,请参阅14。簇的数量设置为 32 或 64(探针通道数量的两倍),并且在初始自动拆分后,我们没有执行事后手动整理、拆分或合并。
1.5 超阈值事件检测
我们用 Python 编写了脚本来检测每个通道中的尖峰事件。首先,使用运行窗口估计每个通道的 RMS,时间段从几分钟到一个小时不等。然后,使用包 peakutils (min_distance=0.5ms) 检测绝对值偏差超过 RMS 数 (2.5-5.5) 的事件。
1.6 数据集准备
神经活动特征
对所有 64 个簇进行尖峰分类后,我们提取了每个基序内的尖峰计数,并将它们压缩到 4.3 毫秒(128 个样本,每秒 30,000 个样本)的时间段中。相同的时间段也用于目标准备(光谱特征和生物物理特征)。
在使用频谱特征训练网络时,每个时间步骤的目标都是一个包含频谱图切片(对数功率标度)的向量。我们首先为每个主题波形生成 1024 波段频谱图(2048 个 FFT 步长)。然后我们将这些频谱图映射到梅尔滤波频谱图上。梅尔标度是听众判断等距的感知音高标度21。我们使用的梅尔标度和频率之间的转换首次在22中引入:
其中f是以赫兹表示的频率。这种尺度有效地近似了听觉系统,因为研究表明,听众需要在正常频域中越来越大的间隔才能实现相同的音高差异。在我们的研究中,应用了 64 滤波器梅尔尺度滤波器组将 1024 频带频谱图转换为 64 频带梅尔滤波频谱图,其中每个片段都用作模型的目标。梅尔滤波频谱图可以轻松反转回基于频率的频谱图,随后在时间域中转换为波形。
1.7 发声器官的生物物理模型
斑胸草雀发声器官的模型之前已有介绍。该模型主要考虑声源和声道,进一步塑造发声的声学效果。
声源(鸣管)由两组组织或阴唇组成,它们可在鸣管下压力诱导下发生振荡并调节气流以产生声音15。阴唇的运动表示为沿气流方向传播的表面波,可以用组织中点的横向位移来描述17。它的数学形式是非线性振荡器的运动方程,其中决定解决方案声学特征的两个参数由鸟类控制:鸣管下气囊压力和恢复刚度(通过鸣管肌肉的活动)。为了实时集成模型,找到了一组计算成本较低但能够在参数变化时显示拓扑等效的解集的方程16:
其中,x表示振动阴唇中点位置的偏离,γ是时间尺度因子,参数α和β分别是气囊压力和腹侧注射器肌肉活动的函数。
上声道进一步塑造声源产生的声音,决定音色等频谱特性。我们使用的声道模型包括一个管道(代表气管)和一个亥姆霍兹共振器(代表口咽食管腔 (OEC) 23)。声道输入处的压力为Pi ( t ) = a × x(t) – x(t-τ),其中a × x(t)是调制气流对波动的贡献,r是长度为L的管道另一端的反射系数,c 是声速。通过求解该声学电路的电模拟,我们可以获得系统输出处的压力波动(声音)。
1.8 参数拟合
为了拟合用于重建歌曲的参数系列,我们执行了与之前描述的类似的程序6、9 。时间尺度参数γ设置为 23,500;α在发声期间设置为 -0.15,否则设置为 0.15,β的设置是为了最小化合成歌曲片段和录制歌曲片段之间的(音高、频谱内容)空间距离6 ;包络(正文中的 e(t))是通过整流和平滑记录的波形获得的;OEC的参数是固定的,与6中的值相同。为了提取歌曲的音高,我们遵循24中提出的自动程序的修改,并添加了一层手动管理。在对模型进行积分时,我们将提取出的包络(e(t))作为计算a × x(t)时的额外乘法因子,因为它恢复了在将模型简化为正常形式并用双值参数α驱动它时丢弃的幅度波动。
1.9 神经网络训练
基于神经网络的解码器使用 Python 编写,使用 Tensorflow,有时也使用 Keras。它们在配备 NVidia GPU(Tesla k40、Titan Z 和 Titan X Pascal)的 PC 上运行。
1.10 LSTM 网络架构
该网络有 2 层 LSTM 单元,第一层有 30 个单元,第二层有 20 个单元。输出层具有与目标空间一样多的线性单元(64 个用于频谱图波段,3 个用于生物物理模型参数)。两个 LSTM 层在训练期间都使用了 20% 的 dropout 和 0.001 L2 正则化以防止过度拟合25。
1.11 前馈网络架构
该架构与 LSTM 网络基本相同,但它用三层密集的 relu 单元层26取代了 LSTM 层。这些层中的第一层将输入向量的维度减半;然后每一层将前一层的维度减半。所有层在训练期间都使用了 20% 的 dropout 和 0.001 L2 正则化以防止过度拟合25。
1.12 训练过程
我们利用基于梯度的优化器 (Adam/rmsprop 27 ) 和均方误差 (MSE) 作为 LSTM/FFNN 的损失函数。实验了两种训练条件,称为主题训练和分段训练。
主题式训练:我们使用 10% 的主题进行测试,其余的主题进行训练。我们使用不重叠的主题作为测试集,进行了 10 次传递,以使解码的示例数量与会话中的主题数量相同。在每次传递中,所有神经活动/解码器目标对(每个箱一个)都以随机顺序输入到网络中,无论是训练还是解码。
分段训练:我们在训练时保留每个主题的一小部分(大约 3.3%);对补体进行训练并生成与掩蔽部分相对应的歌曲;我们重复此过程,平铺整个主题,并使用对解码器而言新颖的数据段生成整个主题。在两种训练条件下,训练集的 10% 被保留为验证集以进行提前停止,如果验证损失在 5/10 个训练周期内未能减少,则训练会话将终止。
1.13 歌曲波形生成
频谱图反演
我们使用 LSEE-STFTM 算法将频谱图反转回音频波28。该算法通过最小化短时傅里叶变换 (STFT) 和估计的 STFT 之间的均方误差,从短时傅里叶变换幅度 (STFTM) 迭代估计信号,然后对估计信号执行 STFT,其幅度将传递到下一次迭代。
在每次迭代中,使用以下公式近似信号:
其中x ( n ) 表示估计信号;w ( n ) 表示 STFT 中使用的分析窗口。变量S是一个正整数,表示 STFT 的采样率。这里,y w ( mS , n ) 是与Y w ( mS , n )相对应的目标信号,它表示目标 STFTM,在我们的例子中是频谱图功率。为了在每次迭代中计算,我们使用正弦窗口
其中L表示窗口的长度。这里,w r ( n ) 是一个矩形窗口,其幅度为在 0 ≤ n < L范围内,在 0 ≤ n < L 范围外任意位置均为零。通过a = .54、b =-.46可得到改进的汉明窗,设置每次迭代获得x ( n ) 值后,计算x ( n )的 STFT ,在下一次迭代中用其代替Y w ( mS , n )。事实证明,在算法的每次迭代中,目标 STFTM 和估计 STFTM 之间的平方误差都会减小
生物物理模型整合
一旦解码器预测了模型参数,就会对其进行重新采样并馈送到常微分方程积分器。重新采样到 30 Khz(使用三次插值)。四阶龙格-库塔 ODE 积分器(自定义编码)以 (900 Khz) - 1时间步长对模型方程进行积分。
绩效评估
均方根误差 (RMSE)
我们使用每对原始和预测频谱图幅度之间的 RMSE 来评估模型的性能。
频谱图归一化
为了解释不同鸟类的基序之间的振幅变化,我们对每只鸟的声谱图进行了标准化,使得每只鸟的原始声谱图集合的最大功率为 1,最小功率为 0:
其中p i是原始频谱图或标准化之前的预测频谱图上某个点的功率,而是对应点的归一化功率。p max表示整个原始声谱图集的 p i 最大功率,而p min表示整个原始声谱图集的最小功率。通过这种归一化,我们能够解释不同鸟类的图案之间的差异,同时保留同一只鸟类的图案之间的差异。
成对性能比较
我们对不同鸟类组内和组间进行了声谱图-RMSE 比较(如图 2d、e 中的箱线图所示)。BOS /BOS:比较提供了会话期间鸟类自身主题变化的基线:每对主题再现的声谱图-RMSE。Mot -wise/BOS:在按主题训练/解码网络时,每对自然主题和从神经活动解码的相应主题的声谱图-RMSE 值。Pc -wise/BOS:在按片段训练/解码网络时,每对自然主题和从神经活动解码的相应主题的声谱图-RMSE 值。
为了为歌曲变化提供额外的参考,我们还计算了同种鸟类(其他斑胸草雀;其中一半来自我们的群体,一半来自其他群体)的一组 47 个基序的声谱图 RMSE 比较。这产生了以下集合:BOS/CON:每个 BOS 版本和所有同种(CON)基序的声谱图 RMSE。Mot -wise/CON:按基序训练/解码网络时,从神经活动解码的每个基序和所有 CON 基序的声谱图 RMSE 值。BOS /CON:每个 BOS 版本和所有同种(CON)基序的声谱图 RMSE。Pc -wise/CON:按片段训练/解码网络时,从神经活动解码的每个基序和所有 CON 基序的声谱图 RMSE 值。
公司地址:广东省东莞市樟木头镇塑金国际1号楼810