Разпознаване на гласна реч от електроенцефалография на плъх с помощта на невронна мрежа с дълга краткосрочна памет Част 3

Dec 28, 2023

Класификатори за машинно обучение

Производителността на BiLSTM беше сравнена с конвенционалните класификатори за машинно обучение: SVM с линейно ядро ​​(SVM_lin), SVM с радиално базово функционално ядро ​​(SVM_rbf), произволни гори (RF), NB и KNN.

Случайната гора е алгоритъм за машинно обучение, който в момента се използва широко в различни полета за анализ на данни и прогнозиране. В сравнение с други алгоритми за машинно обучение, той има по-добра устойчивост и точност, като същевременно ефективно намалява пренастройването. През последните години обхватът на приложение на произволните гори се разширява и дори може да се използва за предсказване на определени способности на човешката памет.

В областта на когнитивната психология паметта е много важно изследователско направление. Учените търсят прост и ефективен начин за оценка на нивата на човешката памет. През последните години появата на произволни гори донесе нови идеи и методи в тази област.

Random Forest може да обучи модел да прогнозира променлива, която може да бъде всичко, което искате да прогнозирате, включително способност за памет. Учените могат да подадат релевантни фактори в модел на произволна гора, за да предскажат колко добре ще даде човек на тест за памет. Тези фактори могат да бъдат фактори като възраст, ниво на образование, пол, тегло и т.н., или биологични показатели като мозъчна структура. Според изследванията съществува известна връзка между тези фактори и способността на човешката памет.

Събирайки и анализирайки големи количества тестови данни от субекти, учените могат да изградят модел, който прогнозира способността за памет в произволен горски модел. Прогнозирането на резултатите може да предостави ценна информация за бъдещото представяне на субекта при определен тест за памет.

В обобщение, алгоритъмът за произволна гора предоставя на учените нов начин за оценка на нивата на човешката памет. В бъдеще приложението му може да играе важна роля в когнитивната психология, неврологията и други области. Имаме основание да вярваме, че комбинацията от произволни гори и други техники може да осигури по-широка перспектива и по-задълбочено разбиране на изследването на функциите на човешкия мозък. Вижда се, че трябва да подобрим паметта и Cistanche deserticola може значително да подобри паметта, тъй като Cistanche deserticola може също да регулира баланса на невротрансмитерите, като например повишаване на нивата на ацетилхолин и растежни фактори. Тези вещества са много важни за паметта и ученето. В допълнение, месото може също да подобри притока на кръв и да насърчи доставката на кислород, което може да гарантира, че мозъкът получава достатъчно хранителни вещества и енергия, като по този начин подобрява мозъчната жизненост и издръжливост.

memory enhancement

Щракнете върху познайте начините за подобряване на мозъчната функция

SVM [74] има за цел да определи оптимално разделената хиперравнина чрез максимизиране на границата, която е разстоянието между опорните вектори. Използвайки трика на ядрото, SVM е в състояние да картографира пространството на функциите от ниски към високи измерения; следователно, той може ефективно да извършва линейна класификация и нелинейна класификация.

RF [75] работи чрез конструиране на множество дървета на решения по време на фазата на обучение и генериране на крайния клас, който комбинира резултатите от всяко дърво на решения. NB [76, 77] е вероятностен класификатор, базиран на теоремата на Байс и условната вероятност, която обикновено предполага, че всички характеристики са независими една от друга.

KNN [78] е непараметричен подход, който класифицира входа въз основа на мажоритарния клас на неговите k-най-близки съседи в пространството на характеристиките. Обикновено стойността k се избира като нечетно число, за да се избегнат обвързани класове.

За обучение и оценка на горните модели за машинно обучение беше използвано същото 10-CV като в BiLSTM. Всички модели на машинно обучение бяха внедрени с помощта на библиотеката Scikit-Learn [73] в Python.

статистически анализи

Всички статистически анализи бяха извършени с помощта на софтуер SPSS (SPSS версия 20.0, SPSS Inc., Armonk, NY, САЩ) и софтуер MATLAB версия 2017b (Mathworks, Inc., MA, САЩ).

Данните бяха анализирани с параметрична статистика, тъй като всички данни в проучването показаха нормално разпределение в теста на Shapiro-Wilk (p > 0.05). ANOVA беше използвана за анализиране на статистическата значимост на TFRs според различните гласни стимули.
Освен това беше проведена ANOVA с повтарящи се измервания, за да се сравни ефективността на всеки класификатор. Впоследствие бяха извършени сравнения по двойки с помощта на сдвоени t-тестове между мрежата BiLSTM и други класически класификатори за машинно обучение и беше извършена корекция на Bonferroni, за да се коригира инфлацията на процента на грешки от тип I.

Статистическата значимост на p-стойността беше определена на 0.01 при сравняване на TFR на ЕЕГ отговорите, докато нивото на значимост на thep-стойността беше зададено на 0,05 при сравняване на ефективността между BiLSTM мрежата и други класификатори за машинно обучение.

Резултати

Слухови предизвикани потенциали в отговор на гласни звуци

Общо 19 плъха Sprague-Dawley претърпяха операция за имплантиране на епидурален електрод и всички плъхове оцеляха след хирургическата процедура. В резултат на това ЕЕГ отговорите на пет английски гласни звука са записани от 19 анестезирани с изофлуран плъхове. За да се извлекат средните вълнови форми на AEP, всички невронни отговори бяха осреднени за субектите за всеки стимул. Фигура 4 представя осреднените вълнови форми на AEP за всеки гласен звук от двустранен AAF.

Както се очакваше, всеки категоричен гласен звук предизвикваше различни невронни дейности в двустранния AAF с различни пикови амплитуди и латентности. Пиковата амплитуда на AEPs, дефинирана като най-високото регистрирано напрежение след гласните стимули, беше най-малка за /i/ (61,74 ㎶ в ляво AAF и 61,27 ㎶ в дясно AAF), докато AEPs в отговор на /a/ показаха най-големите пикови амплитуди (92,12 ㎶ в ляво AAF и 90,18 ㎶ в дясно AAF).

Пиковата латентност, определена като продължителността от началото на стимула до пиковата амплитуда, беше приблизително {{0}}.39 s до 0.5 s, най-кратката в /i/(0. 39 s в ляво и дясно AAF) и най-дълго в звука /o/ (0,51 s в ляво и дясно AAF). Както е показано на Фигура 4, подобни вълнови форми на AEP са наблюдавани от левия и десния AAF.

improve your memory

Честотно-времеви анализ на ЕЕГ сигналите

Времево-честотният анализ е мощен метод за анализиране на нестационарни ЕЕГ сигнали в равнината време-честота и се използва за предоставяне на качествена информация за класификацията на ЕЕГ [79, 80]. Следователно, TFR на общо осреднената ЕЕГ беше изчислена за всеки звук, за да се идентифицират свързаните с разпознаването на гласни промени в големината и фазата на ЕЕГ трептенията при специфични честоти (Фигура 5А).

От TFR анализа се наблюдава активиране с висока мощност около делта (1–4 Hz), тета (4–8 Hz) и алфа (8–12 Hz) лента при 0.3–{{8} }.6 s от началото на стимула, независимо от звуковата стимулация на речта.

boost memory

Освен това беше проведен ANOVA тест с корекция на Bonferroni, за да се анализират статистически значимите TFR компоненти според всеки гласен стимул.

Впоследствие силата на статистически значимите области (p < {{0}}.01) беше представена от F-стойността (Фигура 5B). При анализа повечето честотни ленти на ЕЕГ от 0,2–0,8 s са значително различни в зависимост от гласните стимули.

В допълнение, част от TFR от {{0}}.8–1 s също беше статистически различна за всеки стимул. Като се имат предвид формите на вълната на AEP и резултатите от тестовете ANOVA, беше направен изводът, че AEP от 0.2–0.8 s след гласния стимул са най-информативните невронни реакции и са свързани с разпознаването на звука на гласната.

Моделно обучение и оценка на BiLSTM мрежите

Въз основа на резултатите от Фигура 5B бяха избрани ЕЕГ данни, които бяха лентово филтрирани между 1–60 Hz с времеви прозорец от 0.2–0,8 s. След това z-резултатите на избраните ЕЕГ данни бяха използвани като вход към BiLSTM мрежата.

Всички ЕЕГ данни бяха разделени на 10 пъти във всеки субект, за да се оценят BiLSTM мрежите. Следователно ефективността на теста е получена чрез сгъване на обучения модел с останалите гънки в 10-CV схема.

Ефективността на мрежата беше оценена с помощта на показатели за точност, f{{0}}резултат и капа статистика на Коен κ (Фигура 6 и Таблица 1). Средната точност на ЕЕГ дискриминация от пет класа на BiLSTM мрежата беше 75,18 ± 7.06%, а f1-резултатът беше 0.74 ± 0.08 . κ на Коен е 0,68 ± 0,09, което се тълкува като умерено съгласие [81].

За да се анализира по-подробно производителността на мрежата BiLSTM, матрицата на объркване на фигура 7 беше начертана. Това показва, че много от грешките се дължат на грешната класификация на ЕЕГ отговорите на /u/ като /a/ и /e/ като /o/. Въпреки това мрежата BiLSTM класифицира повечето от ЕЕГ отговорите с повече от 50% точност, висока точност в петкласовата ЕЕГ класификация.

10 ways to improve memory

Сравнение на мрежата BiLSTM с други методи за машинно обучение

За да се потвърди ефективността на мрежите BiLSTM при класифицирането на ЕЕГ за разпознаване на гласни звуци, резултатите бяха сравнени с тези на други конвенционални методи за машинно обучение. Фигура 6 и таблица 1 показват ефективността на класификаторите за машинно обучение.

RF демонстрира най-високата точност на класификацията сред конвенционалните алгоритми за машинно обучение (точност: 63,21 ± 7,41%, f1-резултат: 0.62 ± 0.09, и на Коен : 0.52 ± 0.1). В статистическия анализ ефективността на класификацията на RF не беше значително по-висока от тази на SVM_lin и SVM_rbf, докато показа по-висока производителност в сравнение с тези на NB и KNN.

Въпреки това, когато ефективността на конвенционалните алгоритми за машинно обучение, включително RF, беше сравнена с BiLSTM, беше очевидно, че мрежата BiLSTM е по-добра за всички показатели, използвани в изследването (p < 0.01).

В матрицата на объркването конвенционалните алгоритми за машинно обучение не могат да различат добре определени ЕЕГ отговори. По-специално, всички конвенционални алгоритми за машинно обучение изпитваха трудности при разграничаването на звука /u/. Беше отбелязано, че алгоритмите показват тенденция да класифицират погрешно звук /u/ като /a/ средно 30% от времето (25,96% в NB до 36,97% в KNN), което води до намаляване на цялостната ефективност на класификацията (Фигура 7) .

improving brain function

Дискусия

В това проучване епидуралните ЕЕГ отговори на плъхове към пет категорични гласни звука (/a/, /e/, /i/, /o/ и/u/) бяха дискриминирани с помощта на мрежата BiLSTM. Петкласни класификации на епидуралните ЕЕГ сигнали бяха извършени на базата на един опит, което е известно, че е предизвикателство. За да се увеличи максимално ефективността на обучението, това проучване се опита да определи специфични компоненти на ЕЕГ, които биха могли да бъдат свързани с разпознаването на звуците на речта в мозъка на плъхове и използва тези компоненти на ЕЕГ като входни характеристики. В резултат на това с помощта на BiLSTM беше постигната относително висока производителност при класифицирането на AEP в пет различни гласни звука. Сравнението на производителността на класификацията на мрежата BiLSTM с други алгоритми за машинно обучение показа, че мрежата BiLSTM превъзхожда други класически класификатори. Тези резултати показват, че мрежата BiLSTM, обучена с ЕЕГ компоненти, свързани с разпознаване на реч, надеждно класифицира AEP към всеки категоричен гласен звук с висока степен на точност. Доколкото ни е известно, LSTM мрежите не са били приложени за класифицирането на ЕЕГ отговорите на слухови стимули и това е първото изследване, което използва алгоритъм за дълбоко обучение за анализиране на ЕЕГ сигнали от AAF на плъх.

short term memory how to improve

Понастоящем само няколко проучвания са използвали LSTM архитектура за постигане на най-съвременни резултати в класификацията, базирана на ЕЕГ. Архитектурата LSTM е подходяща за класификация, базирана на ЕЕГ, тъй като нейната структура, подобна на верига, може да улови времевата последователност на ЕЕГ данните [82]. В началото изследванията се фокусираха върху подобряване на резултатите от класификацията чрез различни LSTMархитектури; въпреки това, входните характеристики все още се извличат ръчно, както при конвенционалните методи за машинно обучение [83, 84].

Циурис и др. оцени производителността на различни комбинации от LSTM мрежови елементи, за да намери най-ефективните LSTM архитектури за откриване на епилептични припадъци, като по този начин получи почти перфектни резултати при прогнозиране на пристъпи (100% чувствителност и 99.86% специфичност) [83]. Тъй като LSTM е мощна структура за обработка на последователни данни, някои проучвания използват необработени ЕЕГ данни като входни характеристики с минимална предварителна обработка. Тъй като мрежата LSTM директно научава функции от необработени ЕЕГ данни, представянето в проучванията за разпознаване на емоции се подобрява с най-малко 12% [85], а резултатите от проучванията за класификация на моторни изображения също се подобряват [86] в сравнение с други традиционни техники за извличане на характеристики.

Освен това архитектурата BiLSTM е използвана за класификация, базирана на ЕЕГ, тъй като има достъп до информация както от минали, така и от бъдещи състояния. Следователно, откривайки различни състояния на мозъка, отразени в ЕЕГ данните, като припадък, сън и т.н. [63–67], мрежата BiLSTM като цяло превъзхожда мрежата LSTM, която улавя само информация от миналото от последователността в посока напред. Поради тази причина е докладвано високо представяне в скорошна EEG-базирана класификация, използваща BiLSTM мрежи. Шарма и др. постигна 82,01% точност на класификация за четири вида емоции въз основа на алгоритъма BiLSTM и статистика от по-висок порядък [87]. В допълнение, мрежите BiLSTM успешно класифицираха типовете епилепсия и етапите на съня [88, 89].

Подобно на предишни проучвания, това проучване постигна сравнително добри резултати с помощта на BiLSTMnetworks. Предложеният алгоритъм успешно разграничи ЕЕГ отговорите на пет гласни звука с високи стойности на точност, f{{0}}резултат и κ на Коен от 75,18%, 74,43% и 0.68, съответно. Стойността на κ на Коен за класификация от пет класа е по-висока от тази, наблюдавана в повечето текущи проучвания [90]. Както е показано на фигура 6, методът BiLSTM произвежда най-високата стойност за всички показатели в сравнение с другите методи за машинно обучение. Освен това, за да се определи статистическата разлика в ефективността на класификацията, бяха анализирани многократно измерени резултати от ANOVA между BiLSTM и други класически методи за машинно обучение, като се използват всички тематични стойности. Чрез статистически анализ беше установено, че ефективността на класификацията на мрежата BiLSTM е значително по-висока от тази на други класически методи за машинно обучение (p <0,01). Този резултат също беше в съответствие с матрицата на объркването. Както е показано на фигура 7, мрежата BiLSTM предсказва добре истинските етикети на петте гласни звука, докато класическите методи за машинно обучение не го правят.

Прогнозата, получена чрез конвенционалния класификатор за машинно обучение, беше особено лоша при класифицирането на звука /u/; звукът /u/ беше основно погрешно интерпретиран като /a/. Дори RF, който показа най-доброто представяне сред петте конвенционални класификатора за машинно обучение, имаше процент на класификация от 34,48% за звука/u/, с 33,89% процент на грешна класификация на звука /u/ като звук /a/. Както може да се види на Фигура 4, звуците /a/ и /u/ имаха подобна пикова латентност, което е една от основните характеристики на вълновите форми на AEP (пикова латентност на звука /a/: 0.448, пик латентност на звука /u/: 0.444). Когато класификацията беше извършена въз основа на минимално предварително обработени ЕЕГ сигнали от един опит, изглежда, че подобни прилики не могат да бъдат разграничени от конвенционалните алгоритми за машинно обучение, докато мрежата BiLSTM можеше да ги различи.

Като се има предвид, че мрежата BiLSTM може едновременно да има достъп до всички минали и бъдещи контексти, чрез тази мрежа може да се научи богата информация. В допълнение, въпреки че характеристиките, отразяващи характеристиките на ЕЕГ отговорите на всеки гласен звук, бяха извлечени директно от посоките напред и назад на слоя LSTM, ефективността на класификацията беше подобрена. В това проучване можем да извлечем добри резултати от класификацията, като използваме проста BiLSTM архитектура без допълнителен ръчно изработен процес на извличане на функции.

Класифицирането на отговорите на ERP към речеви стимули в един опит е много предизвикателно поради характеристиките на ниския SNR на ЕЕГ. Въпреки че едно от ключовите предимства на метода за задълбочено обучение е способността му да научава функции на високо ниво без извличане на основни характеристики, ние се опитахме да изберем най-подходящите ЕЕГ сигнали, свързани с разпознаването на реч, за да постигнем по-добро представяне. В това проучване са наблюдавани различни форми на вълната на AEP, съответстващи на всеки говорен звуков стимул с високомощно активиране на нискочестотната лента, включително делта, тета и алфа лентите, в TFR анализите. Невронните трептения в алфа лентата са широко признати, че играят важна роля в слуховата обработка. Mazaheri et al. съобщават, че затихването на алфа активността е тясно свързано с дискриминацията на слуховите цели [91].

Staruß и др. доказа, че кортикалните алфа трептения са основен механизъм за селективно инхибиране на обработката на шума за подобряване на слуховото селективно внимание към целевите сигнали [92]. Преди това открихме също, че алфа мощността е силно активирана в двустранните темпорални области след специфични звукови стимули, които са статистически различни по отношение на типа звук [48]. Освен това е известно, че делта и тета лентите са свързани с оформянето на сегментирането и възприемащото влияние на акустичната информация [93].

Въпреки че това проучване се основава на експериментални данни с животни, подобни компоненти, свързани с говора, в сравнение с предишните проучвания върху хора, са наблюдавани при анализите на TFR. Освен това, при статистическия анализ, всички ЕЕГ ленти бяха установени като значими в рамките на 1 по-безопасни от стимулите и представлява ЕЕГ компонентите, свързани със звуковото възприятие. Тези резултати са малко по-различни от тези на предишни проучвания, което предполага, че само специфични ЕЕГ ленти, като алфа лентата, са свързани със звуковото възприятие. Очаква се, че дори фините промени във всички дейности на ЕЕГ лентата се записват чрез епидуралния ЕЕГ запис, тъй като той осигурява по-висок SNR чрез намаляване на обемната проводимост и елиминиране на артефактите, които са присъщи на екстракраниалните ЕЕГ записи.

В това проучване бяха определени EEG компонентите, свързани с разпознаването на звука на речта при плъхове и компонентите на AEP бяха успешно класифицирани с помощта на мрежата BiLSTM. Това проучване обаче имаше някои ограничения. Първо, броят на включените предмети беше твърде малък, особено за задълбочено обучение. Освен това, това проучване не оценява ефективността на всеки класификатор с външно валидиране, а вместо това използва 10-CV за преодоляване на ограничените размери на извадката. Освен това не можем да изключим възможността слуховата система на плъха да реагира непрекъснато на звук, тъй като в това изследване е използвано само едно произнасяне на всеки гласен звук. В допълнение, придобитите ЕЕГ отговори бяха повлияни от анестетичните ефекти. Въпреки че е използвана минимална доза анестетик, забавянето на честотата с увеличаване на делта мощността е типична находка за ЕЕГ промени след инхалация на изофлуран [94]. Следователно ЕЕГ компонентите за разпознаване на гласни, предложени в това проучване, може да са различни от ЕЕГ сигналите, получени от плъхове, които са будни. Ние обаче вярваме, че качеството на ЕЕГ сигнала е достатъчно добро, тъй като ЕЕГ беше записано чрез имплантиране на епидурален електрод и не беше замърсено от артефакти на движение.

Изводи

В заключение, това проучване извлича значими невронни компоненти, свързани с категоричното възприемане на речта. Освен това, въз основа на характеристиките на LSTM мрежите, беше доказано, че BiLSTM мрежата е подходяща за класифициране на ЕЕГ отговори с минимално предварително обработени AEP. Тъй като това изследване е пионерско изследване с данни за животни, то може да не бъде пряко прехвърлено към други практически приложения, като интерфейси мозък-компютър или алтернативни комуникационни средства за хора.

supplements to boost memory

Следователно са необходими бъдещи проучвания с човешки ЕЕГ данни, за да се провери ефективността на мрежата BiLSTM при класифициране на слуховото ЕЕГ-базирано разпознаване на реч. Освен това той трябва да бъде преоценен за оптимална настройка на параметрите и извличане на функции. Очаква се това проучване да предостави нов подход за анализиране на ЕЕГ сигнали, както и ценна информация относно механизмите на възприемане и разпознаване на речта в мозъка.

ways to improve memory


Препратки

1. Wernicke C. Комплексът от симптоми на афазия. В: Cohen RS, Wartofsky MW, редактори. Сборник на Бостънския колоквиум за философия на науката 1966/1968. Дордрехт: Springer Холандия; 1969. стр. 34–97.

2. Shi Z, Yan S, Ding Y, Zhou C, Qian S, Wang Z и др. Предното слухово поле е необходимо за категоризиране на звука в задачата за кондициониране на страха на възрастни плъхове. Предни неврони. 2019 г.; 13: 1374.

3. Либерман AM, Харис KS, Hoffman HS, Griffith BC. Дискриминацията на звуците на речта в и през границите на фонемите. J Exp Psychol. 1957 г.; 54: 358–368.

4. Джонсън К. Акустична и слухова фонетика. Чичестър: Wiley-Blackwell; 2012 г.

5. Green PA, Brandley NC, Nowicki S. Категорично възприятие в общуването и вземането на решения при животните. Behav Ecol. 2020 г.; 31: 859–867.

6. Craik A, He Y, Contreras-Vidal JL. Задълбочено обучение за задачи за класификация на електроенцефалограма (ЕЕГ): преглед. J Neural Eng. 2019 г.; 16:28.

7. Na¨a¨ta¨nen R, Paavilainen P, Rinne T, Alho K. Негативността на несъответствието (MMN) в основните изследвания на централната слухова обработка: преглед. Клинична неврофизиология. Elsevier; 2007. стр. 2544–2590.

8. Garrido MI, Kilner JM, Stephan KE, Friston KJ. Негативността на несъответствието: преглед на основните механизми. Клинична неврофизиология. Elsevier; 2009. стр. 453–463


For more information:1950477648nn@gmail.com




Може да харесаш също