Nofel Gofod-Dros Dro Cydnabod Iaith Arwyddion Barhaus Gan Ddefnyddio Rhwydwaith Aml-Nodwedd Sylwgar(1)

Haniaethol: O ystyried ffrydiau fideo, ein nod yw canfod yn gywir arwyddion heb eu segmentu sy'n ymwneud ag adnabod iaith arwyddion barhaus (CSLR). Er gwaethaf y cynnydd mewn dulliau dysgu dwfn arfaethedig yn y maes hwn, mae'r rhan fwyaf ohonynt yn canolbwyntio'n bennaf ar ddefnyddio nodwedd RGB yn unig, naill ai'r ddelwedd ffrâm lawn neu fanylion dwylo ac wyneb. Mae prinder gwybodaeth ar gyfer y broses hyfforddi CSLR yn cyfyngu'n fawr ar y gallu i ddysgu nodweddion lluosog gan ddefnyddio fframiau mewnbwn fideo. Ar ben hynny, gallai ecsbloetio pob ffrâm mewn fideo ar gyfer tasg CSLR arwain at berfformiad is-optimaidd gan fod pob ffrâm yn cynnwys lefel wahanol o wybodaeth, gan gynnwys y prif nodweddion yn y casgliad o sŵn. Felly, rydym yn cynnig adnabyddiaeth iaith arwyddion barhaus spatiotemporal newydd gan ddefnyddio'r rhwydwaith aml-nodwedd sylwgar i wella CSLR trwy ddarparu nodweddion allweddol ychwanegol. Yn ogystal, rydym yn manteisio ar yr haen sylw yn y modiwlau gofodol ac amser i bwysleisio nifer o nodweddion pwysig ar yr un pryd. Mae canlyniadau arbrofol o'r ddwy set ddata CSLR yn dangos bod y dull arfaethedig yn cyflawni perfformiad uwch o'i gymharu â'r dulliau diweddaraf o'r radd flaenaf gan 0.76 a 20.56 ar gyfer sgôr WER ar setiau data CSL a PHOENIX, yn y drefn honno.

cistanche perlysiau Superman

Geiriau allweddol: iaith arwyddion barhaus; gofodol; tymmorol; aml-nodwedd; pwyntiau allweddol; hunan-sylw

1. Rhagymadrodd

Mae Iaith Arwyddion yn blaenoriaethu cyfathrebu â llaw gan ddefnyddio ystumiau llaw, iaith y corff, a symudiadau gwefusau yn lle sain i gyfathrebu [1,2]. Fel arfer, defnyddir iaith arwyddion gan bobl sy'n fyddar neu'n drwm eu clyw, ond gellir ei defnyddio hefyd mewn sefyllfaoedd lle mae'n amhosibl neu'n anodd clywed synau. Felly, mae angen system adnabod iaith arwyddion (SLR) gan ei bod yn helpu i gysylltu pobl sy'n drwm eu clyw a'r rhai nad ydynt.

Yn ystod y blynyddoedd diwethaf, mae ymchwilwyr wedi canolbwyntio llawer o sylw ar SLR oherwydd y wybodaeth weledol gyfoethog y mae'n ei darparu. Mae astudiaethau SLR diweddar fel arfer yn cael eu grwpio i adnabod iaith arwyddion ynysig (ISLR) neu gydnabyddiaeth iaith arwyddion barhaus (CSLR). Mae nifer o weithiau'n mynd i'r afael ag ISLR [3,4] yn unig, tra bod eraill yn dadansoddi tasgau haws yn unig, fel ystumiau statig ar gyfer adnabod yr wyddor [5]. Yn y cyfamser, mae'r dulliau diweddaraf fel arfer yn fwy cymhleth wrth iddynt ddatrys tasgau CSLR [6-8]. O'i gymharu ag ISLR, mae CSLR yn broblem fwy heriol gan ei fod yn ymwneud ag ail-greu dedfrydau.

Te cistanche

Cliciwch yma i weld cynnyrch te Cistanche deserticola

【Gofyn am fwy】 E-bost:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

Mae galw mawr am ymchwil CSLR o hyd oherwydd bod ei weithrediad yn gysylltiedig yn agos ag amodau bob dydd yn y byd go iawn. Nod y dull hwn yw cydnabod y gyfres o sgleiniau sy'n digwydd mewn cyfres fideo heb segmentiad clir neu hyd yn oed dim o gwbl. Ar ben hynny, mae'n ymgorffori llawer iawn o ymchwil dysgu peirianyddol a dealltwriaeth drylwyr o ymddygiad dynol. Er enghraifft, mae'n cynnwys olrhain symudiadau dynol [9], adnabod ystumiau [10], ac adnabod wynebau [11]. Serch hynny, mae sawl her i gyflawni tasgau CSLR.

Yn gyntaf, mae casglu data ac anodi yn ddrud i CSLR [12]. Efallai mai dyma un o'r heriau a wynebir yn ei ddatblygiad gan fod y CSLR yn ymwneud â rhwydwaith mawr ac mae maint y data yn effeithio'n gryf ar y perfformiad [13]. At hynny, mae nifer o setiau data sydd ar gael ar gyfer iaith arwyddion wedi'u hanodi'n wan [12,14,15]. I ddatrys y mater hwn, mae nifer o astudiaethau wedi defnyddio dull a oruchwyliwyd yn wan, ochr yn ochr â chymhwyso aliniad a modiwl echdynnu nodwedd i bensaernïaeth y rhwydwaith [12].

Yn ail, o'i gymharu ag ISLR, mae CSLR yn fwy cymhleth. Ceir gwybodaeth ddigonol trwy ddefnyddio nifer o nodweddion; profwyd bod hyn yn cyflawni perfformiad gwell na defnyddio un nodwedd fel yr adroddwyd mewn gweithiau blaenorol [16–18]. Mae'r nodweddion lluosog hyn yn cynnwys y brif nodwedd sef delwedd corff sy'n cyflawni'r cywirdeb uchaf a nodweddion ychwanegol, megis ystum, pen, llaw chwith a llaw dde, sydd â chywirdeb is ar gyfer perfformiad unigol [17,18]. Mae hyfforddi rhwydwaith mawr gyda llawer iawn o ddata yn cymryd llawer o amser [13]. Mae ychwanegu'r ffrwd mewnbwn hefyd yn cynyddu'r amser hyfforddi, tra bod defnyddio nodweddion ychwanegol sy'n seiliedig ar ddelwedd yn cynyddu'r gost [19]. Felly, mae angen inni ddewis nodweddion pwysig fel y gallwn hyfforddi'n effeithlon.

cistanche perlysiau Tsieineaidd

Yn drydydd, mae gan fewnbwn fideo nifer fawr o ddelweddau yn y dilyniant. Mae gan rai delweddau siâp llaw aneglur oherwydd y symudiad cyflym, gan arwain o bosibl at wybodaeth anghywir. Felly, mae ein model arfaethedig yn defnyddio hunan-sylw yn seiliedig ar [20] i helpu i ddewis gwybodaeth bwysig. At hynny, mae hunan-sylw a brofwyd gan [21,22] yn cael effaith ar wella perfformiad.

Felly, cynigiwn fodel newydd o'r enw y nofel sbatiotemporal sylwgar aml-nodwedd (STAMF) i ymdrin â phob problem. Fe wnaethom ddilyn gweithiau blaenorol [17,23], y profwyd eu bod yn gweithio i CSLR gyda phroblemau anodi gwan. Maent yn adeiladu'r model gan ddefnyddio tair prif gydran: y cyntaf yw'r modiwl gofodol, yr ail yw'r modiwl amser, a'r trydydd yw'r modiwl dysgu dilyniant. Rydym yn cynnig mewnbwn aml-nodwedd effeithlon ac effeithiol gan ddefnyddio'r nodwedd ffrâm lawn ynghyd â nodweddion allweddol i gyflawni tasgau CSLR. Mae'r nodwedd ffrâm lawn yn cynrychioli delwedd y corff fel y brif nodwedd, a'r nodweddion pwynt allweddol fel y nodwedd ychwanegol. Y nodwedd pwynt allweddol yw ystum y corff, gan gynnwys manylion ystum y llaw. Ystum y corff hwn yw'r nodwedd ychwanegol fwyaf effeithiol oherwydd mewn rhai gweithiau profwyd ei fod yn cyflawni'r cywirdeb uchaf ar ôl y nodwedd ffrâm lawn [17,18]. Rydym hefyd yn defnyddio modiwl sylw sy'n defnyddio hunan-sylw yn seiliedig ar [20] i ddal y nodwedd bwysig ac i helpu'r dilyniant dysgu i wella perfformiad.

Crynhoir cyfraniad y llawysgrif hon fel a ganlyn: • Rydym yn cyflwyno sylw amserol newydd i'r modiwl dilyniant er mwyn dal y pwyntiau amser pwysig sy'n cyfrannu at yr allbwn terfynol; • Rydym yn cyflwyno'r nodwedd aml-nodwedd sy'n cynnwys y nodwedd ffrâm lawn o werth RGB y ffrâm fel y prif nodwedd a nodweddion allweddol sy'n cynnwys ystum y corff gyda'r manylion siâp llaw fel nodwedd ychwanegol i wella perfformiad adnabod model; • Rydym yn defnyddio metrig WER i ddangos bod ein model STAMF arfaethedig yn perfformio'n well na'r modelau diweddaraf ar ddwy set ddata meincnod CSLR trwy'r arbrofion.

Atodiad Cistanche ger mi-Gwella Cof

2. Gweithiau Cysylltiedig

Bu sawl datblygiad mewn technoleg, ac mae llawer o ymchwil wedi'i wneud ar SLR. Archwiliodd astudiaethau blaenorol [24–27] y posibilrwydd o ddefnyddio ISLR sydd â segmentiad ar gyfer pob gair. Yn ystod y blynyddoedd diwethaf, mae dulliau dysgu dwfn wedi'u defnyddio i echdynnu nodweddion gan ddefnyddio rhwydweithiau convolutional, naill ai 2D [28,29] neu 3D [30,31], ar gyfer eu cynrychiolaeth weledol gref. Roedd mwyafrif yr ymchwil cynnar ar adnabod iaith arwyddion yn canolbwyntio ar ISLR gyda nodweddion amlfodd [30–32], megis RGB, mapiau dyfnder, a sgerbydau, sy'n rhoi perfformiad gwell.

Y dyddiau hyn, mae CSLR wedi dod yn fwy poblogaidd, er nad yw wedi'i rannu'n glir rhwng pob gair. Mae gweithiau cynnar yn defnyddio echdynnwr nodwedd CNN [6,33] a HMM [34] i adeiladu'r targed dilyniant. Mae peth ymchwil diweddar ar gyfer systemau CSLR [17,23] wedi cynnwys tri phrif gam wrth gyflawni'r dasg o adnabod problemau. Yn gyntaf, maent yn cynnal y echdynnu nodwedd gofodol, yna segmentu tymhorol, ac yn olaf synthesis brawddegau gyda model iaith [35], neu maent yn defnyddio dysgu dilyniant [17,23]. Defnyddiodd y dysgu dilyniant hwn Bi-LSTM a CTC i gloddio'r berthynas rhwng sglein arwyddion yn y dilyniannau fideo. Er ei fod yn defnyddio anodiad gwan sydd â dilyniannau fideo heb eu segmentu i ddiffinio'r sglein arwyddion, mae'r dulliau hyn wedi dangos canlyniadau addawol.

Fodd bynnag, roedd yr astudiaeth CLSR gysylltiedig ddiweddaraf a weithredodd ymagwedd aml-nodwedd [17] yn defnyddio pum nodwedd ar yr un pryd. Mae'r dull aml-nodwedd yn drymach o'i gymharu â defnyddio llai o nodweddion [19]. Ni all y dull hwn hefyd drin y fframiau swnllyd o'r dilyniant fideo sydd â gwybodaeth aneglur, megis siâp llaw aneglur oherwydd symudiad cyflym. Ar ben hynny, gall dibynnu ar ddysgu dilyniant yn seiliedig ar RNN ddod ar draws problemau gyda dilyniannau hir a gallai golli'r cyd-destun byd-eang [20].

Atodiad Cistanche ger mi-Gwella Cof

Nod yr ymchwil gyfredol yw gwella perfformiad trwy ychwanegu mecanwaith hunan-sylw [21,22] a all drin dilyniannau hirach i ddysgu'r cyd-destun byd-eang. Mae hunan-sylw yn seiliedig ar ymchwil cynnar [20] a ddangosodd fod gan hunan-sylw y fantais o allu trin dibyniaethau hir. Fodd bynnag, mae'r hunan-sylw hwn yn haws i ddysgu llwybr byrrach o'i gymharu â llwybr hirach gyda dibyniaethau hir. Yn y gwaith CLSR blaenorol [21,22] gallai hunan-sylw helpu'r rhwydwaith i ddysgu'r nodwedd yn fwy effeithiol.

Felly, yn y papur hwn, rydym yn cyflwyno model aml-nodwedd sylwgar spatiotemporal nofel. Mae'r model arfaethedig hwn i bob pwrpas yn echdynnu'r nodweddion pwysig ac yn dysgu'r dilyniant yn well trwy roi gwybodaeth bwysig gan ddefnyddio mecanwaith hunan-sylw o aml-nodwedd. Mae'r holl brosesau'n cael eu gweithredu mewn dull o'r dechrau i'r diwedd.

3. Dull Arfaethedig

Mae'r adran hon yn manylu ar dechnegau craidd ein model arfaethedig ar gyfer CSLR. Felly, rydym yn dechrau'r adran hon drwy egluro trosolwg ein model arfaethedig. Yn ogystal, rydym yn darparu mwy o fanylion am bob cydran allweddol, gan gynnwys y modiwl gofodol, y modiwl amser, a'r modiwl dysgu dilyniant. Yn ogystal, rydym hefyd yn esbonio ein modiwl sylw arfaethedig i helpu'r model i ddysgu'n well. Yn olaf, gallwn integreiddio'r fframwaith ar gyfer hyfforddiant a chanlyniad i'n model arfaethedig.

3.1. Trosolwg o'r Fframwaith

O ystyried mewnbwn fideo, nod ein model arfaethedig yw rhagfynegi'r arwydd cyfatebol yn frawddeg sglein gywir. Mae'r modiwl cyntaf yn cynhyrchu nodweddion gofodol lluosog, megis nodweddion ffrâm lawn a phwyntiau allweddol ar gyfer pob ffrâm T o'r fideo. Yna, mae'r modiwl amser yn ein galluogi i echdynnu cydberthynas amserol o'r nodweddion gofodol rhwng fframiau ar gyfer y ddwy ffrwd. Fel cam olaf, mae'r rhwydweithiau gofodol ac amserol wedi'u cysylltu â chof tymor hir deugyfeiriadol (Bi-LSTM) a CTC ar gyfer dysgu dilyniant a chanfod. Nesaf, rydym yn esbonio ein prif gydrannau yn fwy manwl ac yn olynol. Dangosir trosolwg o’n pensaernïaeth arfaethedig yn Ffigur 1.

Ffigur 1. Mae pensaernïaeth gyffredinol y dull arfaethedig yn cynnwys tair cydran: modiwl gofodol, modiwl amser, a modiwl dysgu dilyniant. Mae'r modiwl gofodol yn cymryd y dilyniant delwedd yn gyntaf i dynnu nodweddion ffrâm-ddoeth ac yna'n cymhwyso'r modiwl amser i echdynnu'r nodweddion tymhorol. Yna, anfonir y nodweddion tymhorol i'r modiwl dysgu dilyniant i berfformio rhagfynegiad geiriau a'i lunio'n frawddeg

3.2. Modiwl Gofodol

Mae'r modiwl gofodol yn manteisio ar nodwedd ffrâm lawn a nodweddion allweddol, fel y dangosir yn Ffigur 2. Mae'r modiwl hwn yn defnyddio pensaernïaeth rhwydwaith 2D-CNN fel asgwrn cefn, a dewisir ResNet50 i ddal yr aml-nodweddion. Mae ResNet50 yn fwy effeithiol i'w ddefnyddio o'i gymharu â phensaernïaeth ResNet ddiweddar o ran amser tra'n cael canlyniad tebyg [36,37]. Mae'r RGB yn defnyddio ResNet50 yn uniongyrchol, tra bod HRNet [38] yn cael y bysellbwynt o'r ffrâm fideo ac yn cael ei dynnu gan ddefnyddio ResNet50 i gael y nodweddion allweddol.

Ffigur 2. Mae pensaernïaeth y modiwl gofodol yn defnyddio mewnbwn aml-ffrwd. Ffrwd RGB fel nodwedd ffrâm lawn a ffrwd allweddellau fel nodwedd allweddol.

3.2.1. Nodwedd Ffrâm Llawn

Fe wnaethom gymhwyso ein camau rhagbrosesu i'r data RGB ac yna bwydo ein data i'r model. Yna byddwn yn eu rhoi fel mewnbwn ffrâm lawn i'n pensaernïaeth. Mae Ffigur 3 yn dangos y llun RGB gwreiddiol ar yr ochr chwith a'r ddelwedd tocio ar yr ochr dde. Defnyddir y ddelwedd wedi'i docio fel mewnbwn gan y model. Mae hyn yn dangos y cam rhagbrosesu sy'n lleihau'r rhannau llai pwysig o'r ddelwedd ac yn rhoi mwy o ffocws ar yr arwyddwr. Mae'r cnydio hwn yn defnyddio dull cnydio ar hap o [12] i ychwanegu at y set ddata. Mae'r nodwedd ffrâm lawn yn cael ei thynnu o'r ddelwedd wedi'i thocio ar gyfer pob ffrâm yn y dilyniant gan ddefnyddio'r ResNet50.

Ffigur 3. Nodwedd ffrâm lawn gan ddefnyddio delwedd RGB, y (delwedd chwith) yw'r ddelwedd wreiddiol, a'r (delwedd dde) yw'r ddelwedd wedi'i thocio i'w haddasu gyda'r model arfaethedig

3.2.2. Nodweddion Allweddol

Fe wnaethom dynnu'r nodweddion pwynt allweddol yn y modiwl gofodol o'r data RGB ar gyfer pob ffrâm yn y mewnbwn fideo. Mae ansawdd nodweddion allweddol yn chwarae rhan bwysig yn ein model arfaethedig, felly mae angen inni ddefnyddio dull cadarn, megis HRNet [38]. Fe wnaethom gyflogi HRNet [38] wedi'i hyfforddi ymlaen llaw i amcangyfrif pob un o'r 133 o bwyntiau allweddol y corff, a defnyddiwyd 27 allan o'r 133 o bwyntiau allweddol o'i ganlyniad. Fel y dangosir yn Ffigur 4, yr ochr chwith yw pwynt allweddol gwreiddiol y corff uchaf, a'r ochr dde yw'r 27 pwynt allweddol corff uchaf a ddewiswyd. Mae'r 27 pwynt allweddol hyn yn cynnwys arddyrnau, penelinoedd, ysgwyddau, gwddf, dwylo a bysedd.

Ffigur 4. Nodweddion allweddol set ddata PHOENIX-RWTH [33,39], (delwedd chwith) echdynnu o ddelwedd RGB, a'r (delwedd dde) yw'r pwynt allweddol a ddewiswyd a ddefnyddir gan y model arfaethedig.

3.3. Modiwl Amserol

Nod y modiwl amserol yw dysgu gwybodaeth ofodol o'r modiwl gofodol. Mae modiwlau dros dro yn cael eu hadeiladu trwy Gronfeydd Amser wedi'u pentyrru ar gyfer pob ffrwd. Fel y dangosir yn Ffigur 5, mae'r modiwl cronni Amser yn cynnwys haen convolution dros dro a haen cronni i dynnu nodweddion o fewnbynnau dilyniannol.

Figure 5.

Ffigur 5. Mae pensaernïaeth modiwl dros dro yn cynnwys 1D-CNN wedi'i bentyrru a haen gronni wedi'i hymgorffori â modiwl sylw. Gweithiwch yn gyfochrog ar gyfer y ddwy ffrwd nodwedd sydd wedi'u concatenated ar ddiwedd yr haenau wedi'u pentyrru, a chynhyrchu nodwedd amserol sengl gyda hyd dilyniant bedair gwaith yn llai.

Mae'r mewnbwn yn rhestr o aml-nodweddion gofodol o'r cam blaenorol. Mae'r nodwedd amserol yn cael ei sicrhau gan ddefnyddio'r haen convolution tymhorol sy'n haen 1D convolutional sengl gyda'r un hyd mewnbwn ac allbwn, ac yna haen gronni sengl sy'n lleihau'r maint i hanner. Defnyddio'r ddwy haen gronni tymhorol hyn yw'r cyfluniad gorau, yn ôl y gwaith blaenorol [12]. Ar ôl pob cronni tymhorol, rydym yn sefydlu modiwl sylw a gaiff ei esbonio'n fanwl yn Adran 3.4. Yn y diwedd, rydym yn cydgadwynu allbwn cronni amser o'r ddwy ffrwd.

3.4. Modiwl Sylw

Mae gan y fideo fframiau lluosog lle mae rhai rhannau o'r ddelwedd weithiau'n aneglur. Mae gan set ddata RTWH-PHOENIX [33,39] fwy o fframiau diffygiol na set ddata CSL [8,40,41]. Mae hyn yn digwydd pan fydd y symudiad yn rhy gyflym, gan greu delwedd aneglur ac yn arwain at y lleoliad allweddol anghywir. Ystyrir bod y ffrâm hon yn ddiffygiol a gallai arwain at gamddehongli'r nodweddion RGB a'r nodweddion allweddol. Mae Ffigur 6 yn dangos darlun o fframiau diffygiol yn set ddata RTWH-PHOENIX [33]. Er mwyn delio â'r broblem hon, rydym yn ychwanegu haen sylw.

Ffigur 6. Darlun o fframiau diffyg ar set ddata RWTH-PHOENIX [33,39]. Mae rhai o'r pwyntiau allweddol yn yr ardal law yn y sefyllfa anghywir oherwydd delweddau aneglur.

Gan ddefnyddio'r algorithm CTC, perfformir aliniad y llwybr ynghyd â'i labelu trwy ddefnyddio label gwag a chael gwared ar y labeli ailadrodd. Mae'n well gan CTC ragfynegi labeli gwag yn hytrach na ffiniau sglein pan na all wahaniaethu rhwng y ffin sglein, ond nid yw'r un o'r canlyniadau yn argyhoeddiadol. Mae hyn yn arwain y rhwydwaith i ddefnyddio CTC i gynhyrchu pigau mewn canlyniadau wrth ddadansoddi, dysgu a rhagweld [42,43]. Yn gyffredinol, mae'r golled CTC yn ceisio'r fframiau bysell, a'r canlyniad olaf yw rhagfynegiad ffrâm allwedd benodol sydd â thebygolrwydd uchel o fod yn label gwag neu'n label nad yw'n wag. Os yw'r sglein yn rhagweld yr un label neu label gwag yn olynol, mae'n arwain at yr un allbwn. Fodd bynnag, os oes label mewnosod rhwng yr un label, hyd yn oed os mai dim ond un camgymeriad sydd, mae'n arwain at golled lawer mwy. Yma mae ychwanegu haen sylw yn helpu i ddewis y dilyniant amser pwysig cyn ei ddefnyddio ar gyfer dysgu dilyniannol.

Mae'r modiwl sylw yn defnyddio mecanwaith hunan-sylw aml-ben [20]. Defnyddir y modiwl aml-ben i redeg sawl mecanwaith sylw cyfochrog ar yr un pryd. Mae sylw aml-ben yn rhedeg yn annibynnol i ganolbwyntio ar y dibyniaethau tymor byr neu'r dibyniaethau hirdymor mewn pen ar wahân. Yna caiff pob allbwn ei gydgatenu'n llinol a'i drawsnewid i'r siâp a ddymunir.

Ar yr un pryd, mae'r mecanwaith hunan-sylw aml-ben yn gofalu am wybodaeth o is-fannau cynrychioli lluosog, yn dibynnu ar hanes yr arsylwadau. Er mwyn symlrwydd, rydym yn dynodi'r dilyniannau mewnbwn fel X. Yn fathemategol, ar gyfer y model sylw un pen, o gael mewnbwn X t − T plws 1:t=[X t − T plws 1, · · ·, X t ] ∈ RT × N × P, ceir tri is-ofod, sef, yr is-ofod ymholiad Q ∈ RN ×dq, is-ofod bysell K ∈ RN × dk, a gwerth yr is-ofod V ∈ RN × dv. Gellir llunio'r broses ddysgu isofod cudd fel [20]:

Q=XWQ , K { { }} XWK , V { { }} XWV ,

Yna, defnyddir y sylw cynnyrch dot graddedig i gyfrifo'r allbwn sylw fel [20]:

Sylw(Q, K, V)=felly f tmaxQKT/ p dkV,

Ar ben hynny, os oes gennym benaethiaid lluosog sy'n dilyn cynrychioliadau lluosog y mewnbwn ar yr un pryd, gallwn gael canlyniadau mwy perthnasol ar yr un pryd. Y cam olaf yw cydgadwynu pob un o’r pennau a’u taflu eto i gyfrifo’r sgôr terfynol [20]:

MultiHead(Q,K,V)=Concat(pen1,..., pennau) GE,

pen=Sylw(Qi,Ki,Vi),

lle mae Qi=XWQ i , Ki=XWVi , a WO ∈ R hd × dmodel. Yn olaf, gall ddewis y rhan bwysig o'r dilyniant o nodweddion oherwydd nid yw'r holl wybodaeth yn y dilyniant yn bwysig.

Fel y dangosir yn Ffigur 7, rydym yn defnyddio'r modiwl sylw mewn sawl ffurfweddiad. Rhoddir y modiwl sylw cyntaf ar ddiwedd y modiwl gofodol, tra bod yr ail a'r trydydd modiwl sylw yn cael eu gosod yn y modiwl amser. Mae'r ail fodiwl sylw, a elwir yn fodiwl amser cynnar, yn cael ei osod ar ôl y bloc cyntaf o gronni amser fel mewnbwn, tra bod y trydydd modiwl sylw amserol, a elwir yn fodiwl sylw amserol hwyr, yn cael ei osod ar ôl yr ail floc o gronni amser.