Perifere aangezichtsverlamming

Initiatief: NVKNO Aantal modules: 21

Classificatie en evaluatie perifere aangezichtsverlamming

Uitgangsvraag

Welk classificatiesysteem dient gebruikt te worden voor de classificatie en evaluatie van een perifere aangezichtsverlamming?

Aanbeveling

Gebruik bij de classificatie en evaluatie van patiënten met een perifere aangezichtsverlamming de House-Brackmann.

 

Gebruik bij voorkeur voor het classificeren en evalueren van patiënten met een perifere aangezichtsverlamming in gespecialiseerde centra in aanvulling de Sunnybrook, gezien de betere betrouwbaarheid en de hogere nauwkeurigheid voor het meten van verbeteringen. Volg hierbij eventueel de gebruiksinstructies zoals beschreven in (Neely, 2010).

Overwegingen

Voor- en nadelen van de interventie en de kwaliteit van het bewijs

Er is literatuuronderzoek gedaan naar de het gebruik van de Sunnybrook (SB) en House-Brackmann (HB) systemen voor de classificatie en evaluatie van een perifere aangezichtsverlamming. Als cruciale uitkomstmaten werden betrouwbaarheid (reliability) en sensitiviteit voor verandering (responsiveness) gedefinieerd. Agreement en tijdsduur van de beoordeling werden gedefinieerd als belangrijke uitkomstmaten. 

 

De SB beoordeelt separaat drie verschillende aspecten; (1) symmetrie in rust, (2) beweging en (3) synkinese. Daarnaast beoordeelt de SB ook de verschillende regio’s van het aangezicht. In rust de ogen, wangen en mond. Vervolgens de bewegingen en synkinesen bij wenkbrauwen optrekken, ogen sluiten, glimlachen, neusvleugels optrekken en lippen tuiten. Er komt een samengestelde score uit tussen 0 en 100.

 

De HB scoort op een 6-punts schaal de ernst van de perifere aangezichtsverlamming op basis van de gecombineerde beoordeling van de symmetrie in rust, de beweging van de aangezichtsmusculatuur en de aanwezigheid van synkinese en de ernst daarvan.

 

Het voordeel van de SB is dat het een onderscheid maakt tussen de verschillende gevolgen van een aangezichtsverlamming (symmetrie in rust, beweging en synkinese) en dat het de regio’s van het aangezicht afzonderlijk beoordeelt. Een nadeel van de SB kan zijn dat deze complexer is om af te nemen en bij voorkeur wordt geïnstrueerd door iemand die ervaring heeft in het gebruik ervan Voordelen van de HB zijn de eenvoud van het afnemen, met name qua tijdsduur en de wijdverspreide bekendheid bij zorgverleners in eerste-, tweede- en derdelijn. Een veel genoemd nadeel van de HB is dat het een vrij ruwe score betreft. Het betreft slechts een 6-punts schaal en beweging en synkinesen vallen binnen dezelfde score. Hiermee is het bijvoorbeeld lastig een score te geven aan een patiënt met matige dysfunctie in motoriek (HB III), maar ernstige synkinese (HB IV).

 

Beide classificatiesystemen lijken betrouwbaar (intra- en interrater reliability), hoewel de resultaten voor de SB iets beter lijken te zijn dan voor de HB. Met name voor de interrater betrouwbaarheid suggereert de studie van Kanerva (2006) een substantieel verschil tussen de SB en HB (ICC: 0.997 en Kappa: 0.34 of 0.37, respectievelijk). Neely (2010) laat dit verschil in interrater betrouwbaarheid tussen de twee systemen niet zien en suggereert daarmee een vergelijkbare interrater bertrouwbaarheid (ICC: 0.890 en Kappa: 0.839). Echter rapporteren de auteurs van deze studies dat bij de HB “verdere analyses lieten zien dat de daadwerkelijke overeenkomst tussen de beoordelaars slechts 30% was in de eerste ronde en 53% in een tweede ronde”. Het is onduidelijk hoe deze secundaire analyses zijn uitgevoerd. De bewijskracht voor deze gevonden effecten was laag tot zeer laag. Redenen voor deze lage bewijskracht zijn o.a. het lage aantal geïncludeerde patiënten.

 

De in de inleiding genoemde Sir Charles Bell Society verrichtte een systematische review van de literatuur over facial nerve grading systems (Fattah, 2015). Zij includeerden 45 artikelen die gingen over facial nerve grading systems (dus meer dan alleen de HB en de SB). Zij concluderen dat alleen de SB een hoge intraobserver betrouwbaarheid heeft (ICC: 0.84 tot 0.99), naast een goede interobserver betrouwbaarheid (ICC: 0.83 tot 1.00).

Voor de cruciale uitkomstmaat gevoeligheid voor verandering (responsiviteit) werd geen bewijs gevonden in de geïncludeerde studies. Een validatiestudie van de SB (Ross 1996) laat zien dat de SB een significante verandering detecteerde van behandeling van patiënten (p = 0.00), ook in de afzonderlijke subcategorieën, terwijl de HB in deze zelfde patiëntengroep niet significant verschilde voor en na behandeling (p = 0.54). Fattah (2015) concludeert in hun systematische review dat slechts 8 van de 43 studies de inzet van classificatiesystemen voor het meten van verloop van ziekte onderzocht. Daarbij heeft alleen Ross (1996) de sensitiviteit van hun systeem (SB) getest na therapie (fysiotherapie).

 

Geen enkele studie rapporteerde de uitkomstmaat agreement zoals gedefinieerd in de COSMIN-criteria (smallest detectable change of minimal important change). Hier ligt een kennislacune. Er waren twee studies die agreement op een alternatieve wijze rapporteerden, met de Kappa, of correlatie coëfficient. De gerapporteerde waarden (kappa 0.59, Spearman correlatie coëfficient 0.76 en ICC -0.949) suggereren een matige tot sterke agreement was tussen de SB en de HB. Deze resultaten dienen echter met veel zorg te worden geïnterpreteerd aangezien de HB beperkingen kent, dus de vraag is in hoeverre een sterke agreement van de SB met de HB representatief voor de classificatie en evaluatie van een perifere aangezichtsverlamming.

 

Voor de uitkomstmaat afname duur werd geen bewijs gevonden. Het afnemen van de SB vergt wel meer tijd en ervaring dan de SB. In de studie van Neely (2010) worden instructies gegeven voor het afnemen van de SB. Deze studie laat zien dat zowel de intra-rater als inter-rater betrouwbaarheid omhoog gaan met behulp van deze instructies. Ook in de studie van Kanerva (2006) werd het gebruik van de SB door onervaren beoordelaars onderzocht. Na instructie middels en video en een instructieboekje, lieten de onervaren beoordelaars resultaten zien de vergelijkbaar waren met de ervaren beoordelaars.

 

Bij het uitvoeren van hun systematische review definieerde Fattah (2015) vooraf aan welke criteria een goed classificatiesysteem zou moeten voldoen; statische en dynamische beoordeling, regionale beoordeling, mate van secundaire verschijnselen (o.a. synkinese), lage intra- en interrater variabiliteit, verandering over tijd/na interventie detecteren en gemakkelijk in het klinisch gebruik. De SB was de enige die aan al deze criteria voldeed, de HB voldeed aan alle, behalve het scoren per regio van het aangezicht.

 

Gezien de eenvoud en de wijdverspreide bekendheid (jarenland de ‘gouden standaard’) is de HB mogelijk (op dit moment nog) geschikter in de eerste- en tweedelijn. In deze klinische settingen is vaak minder tijd beschikbaar per patiënt en is de follow-up beperkter (>70% van de patiënten met een idiopathische perifere aangezichtsverlamming, de grootste groep, herstelt volledig). Gezien de mogelijk betere betrouwbaarheid en de mogelijk betere sensitiviteit voor verandering is de SB zeer geschikt voor de evaluatie van ingezette therapie (o.a. mimetherapie en chirurgische interventies) en het doen van wetenschappelijk onderzoek. Met name in de academische setting (derdelijn) en tweedelijns settings, waar de behandeling van patiënten met een perifere aangezichtsverlamming een speerpunt is.  

 

Kim (2020) verrichtte een systematische review van de literatuur betreffende richtlijnen voor acute perifere aangezichtsverlammingen. Ze keken onder andere naar medicamenteuze en chirurgische behandelingen, maar ook naar classificatiesystemen en concludeerden dat een van de opvallendste veranderingen van de afgelopen 10 jaar was de overgang van het gebruik van de conventionele HB naar de SB. Dit is in lijn met de conclusies die worden getrokken in het review van Fattah (2015). Ook concludeerden zij dat de eFACE de laatste jaren vaker wordt gebruikt. De eFACE is een software gestuurd classificatiesysteem. Dergelijke systemen krijgen de laatste jaren steeds meer aandacht omdat deze een objectieve(re) classificatie faciliteren, in vergelijking tot de SB en de HB, wat subjectieve classificatiesystemen zijn. Andere objectieve beoordelingssystemen zijn de FACE software (Neely, 2010), en de Glasgow facogram (O’Reilly, 2010). Deze zijn echter nog niet breed onderzocht en een gouden standaard bestaat (nog) niet.

 

Waarden en voorkeuren van patiënten (en evt. hun verzorgers)

Patiënten kunnen beter worden meegenomen in het beloop van hun aangezichtsverlamming wanneer ze veranderingen over de tijd kunnen zien uitgedrukt in een getal. Aangezien de SB beter veranderingen in de tijd oppikt, geeft dit systeem meer inzicht voor patiënten. De SB geeft de mimetherapeut en patiënt ook inzicht waar aangrijpingspunten voor eventuele mimetherapie zitten. Bijvoorbeeld: staat de mond in rust hoger, dan kan dit wijzen op spanning in de wang door synkinesen. De mimetherapeut kan in overleg met de patiënt besluiten tot het instrueren van rek- en massagetechnieken om de spanning te reduceren. Naast mimetherapie geldt dit eventueel ook voor de keuze voor eventuele Botulinetoxine behandeling bij synkinesieën. Toekomstige patiënten hebben baat bij het kennen van de beste behandelingsopties. De SB lijkt een betere uitkomstmaat dan de HB bij het doen van wetenschappelijk onderzoek zoals prospectieve studies van behandelingen.

 

Kosten (middelenbeslag)

Kostenoverwegingen spelen geen rol, zowel de HB als SB zijn vrij beschikbaar. Gesteld zou kunnen worden dat het afnemen van de SB meer kost, doordat het meer tijd kost om deze af te nemen. Gezien dit verschil minder dan vijf minuten is, zal dit voor de kostenoverweging niet significant zijn.

 

Aanvaardbaarheid, haalbaarheid en implementatie

De bekendheid van- en inzicht in gebruik van de HB is groot bij alle bij de zorg voor patiënten met een perifere aangezichtsverlamming betrokken medische disciplines: KNO/neurologie/plastische chirurgie/huisartsen in vergelijking tot de SB. De SB is onder mimetherapeuten en in academische centra waar multidisciplinaire zorg aan patiënten met een perifere aangezichtsverlamming wordt geleverd welbekend en gebruikt. Het afnemen van de SB kost meer tijd dan het afnemen van de HB en vraagt om een instructie in het gebruik waardoor in de praktijk sneller gekozen zal worden voor de HB. Ook is het afnemen van de SB iets complexer. Kanerva (2006) laat echter zien dat, na instructie met een video en een boekje met instructies, de resultaten tussen ervaren en onervaren beoordelaars vergelijkbaar waren. Neely (2010) onderzocht ook het gebruik van de SB in onervaren beoordelaars. Daarbij publiceerden zij handige instructies voor het afnemen van de SB. Deze studie liet tevens zien dat de intra- en inter-rater reliability zelfs omhoogging met behulp van deze instructies voor afname. Wij adviseren dan ook iedereen die beginnend SB gebruiker is, deze instructies bij de hand te houden. De onbekendheid van de SB en de noodzaak tot een instructie in gebruik van de SB vormen mogelijk een belemmering voor implementatie bij alle betrokken medici.

 

Rationale van de aanbeveling

Er zijn weinig vergelijkende studies waarin meeteigenschappen van de SB worden vergeleken met meeteigenschappen van de HB. Het (beperkte) bewijs suggereert dat o.a. de betrouwbaarheid van de SB beter is, dan de HB. Dit is in lijn met de resultaten van systematische reviews naar de classificatiesystemen, waarin ook niet-vergelijkende studies zijn geïncludeerd. Deze systematische reviews concluderen daarnaast ook dat de SB beter in staat is om subtiele(re) verbeteringen te detecteren, dan de HB. Dit maakt het gebruik van de SB met name interessant voor gebruik in de academische setting en/of en tweedelijns setting, waar de behandeling van patiënten met een perifere aangezichtsverlamming een speerpunt is. De werkgroep is van mening dat de SB minder geschikt is voor gebruik in de acute setting, aangezien afname van de SB langer duurt, en complexer is dan de HB. Er zijn instructies beschikbaar over het afnemen van de SB, deze kunnen eventueel worden gebruikt.

Onderbouwing

Een classificatiesysteem voor patiënten met een perifere aangezichtsverlamming is zinvol voor meerdere doeleinden. Allereerst wanneer de patiënt zich voor de eerste keer presenteert om de ernst van de parese aan te geven en vervolgens in de follow-up; om in het verloop van de tijd vast te kunnen stellen of er sprake is van verbetering (of niet). Daarnaast kun je het effect van ingestelde behandelingen in kaart brengen. Tot slot is het gebruik van een classificatiesysteem onmisbaar bij het doen van wetenschappelijk onderzoek, waarbij het een belangrijke uitkomstmaat is.

 

De House-Brackmann facial grading system (HB) is momenteel de meest gebruikte en geaccepteerde methode om de mate van uitval te classificeren bij patiënten met een perifere aangezichtsverlamming. De Facial Nerve Disorders Committee van de American Academy of Otolaryngology- Head and Neck Surgery adviseert om de HB als standaard classificatie te gebruiken. In vele wetenschappelijke KNO-tijdschriften is het gebruik hiervan zelfs ‘verplicht’ bij rapportage over de mate van uitval bij patiënten met een perifere aangezichtsverlamming. De HB heeft geregeld aan kritiek blootgestaan omdat de 6-punts schaal slechts een globale indeling geeft en daardoor minder sensitief is voor verandering en het evalueren van therapeutische interventies. De HB is een gradering die je snel in de kliniek kunt gebruiken.

 

De Sunnybrook facial grading system (SB) is een veel gebruikt alternatief. De SB is uitgebreider en beoordeelt specifieker op de onderdelen: symmetrie van het gezicht in rust, de mate van functie van de mimische musculatuur en de aanwezigheid en ernst van synkinesieën, die leiden tot een samengestelde score tussen de 0 en 100 punten. De SB kost daardoor meer tijd, vraagt om een instructie in het eenduidig gebruik ervan en wordt daardoor meer gebruikt in academische centra, door mimetherapeuten en bij wetenschappelijk onderzoek. De Sir Charles Bell Society, een vereniging van zorgprofessionals die zich bezighoudt met de zorg voor patiënten met een perifere aangezichtsverlamming heeft in 2015 een stuk geschreven waarin zij adviseren de SB als standaard te gebruiken.

Intra-rater reliability

 

 

Low GRADE

The evidence suggests that Sunnybrook and House-Brackmann facial grading system have a comparable intra-rater reliability, and that the intra-rater reliability of both systems is sufficient for the classification of facial paralysis.

 

Source: Kanerva (2006); Neely (2010)

 

Inter-rater reliability

 

Very low GRADE

The evidence is very uncertain about the inter-rater reliability of the Sunnybrook and House-Brackmann facial grading systems.

 

Source: Kanerva (2006); Neely (2010)

 

 

 

- GRADE

No evidence was found regarding the sensitivity for change, agreement and duration of assessment for the Sunnybrook facial grading system compared to the House-Brackmann facial grading system.

 

Source:

Description of studies

Berg (2004) performed a prospective trial to assess the agreement between the Sunnybrook (SB) and House-Brackmann facial grading system (HB). Patients were recruited from a tertiary referral center. In total, 62 patients were included, of which 60 were diagnosed with Bell’s palsy and 2 patients were diagnosed with herpes Zoster. Patients were requested to perform facial movements at least 3 times and the grading scores were documented and evaluated. A subgroup of the study population was examined multiple times. The total number of assessments was 100 (from 62 patients). Three different clinicians, with experience of facial nerve diseases, performed the examinations. Agreement between the grading systems was reported as outcome. Overall agreement was presented, and additionally stratified agreement values were presented for the following follow-up durations: 1-14 days, 15-60 days, 61-180 days and more than 180 days.

 

Kanerva (2006) aimed to assess the repeatability and agreement of SB and the HB. Eight patients with unilateral peripheral facial nerve palsy were videorecorded. Seven of these patients had Bell’s Palsy and one patient had facial palsy after a vestibular schwannoma operation. The video recordings included face at rest and 5 standard facial expressions. The video recordings were evaluated by 26 assessors, of which 13 residents and 13 senior specialists. The doctors graded the patients from the videotape twice, with a 3-week interval, the assessment was done independently and anonymously. The patients were assessed in a random order in the second assessment round. The doctors were instructed to determine a HB- and a SB-score based on the video recordings. For both facial grading systems the intra-rater reliability (repeatability) and inter-rater reliability was determined. For the SB facial grading system, reliability was determined for the individual components of the scale, additionally a composite score was calculated.

 

Kanerva (2011) performed a prospective multicenter trial to study the correlation between SB- and HB- facial grading systems at different time points during the course of peripheral facial palsy. The multicenter trial was conducted at 16 public otorhinolaryngological centers across Sweden and Finland. Patients with Bell’s Palsy, aged between 18 and 75, with onset of palsy within 72 hours were selected for the trial. Facial function was assessed with both the SB- and HB- facial grading system, at 72 hours from onset, at day 11 to 17, at 1 month, 2 months, 6 months, and 12 months (final follow-up). Assessments with both SB- and HB- grading system were performed 5397 times, in 1920 patients. Spearman correlation coefficient was assessed as outcome, for the different follow-up durations.

 

Neely (2010) performed a prospective trial to describe the intra-rater and inter-rater reliability between two naïve, but trained raters using the SB-facial grading system compared to the HB-facial grading system. A facial nerve center videodatabase (USA) was searched for video recordings of patients with unilateral facial paresis/paralysis. Inclusion criteria were: good-quality video recording, all five facial voluntary expressions necessary for SB scoring present and a wide range and graded distribution of facial movement. Videos of subjects with facial disfigurement other than paralysis/synkinesis were excluded. With statistical consultation, it was arbitrarily determined that 30 subjects would be sufficient to test the reliability of the scale. The majority of patients (20/30) were diagnosed with Bell’s Palsy. Two raters were instructed to assess the SB and HB based on these video recordings. The raters were summer research high-school students. Prior to the trial they were completely naïve to facial nerve functioning and facial grading systems. The raters received instructions on the specifics of the SB and HB facial gradings scales and were allowed several days of reading (without looking at the video recordings). The raters were instructed to work independently. Subsequently they independently graded the videos again (trial 3 and 4) using a newly developed checklist to complete the Sunnybrook system (SB-CL). The intra-rater reliability and inter-rater reliability were reported as an outcome for the SB-composite score and the HB.

 

Results

Reliability

Two studies reported the outcome reliability (Kanerva, 2006; Neely, 2010). Reliability was subdivided in intra-rater reliability (test-retest reliability) and inter-rater reliability. For the SB-facial grading system (continuous score) reliability was calculated with the intra-class correlation coefficient (ICC). For the HB (categorical score), reliability was calculated with the weighted-kappa score.

 

Reliability: intra-rater reliability

Kanerva (2006; 8 patients, 28 assessors) reported that the intra-rater reliability of the SB-facial grading system was ICC: 0.975 and for the HB-facial grading system, weighted-kappa: 0.74 (Table 1).

 

Neely (2010; 30 patients, 2 assessors) assessed the intra-rater reliability in two raters (n = 2). For rater 1 and rater 2, the intra-rater reliability of the SB-facial grading system was respectively ICC: 0.970 (95% CI 0.939 to 0.986) and ICC: 0.948 (0.894 to 0.975). In the article it was stated that the reliability of the HB-facial grading system was also assessed, however data on this was not presented (Table 1).

 

Table 1: studies reporting the intra-rater reliability of the Sunnybrook facial grading system and the House-Brackmann facial grading system.

ICC = intra-class correlation coefficient; 95% CI = 95% confidence interval

 

 

Setting

Sunnybrook (reported as ICC)

House-Brackmann (reported as weighted-kappa)

Kanerva 2006

8 patients, 28 assessors

0.975 (95% CI not reported)

0.73

Neely 2010

30 patients, 2 assessors

Rater 1: 0.970 (95% CI: 0.939 – 0.986)

Rater 2: 0.948 (95% CI: 0.894 – 0.975)

It was stated that this was assessed, however data on the HB was not presented

 

Reliability: inter-rater reliability

Kanerva (2006; 8 patients, 28 assessors) assessed the inter-rater reliability in two different assessment rounds. For round 1 and round 2, the inter-rater reliability of the SB-facial grading system was respectively ICC: 0.997 (95% CI: 0.992 – 1.000) and ICC: 0.997 (95% CI: 0.993 – 1.000). For the HB-facial grading system, the inter-rater reliability in the two different round was respectively weighted kappa: 0.34 (95% CI: 0.32 - 0.36) and weighted kappa: 0.37 (95% CI: 0.34-0.40) (Table 2)

 

Neely (2010; 30 patients, 2 assessors) reported that the inter-rater reliability of the SB-facial grading system was ICC: 0.890 (95% CI: 0.784 to 0.946), and for the HB-facial grading system weighted kappa: 0.839 (95% CI: 0.692 to 0.920; Table 2)

 

Table 2: studies reporting the inter-rater reliability of the Sunnybrook facial grading system and the House-Brackmann facial grading system.

ICC = intra-class correlation coefficient; 95% CI = 95% confidence interval

 

 

Setting

Sunnybrook (reported as ICC)

House-Brackmann (reported as weighted-kappa)

Kanerva 2006

(two rounds)

8 patients, 28 assessors

Round 1: 0.997 (95% CI: 0.992 – 1.000)

Round 2: 0.997 (95% C: 0.993 – 1.000)

Round 1: 0.34 (95% CI: 0.32-0.36)

Round 2: 0.37 (95% CI: 0.34-0.40)

Neely 2010

30 patients, 2 assessors

0.890 (0.784 – 0.946)

0.839 (0.692 – 0.920)

 

 

Sensitivity for change (responsiveness)

None of the included studies reported the outcome sensitivity for change (responsiveness) for the Sunnybrook (SB) and House-Brackmann (HB) facial grading system.

 

Agreement

None of the included studies reported agreement according to the COSMIN definition. However, two studies reported agreement according to an alternative definition (Berg, 2004; Kanerva, 2011). As this did not comply with the predefined definition, the GRADE-approach was not used. An overview of these results is presented below.

 

Berg (2004) reported agreement between the SB- and HB-facial grading systems with the weighted kappa and spearman correlation coefficient (n = 100, 3 assessors). Overall agreement between SB- and HB-facial grading system was weighted kappa: 0.59. The Spearman correlation coefficient was 0.76. Level of agreement was also reported at various follow-up durations, see Table 3.

 

Table 3: agreement between Sunnybrook and House-Brackmann facial grading system at different follow-up durations, as reported by Berg (2004).

Follow-up duration

Weighted kappa

1-14 days

0.56

15-60 days

0.53

61-180 days

0.71

181+ days

0.55

 

Kanerva (2011) reported agreement between the SB- and HB- facial grading systems with the ICC (n = 1920 patients). Overall agreement between SB- and HB- facial grading system was ICC: -0.949. Level of agreement was also reported at various follow-up durations, see Table 4.

 

Table 4: agreement between Sunnybrook and House-Brackmann facial grading system at different follow-up durations, as reported by Kanerva (2011).

Follow-up duration

Intraclass correlation coëfficient

Initial visit:

-0.814

Day 11 to 17:

-0.920

1 month:

-0.957

2 months:

-0.965

3 months:

-0.955

6 months:

-0.918

12 months:

-0.902

 

Duration of assessment

None of the included studies reported the outcome duration of assessment for the Sunnybrook (SB) and House-Brackmann (HB) facial grading system.

 

Level of evidence of the literature

The level of evidence regarding the outcome measure intra-rater reliability was derived from observational studies and started ‘high’. The level of evidence was downgraded by two levels because of the low number of included patients (-2 imprecision). The final level of evidence was graded ‘low’.

 

The level of evidence regarding the outcome measure inter-rater reliability was derived from observational studies and started ‘high’. The level of evidence was downgraded by three levels because of conflicting results (-1 inconsistency) and the low number of included patients (-2 imprecision). The final level of evidence was graded ‘very low’.

 

The level of evidence regarding the outcome measures sensitivity for change, agreement and duration of assessment and could not be graded as they were not reported in the included studies.

A systematic review of the literature was performed to answer the following question:

What are the advantages and disadvantages of classification of a peripheral facial nerve palsy by means of the Sunnybrook facial grading system, in comparison to assessment via the House-Brackmann facial grading system in patients with peripheral facial palsy?

 

P= Patients with peripheral facial nerve palsy
I= Sunnybrook facial grading system
C= House-Brackmann facial grading system
O= Reliability (intra- and inter observer, test-retest), sensitivity for change (responsiveness; follow-up of intervention, agreement and duration of assessment

 

Relevant outcome measures

The guideline development group considered reliability and sensitivity for change (responsiveness) as a critical outcome measure for decision making; and agreement and duration of assessment as an important outcome measure for decision making.

 

The guideline development group defined the outcomes (measurement properties) reliability and sensitivity for change according to the taxonomy of the Consensus Based Standards for the selection of health Measurement Instruments (COSMIN; Mokkink, 2010). According to the COSMIN taxonomy, agreement is also called ‘measurement error’. Information on the smallest detectable change (SDC) or minimal important change (MIC). Is needed for this outcome. The results were evaluated against the updated criteria for good measurement properties (Prinsen, 2018; Appendix 1). For these outcomes, the criteria for good measurement properties were as follows:

  • Reliability
    • Sufficient: Intraclass Correlation Coefficient (ICC) or Weighted Kappa ≥ 0.70
    • Indeterminate: ICC or Weighted Kappa not reported
    • Insufficient: ICC or Weighted Kappa < 0.70
  • Sensitivity for change (responsiveness)
    • Sufficient: The result is in accordance with the hypothesis OR AUC ≥ 0.70
    • Indeterminate: No hypothesis defined (by the review team)
    • Insufficient: The result is not in accordance with the hypothesis OR AUC < 0.70
  • Agreement (measurement error)
    • Sufficient: SDC or limits of agreement > MIC
    • Indeterminate: MIC not defined
    • Insufficient: SDC or limits of agreement < MIC

For the outcome measure ‘duration of assessment’ the guideline development group used the definitions used in the studies. A difference of 10% was defined as a minimal clinically (patient) important difference.

 

Search and select (Methods)

On the 9th of January 2023, relevant search terms were used to search in the databases Embase.com and Ovid/Medline for systematic reviews, RCT and observational studies about the place of the Sunnybrook Scale in classification of peripheral facial palsy. The search resulted in 287 unique hits. The detailed search strategy is depicted under the tab Methods. Twenty-four studies were initially selected based on title and abstract screening. After reading the full text, twenty studies were excluded (see the table with reasons for exclusion under the tab Methods) and four studies were included.

 

Results

Four studies were included in the analysis of the literature. Important study characteristics and results are summarized in the evidence tables. The assessment of the risk of bias is summarized in the risk of bias tables.

 

The risk of bias was assessed with the COSMIN risk of bias tool per measurement property that was reported in the study. The overall rating of the quality of the study was determined by taking the lowest rating in the risk of bias assessment (i.e., “the worst score counts” principle). The methodological quality of each study could be graded very good, adequate, doubtful, or inadequate quality.

 

The results were then evaluated against the updated criteria for good measurement properties (Prinsen, 2018; Appendix 1). The evaluation of the level of evidence was mostly executed as described in the COSMIN instruction manual for systematic reviews of PROMS (Mokkink, 2018). Measurement properties were evaluated per measurement tool according to the GRADE-principles, instead of one overall evaluation per measurement and one overall GRADE-evaluation per measurement tool. According to the COSMIN-manual, publication bias was not evaluated. The level of evidence for validation studies starts high. The level of evidence can be downgraded on the following domains:

  • Risk of bias
    • One level for ‘serious risk of bias’ (multiple studies with doubtful quality available, or there is only one study of very good quality available)
    • Two levels for ‘very serious risk of bias’ (multiple studies of inadequate quality or there is only one study of adequate quality)
    • Three levels for ‘extremely serious risk of bias (there is only one study of doubtful quality available).
  • Inconsistency
    • One or two levels for unexplained heterogeneity between the reported outcomes
  • Imprecision
    • One level if the total study population: n = 50 – 100
    • Two levels if the total study population: n < 50
  • Indirectness
    • One or two levels if the study was performed in another population or another context of use that the population or context of use in the guideline.
  1. Banks CA, Bhama PK, Park J, Hadlock CR, Hadlock TA. Clinician-Graded Electronic Facial Paralysis Assessment: The eFACE. Plast Reconstr Surg. 2015 Aug;136(2):223e-230e. doi: 10.1097/PRS.0000000000001447. PMID: 26218397.
  2. Berg T, Jonsson L, Engström M. Agreement between the Sunnybrook, House-Brackmann, and Yanagihara facial nerve grading systems in Bell's palsy. Otol Neurotol. 2004 Nov;25(6):1020-6. doi: 10.1097/00129492-200411000-00027. PMID: 15547437.
  3. Kanerva M, Poussa T, Pitkäranta A. Sunnybrook and House-Brackmann Facial Grading Systems: intrarater repeatability and interrater agreement. Otolaryngol Head Neck Surg. 2006 Dec;135(6):865-71. doi: 10.1016/j.otohns.2006.05.748. PMID: 17141075.
  4. Kanerva M, Jonsson L, Berg T, Axelsson S, Stjernquist-Desatnik A, Engström M, Pitkäranta A. Sunnybrook and House-Brackmann systems in 5397 facial gradings. Otolaryngol Head Neck Surg. 2011 Apr;144(4):570-4. doi: 10.1177/0194599810397497. Epub 2011 Feb 24. PMID: 21493237.
  5. Kim SJ, Lee HY. Acute Peripheral Facial Palsy: Recent Guidelines and a Systematic Review of the Literature. J Korean Med Sci. 2020 Aug 3;35(30):e245. doi: 10.3346/jkms.2020.35.e245. PMID: 32743989; PMCID: PMC7402921.
  6. Lassaletta L, Morales-Puebla JM, Altuna X, Arbizu Á, Arístegui M, Batuecas Á, Cenjor C, Espinosa-Sánchez JM, García-Iza L, García-Raya P, González-Otero T, Mañós M, Martín C, Moraleda S, Roda JM, Santiago S, Benítez J, Cavallé L, Correia V, Estévez JM, Gómez J, González R, Jiménez J, Lacosta JL, Lavilla MJ, Peñarrocha J, Polo R, García-Purriños F, Ramos F, Tomás M, Uzcanga M, Vallejo LÁ, Gavilán J. Facial paralysis: Clinical practice guideline of the Spanish Society of Otolaryngology. Acta Otorrinolaringol Esp (Engl Ed). 2020 Mar-Apr;71(2):99-118. English, Spanish. doi: 10.1016/j.otorri.2018.12.004. Epub 2019 May 13. PMID: 31097197.
  7. Mokkink, L. B., Prinsen, C. A., Patrick, D. L., Alonso, J., Bouter, L. M., de Vet, H.C., Terwee C. B. (2018). COSMIN methodology for systematic reviews of patient-reported outcome measures (PROMs). User manual. 78:1. Beschikbaar op: https://www.cosmin.nl/wp-content/uploads/COSMIN-syst-review-for-PROMs-manual_version-1_feb-2018-1.pdf.
  8. Neely JG, Cherian NG, Dickerson CB, Nedzelski JM. Sunnybrook facial grading system: reliability and criteria for grading. Laryngoscope. 2010 May;120(5):1038-45. doi: 10.1002/lary.20868. PMID: 20422701.
  9. O'Reilly BF, Soraghan JJ, McGrenary S, He S. Objective method of assessing and presenting the House-Brackmann and regional grades of facial palsy by production of a facogram. Otol Neurotol. 2010 Apr;31(3):486-91. doi: 10.1097/MAO.0b013e3181c993dc. PMID: 20042993.
  10. Prinsen, C. A., Mokkink, L. B., Bouter, L. M., Alonso, J., Patrick, D. L., De Vet, H. C., & Terwee, C. B. (2018). COSMIN guideline for systematic reviews of patient-reported outcome measures. Quality of Life Research, 27(5), 1147-1157.

Evidence table for intervention studies (randomized controlled trials and non-randomized observational studies [cohort studies, case-control studies, case series])1

Study reference

Study characteristics

Patient characteristics 2

Intervention (I)

Comparison / control (C) 3

 

Follow-up

Outcome measures and effect size 4

Comments

Berg 2004

Type of study:

Prospective observational

 

Setting and country:

Tertiary referral centre, USA

 

Funding and conflicts of interest:

Non-commercial Grant

Inclusion criteria:

- patients with unilateral peripheral facial nerve Palsy

 

Exclusion criteria:

Not reported

 

N total at baseline:

100 assessments in 62 patients. Assessment by 3 clinicians

 

Important prognostic factors2:

94/100 with bell’s palsy, 6 with herpes Zoster

 

32 female, 30 male

Mean age: 48 years (range 15 – 87)

 

Groups comparable at baseline?

Yes, same patients were used.

Sunnybrook facial grading system

 

 

 

 

House-Brackmann facial grading system

 

 

Day 1-14

Day 15-60

Day 61-180

After day 180

Median time between onset of palsy (Day 1) and assessment was 50 days (average, 129 days; range, 1–4,000 days).

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

Agreement between the grading systems:

Weighted K statistics: 0.59

Spearman correlation: 0.76

 

The weighted scores for the congruence of the Sunnybrook versus House-Brackmann scorings were 0.56 for Days 1 to 14, 0.53 for Days 15 to 60; 0.71 for Days 61 to 180, and 0.55 after Day 180.

 

 

 

 

The authors concluded that:

The Sunnybrook system scores at the same agree- ment level as the House-Brackmann and Yanagihara grading systems. There is an evaluative difference between the weighted regional Sunnybrook and the gross House- Brackmann systems. Substantial agreement was found between the regional Sunnybrook and Yanagihara scales. Sunnybrook grading is easy and quick. By adding objective measurements and additional secondary defects, the Sunnybrook system can be an alternative to the other predominating grading systems”

Kanerva 2006

Type of study:

Observational study

 

Setting and country:

Otorhinolaryngology department (single-centre) Finland

 

Funding and conflicts of interest:

Non-commercial Grant

Inclusion criteria:

- patients with unilateral peripheral facial nerve Palsy

 

Exclusion criteria:

Not reported

N total at baseline:

8 patients, each evaluated by 28 assessors (15 residents and 13 senior specialists)

I: 26

C: 28

 

Important prognostic factors2:

7/8 patients had Bell’s palsy, 1/8 had facial palsy after a vestibular schwannoma operation

 

Groups comparable at baseline?

Yes, same patients were used.

 

Sunnybrook facial grading system

 

 

 

 

House-Brackmann facial grading system

 

 

Follow-up not applicable.

 

 

The doctors graded the patients from the videotapes twice, with a 3-week interval. The patients were assessed in a random order in the second round.

Outcome measures and effect size (include 95%CI and p-value if available):

 

Intrarater reliability (repeatability)

SB: ICC (95% CI): 0.975

HB: weighted-kappa: 0.73

 

Interrater reliability (agreement between doctors)

SB: ICC (95% CI):

First round 0.997 (0.992 – 1.000)

Second round 0.997 (0.993 – 1.000)

 

HB: weighted-kappa

First round  0.34 (0.32-0.36)

Second round 0.37 (0.34-0.40)

 

The authors concluded that:

HB received fair (agreement %) to good (kappa statistics) results in repeatability, but agreement results were not reliable (poor-fair). SB proved to be at least as good, if not better, in repeatability (good- excellent vs fair-good) and was more reliable in agreement (moderate-excellent vs poor-fair) than HB”.

 

Videorecordings were made of the patients. The video included the face at rest and with five standard facial expressions. The doctors graded the patients from the videotapes twice, with a 3-week interval. The patients were assessed in a random order in the second round.

Kanerva 2011

Type of study

Prospective observational study

 

Setting and country

Conducted in 16 tertiary otorhinolaryngological centres in Finland and Sweden

 

Funding and conflicts of interest:

none

Inclusion criteria:

- patients with bell’s palsy

- aged 18-75 years

- onset of palsy within 72 hours

 

Exclusion criteria:

Not reported

 

N total at baseline:

1920 facial palsy patients

 

Assessment with both SB and HB: 5397

Important prognostic factors2:

Age range: 18 – 72 years

 

933/1920

 

Groups comparable at baseline?

Yes, same patients were used.

Sunnybrook facial grading system

House-Brackmann facial grading system

Grading was done:

- within 72 hours of palsy onset (initial visit)

- at days 11 to 17

- at 1 month

- at 2 months

- at 3 months

- at 6 months

- at 12 months

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

Agreement between system

Spearman correlation coefficient: overall: -0.949.

Initial visit: -0.814

Day 11 to 17: -0.920

1 month: -0.957

2 months: -0.965

3 months: -0.955

6 months: -0.918

12 months: -0.902

 

 

The authors concluded that:

“Gradings correlated better in follow-up assessments than at the initial visit assessment

Sunnybrook composite scores varied in House-Brackmann grades as follows: Grade I, 100; Grade II, 71 to 90; Grade III, 43 to 62; Grade IV, 26 to 43; Grade V, 13 to 25; and Grade VI, 5 to 14

 

 

 

 

Neely 2010

Type of study:

Prospective test of hypothesis

 

Setting and country:

Subject recruitment was via the facial nerve center perceptual database and video archive, USA

 

Funding and conflicts of interest:

Non-commercial Grant

Inclusion criteria:

- good-quality video recording

- unilateral facial paresis/paralysis,

- all five facial voluntary expressions necessary for SB scoring present

- wide range and graded distribution of facial movement.

 

Exclusion criteria:

- subjects with facial disfigurement other than paralysis/synkinesis

 

N total at baseline:

30 subjects, evaluated by 2 raters (student raters)

 

Important prognostic factors2:

20/30 patients had bell’s palsy

 

Groups comparable at baseline?

Yes, same patients were used.

 

Sunnybrook facial grading system

 

 

 

 

House-Brackmann facial grading system

 

 

Follow-up not applicable.

 

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

Intrarater reliability (repeatability)

SB: ICC (95% CI):

- 0.970 (0.939 – 0.986)

- 0.948 (0.894 – 0.975)

 

HB: weighted-kappa: not presented in the study

 

Interrater reliability (agreement between raters)

SB: ICC (95% CI): 0.890 (0.784 – 0.946)

 

HB: weighted-kappa

0.839 (0.692 – 0.920)

 

“however further analysis showed actual agreement between raters was only 30% on trial 1. Most mismatches were in the order of one grade; however, a mismatch of two grades was observed in one case and three grades in another. On trial 2, agreement rose to only 53%, but with disagreement by two grades in three cases”

The authors concluded that:

the SB is reliable, even with na ̈ıve raters, and 2) the reli- ability of the SB is excellent when performed in the usually intuitive way (…) Absolute agreement between raters using the HB system is very poor, and the range of SB scores within a single HB grade is large

“It was arbitrarily determined that 30 subjects would be sufficient to test the reliability of the scale”

 

“at least 1 day elapsed between conduct of trial 1 and trial 2”

 

(trial 3 and 4 assessed the use of a newly developed checklist – SB-CL)

 

Notes:

  1. Prognostic balance between treatment groups is usually guaranteed in randomized studies, but non-randomized (observational) studies require matching of patients between treatment groups (case-control studies) or multivariate adjustment for prognostic factors (confounders) (cohort studies); the evidence table should contain sufficient details on these procedures
  2. Provide data per treatment group on the most important prognostic factors [(potential) confounders]
  3. For case-control studies, provide sufficient detail on the procedure used to match cases and controls
  4. For cohort studies, provide sufficient detail on the (multivariate) analyses used to adjust for (potential) confounder

Tables of quality assessment – Reliability (box 6) = the proportion of the total variance in the measurements which is due to ‘true’ differences between patients.

 

KANVERVA 2006

NEELY 2010

Design requirements

VERY GOOD

ADEQUATE

DOUBTFUL

INADEQUATE

 

Was the time interval appropriate?

Time interval appropriate

 

 

Doubtful whether time interval was appropriate or time interval was not stated

Time interval NOT appropriate

 

 

Were the test conditions similar for the measurements? e.g. type of administration, environment, instructions

Test conditions were similar (evidence provided)

Assumable that test conditions were similar

 

Unclear if test conditions were similar

 

Test conditions were NOT similar

 

 

Statistical Methods

 

 

 

 

 

For continuous scores: Was an intraclass correlation coefficient (ICC) calculated?

 

ICC calculated and model or formula of the ICC is described

ICC calculated but model or formula of the ICC not described or not optimal.

Pearson or Spearman correlation coefficient calculated with evidence provided that no systematic change has occurred

 

Pearson or Spearman correlation coefficient calculated WITHOUT evidence provided that no systematic change has occurred or WITH evidence that systematic change has occurred

No ICC or Na Pearson or Spearman correlations calculated

 

For dichotomous/nominal/ ordinal scores: Was kappa calculated?

Kappa calculated

 

 

No Kappa calculated

N.A.

For ordinal scores: Was a weighted kappa calculated?

Weighted Kappa calculated

 

Unweighted Kappa calculated or not described

 

 

For ordinal scores: Was the weighting scheme described? e.g. linear, quadratic

 

Weighting scheme described

Weighting scheme not described

 

 

N.A.

Design requirements

VERY GOOD

ADEQUATE

DOUBTFUL

INADEQUATE

 

Was the time interval appropriate?

Time interval appropriate

 

 

Doubtful whether time interval was appropriate or time interval was not stated

 

Time interval NOT appropriate

 

 

Were the test conditions similar for the measurements? e.g. type of administration, environment, instructions

Test conditions were similar (evidence provided)

Assumable that test conditions were similar

Unclear if test conditions were similar

 

Test conditions were NOT similar

 

 

Statistical Methods

 

 

 

 

 

For continuous scores: Was an intraclass correlation coefficient (ICC) calculated?

 

ICC calculated and model or formula of the ICC is described

ICC calculated and model or formula of the ICC is described

ICC calculated and model or formula of the ICC is described

ICC calculated and model or formula of the ICC is described

 

For dichotomous/nominal/ ordinal scores: Was kappa calculated?

Kappa calculated

 

 

No Kappa calculated

N.A.

For ordinal scores: Was a weighted kappa calculated?

Weighted Kappa calculated

 

Unweighted Kappa calculated or not described

 

 

For ordinal scores: Was the weighting scheme described? e.g. linear, quadratic

 

Weighting scheme described

Weighting scheme not described

 

 

N.A.

Table of excluded studies

Reference

Reason for exclusion

Alicandri-Ciufelli M, Pavesi G, Presutti L. Facial nerve grading scales: systematic review of the literature and suggestion for uniformity. Plast Reconstr Surg. 2015 May;135(5):929e-930e. doi: 10.1097/PRS.0000000000001186. PMID: 25700294.

wrong design: commentary on paper

Berner JE, Kamalathevan P, Kyriazidis I, Nduka C. Facial synkinesis outcome measures: A systematic review of the available grading systems and a Delphi study to identify the steps towards a consensus. J Plast Reconstr Aesthet Surg. 2019 Jun;72(6):946-963. doi: 10.1016/j.bjps.2019.03.011. Epub 2019 Mar 23. PMID: 30928304.

Narrative review: Overview of methods to grade patients with facial synkinesis

Cabrol C, Elarouti L, Montava AL, Jarze S, Mancini J, Lavieille JP, Barry P, Montava M. Sunnybrook Facial Grading System: Intra-rater and Inter-rater Variabilities. Otol Neurotol. 2021 Aug 1;42(7):1089-1094. doi: 10.1097/MAO.0000000000003140. PMID: 34260513.

No comparative study; only Sunnybrooke

Coulson SE, Croxson GR, Adams RD, O'Dwyer NJ. Reliability of the "Sydney," "Sunnybrook," and "House Brackmann" facial grading systems to assess voluntary movement and synkinesis after facial nerve paralysis. Otolaryngol Head Neck Surg. 2005 Apr;132(4):543-9. doi: 10.1016/j.otohns.2005.01.027. PMID: 15806042.

wrong outcome: intrasystem reliability and intersystem association for the assessment of voluntary movement

Fattah AY, Gavilan J, Hadlock TA, Marcus JR, Marres H, Nduka C, Slattery WH, Snyder-Warwick AK. Survey of methods of facial palsy documentation in use by members of the Sir Charles Bell Society. Laryngoscope. 2014 Oct;124(10):2247-51. doi: 10.1002/lary.24636. Epub 2014 Feb 27. PMID: 24496778.

Wrong desing: overview of systems used by caregivers (survey)

Fattah AY, Gurusinghe ADR, Gavilan J, Hadlock TA, Marcus JR, Marres H, Nduka CC, Slattery WH, Snyder-Warwick AK; Sir Charles Bell Society. Facial nerve grading instruments: systematic review of the literature and suggestion for uniformity. Plast Reconstr Surg. 2015 Feb;135(2):569-579. doi: 10.1097/PRS.0000000000000905. PMID: 25357164.

Narrative review: Overview of available facial grading systems and their characteristics

Fattah AY, Gurusinghe DA, Gavilan J, Hadlock T, Marcus J, Marres H, Nduka C, Slattery WH, Snyder-Warwick A; Sir Charles Bell Society. Reply: facial nerve grading scales: systematic review of the literature and suggestion for uniformity. Plast Reconstr Surg. 2015 May;135(5):930e-931e. doi: 10.1097/PRS.0000000000001183. PMID: 25714243.

Wrong design: commentary on paper

Györi E, Przestrzelski C, Pona I, Hagmann M, Rath T, Radtke C, Tzou CJ. Quality of life and functional assessment of facial palsy patients: A questionnaire study. Int J Surg. 2018 Jul;55:92-97. doi: 10.1016/j.ijsu.2018.04.061. Epub 2018 May 19. PMID: 29787803.

No comparative study; only Sunnybrooke

Hu WL, Ross B, Nedzelski J. Reliability of the Sunnybrook Facial Grading System by novice users. J Otolaryngol. 2001 Aug;30(4):208-11. doi: 10.2310/7070.2001.20148. PMID: 11771031.

No comparative study; only Sunnybrooke

Hultcrantz M. Rehabilitation of Bells' palsy from a multi-team perspective. Acta Otolaryngol. 2016;136(4):363-7. doi: 10.3109/00016489.2015.1116124. Epub 2015 Dec 4. PMID: 26634395.

Wrong outcome: predictive value of SB and HB for recovery

Kanerva M, Jones S, Pitkaranta A. Ramsay Hunt syndrome: long-term facial palsy outcome assessed face-to-face by three different grading scales and compared to patient self-assessment. Eur Arch Otorhinolaryngol. 2021 Jun;278(6):1781-1787. doi: 10.1007/s00405-020-06251-w. Epub 2020 Aug 3. PMID: 32748187; PMCID: PMC8131329.

Wrong outcome: applicability (narrative)

Kim SJ, Lee HY. Acute Peripheral Facial Palsy: Recent Guidelines and a Systematic Review of the Literature. J Korean Med Sci. 2020 Aug 3;35(30):e245. doi: 10.3346/jkms.2020.35.e245. PMID: 32743989; PMCID: PMC7402921.

Wrong design: international guideline on facial palsy

Niziol R, Henry FP, Leckenby JI, Grobbelaar AO. Is there an ideal outcome scoring system for facial reanimation surgery? A review of current methods and suggestions for future publications. J Plast Reconstr Aesthet Surg. 2015 Apr;68(4):447-56. doi: 10.1016/j.bjps.2014.12.015. Epub 2014 Dec 24. PMID: 25589458.

wrong design: overview paper of evaluation systems for facial reanimation surgery

Picard D, Leroy R, Poussy T, Tankéré F, Gatignol P. Facteurs prédictifs des séquelles de paralysie faciale idiopathique : suivi longitudinal [Sequelae in bell's palsy: Prognostic factors for recovery]. Ann Chir Plast Esthet. 2021 Oct;66(5):364-370. French. doi: 10.1016/j.anplas.2020.09.003. Epub 2020 Oct 6. PMID: 33036789.

Article in French

Samsudin, W. S. W., & Sundaraj, K. (2014). Clinical and non-clinical initial assessment of facial nerve paralysis: A qualitative review. Biocybernetics and Biomedical Engineering, 34(2), 71-78.

wrong design: overview paper of clinical and non-clinical methods to evaluate facial nerve function

Tan JR, Coulson S, Keep M. Face-to-Face Versus Video Assessment of Facial Paralysis: Implications for Telemedicine. J Med Internet Res. 2019 Apr 12;21(4):e11109. doi: 10.2196/11109. PMID: 30977734; PMCID: PMC6484264.

wrong comparison: consistency of face-to-face assessments versus video-assessments

van Veen MM, Bruins TE, Artan M, Werker PMN, Dijkstra PU. Learning curve using the Sunnybrook Facial Grading System in assessing facial palsy: An observational study in 100 patients. Clin Otolaryngol. 2020 Sep;45(5):823-826. doi: 10.1111/coa.13574. Epub 2020 Jun 8. PMID: 32419362; PMCID: PMC7496591.

wrong outcome: learning curve for facial function assessment using SB

 

Autorisatiedatum en geldigheid

Laatst beoordeeld  : 03-05-2024

Laatst geautoriseerd  : 03-05-2024

Geplande herbeoordeling  : 01-01-2025

Initiatief en autorisatie

Initiatief:
  • Nederlandse Vereniging voor Keel-Neus-Oorheelkunde en Heelkunde van het Hoofd-Halsgebied

Algemene gegevens

De ontwikkeling van deze richtlijnmodule werd ondersteund door het Kennisinstituut van de Federatie Medisch Specialisten (www.demedischspecialist.nl/kennisinstituut) en werd gefinancierd uit de Kwaliteitsgelden Medisch Specialisten (SKMS). De financier heeft geen enkele invloed gehad op de inhoud van de richtlijnmodule.

Samenstelling werkgroep

Samenstelling cluster

Voor het herzien van de richtlijnmodules is in 2021 een multidisciplinair cluster ingesteld (cluster otologie). Dit cluster bestaat uit vertegenwoordigers van alle relevante organisaties die betrekking hebben op de zorg voor patiënten met een perifere aangezichtsverlamming.

 

Expertisegroep perifere aangezichtsverlamming

  • Dr. K.J.A.O. (Koen) Ingels (voorzitter), KNO-arts, Radboud UMC; NVKNO
  • Dr. I.J. (Ingrid) Kleiss, KNO-arts, Rijnstate Arnhem; NVKNO
  • Dr. F.V.W.J. (Floris) van Zijl, KNO-arts, Erasmus MC; NVKNO
  • Dr. A.M.M. (Anne) Oonk, KNO-arts, Gelre Ziekenhuis; NVKNO
  • Dr. N. (Nienke) Grotenhuis, KNO-arts, Maasstad Ziekenhuis; NVKNO
  • Dr. R.H. (Rolien) Free, KNO-arts, UMC Groningen, NVKNO,
  • Prof. Dr. B.F.A.M. (Bernard) van der Laan, KNO-arts, Haaglanden MC; NVKNO
  • Dr. C. (Caroline) Driessen, plastisch chirurg, Amsterdam UMC; NVPC
  • Dr. G.J. (Gerben) van Hinte, fysiotherapeut, Radboud UMC; KNGF
  • Dr. J.J. (Jos) Kerremans, medisch microbioloog, Alrijne Ziekenhuis; NVMM
  • E. (Esmee) Ruizendaal, medisch microbioloog, Radboud UMC; NVMM
  • Dr. E.A. (Elisabeth) Cats, (kinder)neuroloog, Gelre Ziekenhuis; NVN

Met ondersteuning van

  • Dr. R. (Romy) Zwarts - van de Putte, adviseur, Kennisinstituut van Medisch Specialisten
  • D.G. (Dian) Ossendrijver, junior adviseur, Kennisinstituut van de Federatie Medisch Specialisten

Belangenverklaringen

De Code ter voorkoming van oneigenlijke beïnvloeding door belangenverstrengeling is gevolgd. Alle clusterstuurgroepleden en actief betrokken expertisegroepsleden (fungerend als schrijver en/of meelezer bij tenminste één van de geprioriteerde richtlijnmodules) hebben schriftelijk verklaard of zij in de laatste drie jaar directe financiële belangen (betrekking bij een commercieel bedrijf, persoonlijke financiële belangen, onderzoek financiering) of indirecte belangen (persoonlijke relaties, reputatiemanagement) hebben gehad. Gedurende de ontwikkeling of herziening van een richtlijnmodule worden wijzigingen in belangen aan de projectleider doorgegeven. De belangenverklaring wordt opnieuw bevestigd tijdens de commentaarfase. Een overzicht van de belangen van de clusterleden en betrokken expertisegroepsleden en het oordeel over het omgaan met eventuele belangen vindt u in onderstaande tabel. De ondertekende belangenverklaringen zijn op te vragen bij het secretariaat van het Kennisinstituut van de Federatie Medisch Specialisten.

 

Expertisegroep

 

Tabel 1. Gemelde (neven)functies en belangen expertisegroep IPAV

Clusterlid

Functie

Nevenfuncties

Gemelde belangen

Ondernomen actie

Ingels *

KNO-arts, Radboudumc, Nijmegen

 

dr. K. Ingels is tevens werkzaam bij Eyelift en Neuscorrectie-specialist, waar respectievelijk ooglidcorrecties en Neuscorrecties worden uitgevoerd (geen patiënten met aangezichtsverlamming).

Geen

Geen restrictie

Smit

Plastisch chirurg AUMC

UEMS vertegenwoordiger; onbetaald
Commissie ONE (onderwijs nascholing examinering): onbetaald
Werkzaam in Alexander Monro borstkankerziekenhuis als plastisch chirurg: betaald
Werkzaam in Gender Clinic als plastisch chirurg

The Breast trial / The breast trail 2. Geen rol bij deze richtlijn

 

Geen restrictie

Ruizendaal

Arts-microbioloog, Radboudumc (4 dagen per week, betaald)

Geen

Geen

Geen restrictie

Van Zijl

0,9 FTE KNO-arts Erasmus MC

0,1 FTE KNO-arts Boerhaave kliniek en Eyelift.nl (klinieken voor cosmetische aangezichtschirurgie)

Lid kerngroep aangezichtschirurgie KNO Vereniging

Lid werkgroep kennisagenda aangezichtschirurgie

Geen

Geen restrictie

Schmidt-Grotenhuis

KNO-arts Maasstad ziekenhuis 0,6FTE

Geen

Geen

Geen restrictie

Van Hinte

Fysiotherapeut, gezondheidswetenschapper, Radboudumc Nijmegen (34u pw).
Cursusleider opleiding "Mimetherapie bij perifere aangezichtsverlammingen" Radboudumc

Betaald:
Docent op diverse post-HBO master fysiotherapie opleidingen
Avans+ Breda, Masteropleiding oncologische fysiotherapie
SOMT Amersfoort, Master opleiding orofaciale fysiotherapie
Hogeschool Arnhem-Nijmegen, Master opleiding musculoskeletale aandoeningen

Geen

Geen restrictie

Driessen

Plastisch chirurg in Amsterdam UMC 0.8FTE

Geen

Geen

Geen restrictie

Kleiss

KNO-arts Rijnstate Arnhem (0.8 FTE)

Aangezichtschirurg Eyelift.nl (0.1 FTE)

Accreditatie Commissie KNO Vereniging

Lid werkgroep kennisagenda aangezichtschirurgie NvKNO

Geen

Geen restrictie

van der Laan

KNO-arts
Haaglanden Medisch Centrum

Geen

Geen

Geen restrictie

Kerremans

Arts-microbioloog vrijgevestigd werkend via MSB Alrijne; laboratorium is eigendom van Eurofins;

Lid Commissie kwaliteit NVMM onbezoldigd
arts-microbioloog bij NMDL-LCPL

Geen

Geen restrictie

Oonk

KNO-arts bij Gelre ziekenhuizen (betaald).

Geen

Geen

Geen restrictie

Cats

Kennisinstituut FMS/NVN

Ik werk als kinderneuroloog in het Gelre ziekenhuis Apeldoorn. Ik heb geen nevenwerkzaamheden

Geen

Geen restrictie

Free

KNO-arts/Otoloog, Pediatrische KNO, Voorzitter CI team Noord-Nederland, UMCG Groningen, afdeling KNO heelkunde

Lid Voortgangstoets commissie KNO-vereniging
Voorzitter Vlaams Nederlands Pediatrische Werkgroep (NVWPO

Geen

Geen restrictie

 

Inbreng patiëntenperspectief

Er werd aandacht besteed aan het patiëntenperspectief door deelname van relevante patiëntenorganisaties aan de need-for-update en/of prioritering. De verkregen input is meegenomen bij het opstellen van de uitgangsvragen, de keuze voor de uitkomstmaten en bij het opstellen van de overwegingen. De conceptrichtlijnmodule is tevens ter commentaar voorgelegd aan alle relevante patiëntenorganisaties in de stuur- en expertisegroep (zie ‘Samenstelling cluster’ onder ‘Verantwoording’) en aan alle patiëntenorganisaties die niet deelnemen aan de stuur- en expertisegroep, maar wel hebben deelgenomen aan de need-for-update (zie ‘Need-for-update’ onder ‘Verantwoording’). De eventueel aangeleverde commentaren zijn bekeken en verwerkt. 

 

Wkkgz & Kwalitatieve raming van mogelijke substantiële financiële gevolgen

Bij de richtlijnmodule is conform de Wet kwaliteit, klachten en geschillen zorg (Wkkgz) een kwalitatieve raming uitgevoerd of de aanbevelingen mogelijk leiden tot substantiële financiële gevolgen. Bij het uitvoeren van deze beoordeling is de richtlijnmodule op verschillende domeinen getoetst (zie het stroomschema).

 

Uit de kwalitatieve raming blijkt dat er waarschijnlijk geen substantiële financiële gevolgen zijn, zie onderstaande tabel.

 

Tabel 2. Uitkomsten kwalitatieve raming

Richtlijnmodule

Uitkomst raming

Toelichting

Classificatie evaluatie van een perifere aangezichtsverlamming

geen financiële gevolgen

Uit de toetsing volgt dat de aanbeveling(en) niet breed toepasbaar zijn (<5000 patiënten) en zal daarom naar verwachting geen substantiële financiële gevolgen hebben voor de collectieve uitgaven.

Werkwijze

AGREE

Deze richtlijnmodule is opgesteld conform de eisen vermeld in het rapport Medisch Specialistische Richtlijnen 3.0 van de adviescommissie Richtlijnen van de Raad Kwaliteit. Dit rapport is gebaseerd op het AGREE II instrument (Appraisal of Guidelines for Research & Evaluation II; Brouwers, 2010).

 

Need-for-update, prioritering en uitgangsvragen

Tijdens de need-for-update fase (april, 2021) inventariseerde het cluster de geldigheid van de richtlijnmodules binnen het cluster. Naast de partijen die deelnemen aan de stuur- en expertisegroep zijn hier ook andere stakeholders voor benaderd. Per richtlijnmodule is aangegeven of deze geldig is, herzien moet worden, kan vervallen of moet worden samengevoegd. Ook was er de mogelijkheid om nieuwe onderwerpen aan te dragen die aansluiten bij één (of meerdere) richtlijn(en) behorend tot het cluster. De richtlijnmodules waarbij door één of meerdere partijen werd aangegeven herzien te worden, werden doorgezet naar de prioriteringsronde. Ook suggesties voor nieuwe richtlijnmodules werden doorgezet naar de prioriteringsronde. Afgevaardigden vanuit de partijen in de stuur- en expertisegroep werden gevraagd om te prioriteren (zie ‘Samenstelling cluster’ onder ‘Verantwoording’). Hiervoor werd de RE-weighted Priority-Setting (REPS) – tool gebruikt. De uitkomsten (ranklijst) werd gebruikt als uitgangspunt voor de discussie. Voor de geprioriteerde richtlijnmodules zijn door de het cluster concept-uitgangsvragen herzien of opgesteld en definitief vastgesteld.

 

Uitkomstmaten

Na het opstellen van de zoekvraag behorende bij de uitgangsvraag inventariseerde het cluster welke uitkomstmaten voor de patiënt relevant zijn, waarbij zowel naar gewenste als ongewenste effecten werd gekeken. Hierbij werd een maximum van acht uitkomstmaten gehanteerd. Het cluster waardeerde deze uitkomstmaten volgens hun relatieve belang bij de besluitvorming rondom aanbevelingen, als cruciaal (kritiek voor de besluitvorming), belangrijk (maar niet cruciaal) en onbelangrijk. Tevens definieerde het cluster tenminste voor de cruciale uitkomstmaten welke verschillen zij klinisch (patiënt) relevant vonden.

 

Methode literatuursamenvatting

Een uitgebreide beschrijving van de strategie voor zoeken en selecteren van literatuur is te vinden onder ‘Zoeken en selecteren’. Indien mogelijk werd de data uit verschillende studies gepoold in een random-effects model. (Review Manager 5.4) werd indien mogelijk gebruikt voor de statistische analyses. De beoordeling van de kracht van het wetenschappelijke bewijs wordt hieronder toegelicht.

 

Beoordelen van de kracht van het wetenschappelijke bewijs

De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode. GRADE staat voor ‘Grading Recommendations Assessment, Development and Evaluation’. De basisprincipes van de GRADE-methodiek zijn: het benoemen en prioriteren van de klinisch (patiënt) relevante uitkomstmaten, een systematische review per uitkomstmaat, en een beoordeling van de bewijskracht per uitkomstmaat op basis van de acht GRADE-domeinen (domeinen voor downgraden: risk of bias, inconsistentie, indirectheid, imprecisie, en publicatiebias; domeinen voor upgraden: dosis-effect relatie, groot effect, en residuele plausibele confounding). GRADE onderscheidt vier gradaties voor de kwaliteit van het wetenschappelijk bewijs: hoog, redelijk, laag en zeer laag. Deze gradaties verwijzen naar de mate van zekerheid die er bestaat over de literatuurconclusie, in het bijzonder de mate van zekerheid dat de literatuurconclusie de aanbeveling adequaat ondersteunt (Schünemann, 2013; Hultcrantz, 2017).

 

Tabel 3. Gradaties voor de kwaliteit van wetenschappelijk bewijs

GRADE

Definitie

Hoog

  • er is hoge zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • het is zeer onwaarschijnlijk dat de literatuurconclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Redelijk

  • er is redelijke zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • het is mogelijk dat de conclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Laag

  • er is lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • er is een reële kans dat de conclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Zeer laag

  • er is zeer lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • de literatuurconclusie is zeer onzeker.

 

Bij het beoordelen (graderen) van de kracht van het wetenschappelijk bewijs in een richtlijnmodule volgens de GRADE-methodiek spelen grenzen voor klinische besluitvorming een belangrijke rol (Hultcrantz, 2017). Dit zijn de grenzen die bij overschrijding aanleiding zouden geven tot een aanpassing van de aanbeveling. Om de grenzen voor klinische besluitvorming te bepalen moeten alle relevante uitkomstmaten en overwegingen worden meegewogen. De grenzen voor klinische besluitvorming zijn daarmee niet één op één vergelijkbaar met het minimaal klinisch relevant verschil (Minimal Clinically Important Difference, MCID). Met name in situaties waarin een interventie geen belangrijke nadelen heeft en de kosten relatief laag zijn, kan de grens voor klinische besluitvorming met betrekking tot de effectiviteit van de interventie bij een lagere waarde (dichter bij het nuleffect) liggen dan de MCID (Hultcrantz, 2017).

 

Overwegingen (van bewijs naar aanbeveling)

Om te komen tot een aanbeveling zijn naast (de kwaliteit van) het wetenschappelijke bewijs ook andere aspecten belangrijk en worden meegewogen, zoals aanvullende argumenten uit bijvoorbeeld de biomechanica of fysiologie, waarden en voorkeuren van patiënten, kosten (middelenbeslag), aanvaardbaarheid, haalbaarheid en implementatie. Deze aspecten zijn systematisch vermeld en beoordeeld (gewogen) onder het kopje ‘Overwegingen’ en kunnen (mede) gebaseerd zijn op expert opinion. Hierbij is gebruik gemaakt van een gestructureerd format gebaseerd op het evidence-to-decision framework van de internationale GRADE Working Group (Alonso-Coello, 2016a; Alonso-Coello 2016b). Dit evidence-to-decision framework is een integraal onderdeel van de GRADE methodiek.

 

Formuleren van aanbevelingen

De aanbevelingen geven antwoord op de uitgangsvraag en zijn gebaseerd op het beschikbare wetenschappelijke bewijs en de belangrijkste overwegingen, en een weging van de gunstige en ongunstige effecten van de relevante interventies. De kracht van het wetenschappelijk bewijs en het gewicht dat door het cluster wordt toegekend aan de overwegingen, bepalen samen de sterkte van de aanbeveling. Conform de GRADE-methodiek sluit een lage bewijskracht van conclusies in de systematische literatuuranalyse een sterke aanbeveling niet a priori uit, en zijn bij een hoge bewijskracht ook zwakke aanbevelingen mogelijk (Agoritsas, 2017; Neumann, 2016). De sterkte van de aanbeveling wordt altijd bepaald door weging van alle relevante argumenten tezamen. Het cluster heeft bij elke aanbeveling opgenomen hoe zij tot de richting en sterkte van de aanbeveling zijn gekomen.

 

In de GRADE-methodiek wordt onderscheid gemaakt tussen sterke en zwakke (of conditionele) aanbevelingen. De sterkte van een aanbeveling verwijst naar de mate van zekerheid dat de voordelen van de interventie opwegen tegen de nadelen (of vice versa), gezien over het hele spectrum van patiënten waarvoor de aanbeveling is bedoeld. De sterkte van een aanbeveling heeft duidelijke implicaties voor patiënten, behandelaars en beleidsmakers (zie onderstaande tabel). Een aanbeveling is geen dictaat, zelfs een sterke aanbeveling gebaseerd op bewijs van hoge kwaliteit (GRADE gradering HOOG) zal niet altijd van toepassing zijn, onder alle mogelijke omstandigheden en voor elke individuele patiënt.

 

Tabel 4. Sterkte van de aanbevelingen

Implicaties van sterke en zwakke aanbevelingen voor verschillende richtlijngebruikers

 

Sterke aanbeveling

Zwakke (conditionele) aanbeveling

Voor patiënten

De meeste patiënten zouden de aanbevolen interventie of aanpak kiezen en slechts een klein aantal niet.

Een aanzienlijk deel van de patiënten zouden de aanbevolen interventie of aanpak kiezen, maar veel patiënten ook niet. 

Voor behandelaars

De meeste patiënten zouden de aanbevolen interventie of aanpak moeten ontvangen.

Er zijn meerdere geschikte interventies of aanpakken. De patiënt moet worden ondersteund bij de keuze voor de interventie of aanpak die het beste aansluit bij zijn of haar waarden en voorkeuren.

Voor beleidsmakers

De aanbevolen interventie of aanpak kan worden gezien als standaardbeleid.

Beleidsbepaling vereist uitvoerige discussie met betrokkenheid van veel stakeholders. Er is een grotere kans op lokale beleidsverschillen. 

 

Organisatie van zorg

Bij de ontwikkeling van de richtlijnmodule is expliciet aandacht geweest voor de organisatie van zorg: alle aspecten die randvoorwaardelijk zijn voor het verlenen van zorg (zoals coördinatie, communicatie, (financiële) middelen, mankracht en infrastructuur). Randvoorwaarden die relevant zijn voor het beantwoorden van deze specifieke uitgangsvraag zijn genoemd bij de overwegingen.

 

Commentaar- en autorisatiefase

De conceptrichtlijnmodule werd voorgelegd aan alle partijen die benaderd zijn voor de need-for-update fase. De commentaren werden verzameld en besproken met het cluster. Naar aanleiding van de commentaren werd de conceptrichtlijnmodule aangepast en definitief vastgesteld door het cluster. De definitieve richtlijnmodule werd ter autorisatie of goedkeuring voorgelegd aan de partijen die beschreven staan bij ‘Initiatief en autorisatie’ onder ‘Verantwoording’.

 

Literatuur

Agoritsas T, Merglen A, Heen AF, Kristiansen A, Neumann I, Brito JP, Brignardello-Petersen R, Alexander PE, Rind DM, Vandvik PO, Guyatt GH. UpToDate adherence to GRADE criteria for strong recommendations: an analytical survey. BMJ Open. 2017 Nov 16;7(11):e018593. doi: 10.1136/bmjopen-2017-018593. PubMed PMID: 29150475; PubMed Central PMCID: PMC5701989.

 

Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. doi: 10.1136/bmj.i2016. PubMed PMID: 27353417.

 

Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. doi: 10.1136/bmj.i2089. PubMed PMID: 27365494.

 

Brouwers MC, Kho ME, Browman GP, Burgers JS, Cluzeau F, Feder G, Fervers B, Graham ID, Grimshaw J, Hanna SE, Littlejohns P, Makarski J, Zitzelsberger L; AGREE Next Steps Consortium. AGREE II: advancing guideline development, reporting and evaluation in health care. CMAJ. 2010 Dec 14;182(18):E839-42. doi: 10.1503/cmaj.090449. Epub 2010 Jul 5. Review. PubMed PMID: 20603348; PubMed Central PMCID: PMC3001530.

 

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006. Epub 2017 May 18. PubMed PMID: 28529184; PubMed Central PMCID: PMC6542664.

 

Medisch Specialistische Richtlijnen 2.0 (2012). Adviescommissie Richtlijnen van de Raad Kwalitieit. http://richtlijnendatabase.nl/over_deze_site/over_richtlijnontwikkeling.html

 

Neumann I, Santesso N, Akl EA, Rind DM, Vandvik PO, Alonso-Coello P, Agoritsas T, Mustafa RA, Alexander PE, Schünemann H, Guyatt GH. A guide for health professionals to interpret and use recommendations in guidelines developed with the GRADE approach. J Clin Epidemiol. 2016 Apr;72:45-55. doi: 10.1016/j.jclinepi.2015.11.017. Epub 2016 Jan 6. Review. PubMed PMID: 26772609.

 

Schünemann H, Brożek J, Guyatt G, et al. GRADE handbook for grading quality of evidence and strength of recommendations. Updated October 2013. The GRADE Working Group, 2013. Available from http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html.

Zoekverantwoording

Zoekacties zijn opvraagbaar. Neem hiervoor contact op met de Richtlijnendatabase.

Volgende:
Verwijzing en diagnostiek eerste lijn bij IPAV