- UNIVERSITATE pentru comunitate
- Statistica si modelare
Cât de afectate de erori sunt statisticile şi modelările evoluţiei impactului virusului Covid-19?
Gheorghe SĂVOIU, prof. univ. dr. habil.
Departamentul Finanţe, Contabilitate, Economie
Facultatea de Ştiinţe Economice şi Drept
14 aprilie 2020
Atunci când eroarea este prezentă într-o mare proporţie în date sau informaţii, acestea riscă să devină ulterior incapabile să sintetizeze adecvat, corect, veridic o realitate obiectivă, favorizând adesea decizii cu impact negativ. Eroarea constituie o componentă firească a adevărurilor tot mai relative ale vieţii cotidiene, înclinând balanţa către neadevăr, ori de câte ori domină conţinutul informaţional. Oamenii convieţuiesc practic cu erori mai mici sau mai mari, care devin acceptabile cu condiţia esenţială să fie cunoscute şi comunicate simultan cu informaţia. Gândirea statistică se distinge de alte tipuri de cugetare ştiinţifică prin efortul ei permanent de măsurare a acestor inevitabile erori, care apar în cercetările ştiinţifice, încercând să le cuantifice nivelul şi, mai ales, impactul decizional al acestora. Semnificaţia primordială a erorii relevă pe scurt o simplă diferenţă între o dată sau informaţie statistică (indicator statistic) şi valoarea reală corespunzătoare a acesteia (nivelul, structura, omogenitatea, asimetria indicatorului). Prezenţa erorii descrie şi un proces de falsă valorificare a unei cercetări, cu consecinţe decizionale defavorabile, prin înregistrarea altei valori eronate în locul celei corecte (în valoare absolută sau relativǎ). Conform legii numerelor mari, atunci când ne imaginăm lumea structurată în optimişti şi pesimişti care observă variabilele investigate într-o cercetare de mari dimensiuni, unele dintre erori se pot compensa reciproc, cei ce aproximează în plus fiind compensaţi de cei care o fac în sens opus, adică în minus. În situaţia concretă a investigării statistice a evoluţiei impactului unei pandemii, inclusiv a celei cauzate de Covid-19, mai corect, de un virus ce îşi are originea în China, erorile se agregă şi riscă să facă inutilizabile rezultatele prelucrate ale oricărei observări, atunci când nu sunt asigurate condiţii de comparabilitate statistică, instrumente sau testări medicale veridice şi adecvate, tehnici ştiinţifice oportune de selectare a celor ce urmează a fi testaţi etc. În practica econometrică modelatoare, în fapt o componentă specifică a gândirii statistice ce urmăreşte cuantificarea legăturilor dintre variabile endogene şi exogene care caracterizează un anumit fenomen, eroarea reziduală (εi) prezintă calitatea de a reuni influenţa tuturor variabilelor sau factorilor ce nu au fost incluşi în model. Cu cât valoarea lui εi creşte mai mult, cu atât modelul este invalidat sau declarat perimat, noi variabile urmând a fi incluse într-un nou model explicativ, prospectiv, simulativ etc. Eroarea constituie de fapt termometrul activităţilor de cercetare, de la observare, prelucrare, analiză şi interpretare, modelare, până la controlul retrospectiv al validităţii în timp şi spaţiu a modelelor etc.
Ceea ce se întâmplă în lumea întreagă, ca urmare a investigării evoluţiei impactului virusului Covid-19, constituie o lecţie practică de statistică cu trimitere la importanţa fundamentală a erorilor metodologice. Ca de obicei teoria este expusă fragilităţilor propriilor excese, specifice oricărei gândiri ştiinţifice în confruntarea practică şi imediată cu realitatea investigată. Ceea ce rezultă de aici constituie o lecţie despre dificultatea şi uneori chiar imposibilitatea obţinerii “antifragilului” lui Nicholas Nassim Taleb, a acelei soluţii mai durabile şi mai viabile comparative cu robusteţea metodelor clasice (Taleb, 2012). Antifragilitatea presupune şi valorificarea etică a erorilor, cu sensul de supravieţuire ulterioară cu ajutorul lor, învăţând şi adaptând decizia în viitor, pornind mai ales de la ele. Cercetarea riguroasă a impactului virusului Covid-19, în contextul evoluţiei diferenţiate, multiculturale, multieducaţionale, multidimensionale din punct de vedere medical (sanitar) a unei atât de mari diversităţi economice şi demografice, cu acoperire mondială, dezvăluie o multitudine de erori statistice. Acestea devin evidente de câte ori se oferă un răspuns cinstit la întrebări aparent minore, venite de la studenţi, derivate din respectarea premiselor majore ale unei investigaţii statistice ample:
1) Ce fel de cercetare statistică a fost considerată ca adecvată unei asemenea pandemii?
Teoretic, existau două abordări imediate prin soluţii de investigare totală (exhaustivă având exemplul recensămintelor sau inventarierilor ample) sau parţială (selectivă sau axată pe teoria sondajului sau pe prelevări de eşantioane). Recensămintele în calitate de cercetări statistice exhaustive sunt foarte costisitoare şi cer o rigoare metodologică şi o abordare unitară specifică, iar eşantioanele, deşi sunt mult mai ieftine, riscă să înregistreze, în areale extreme, date cu un nivel redus de reprezentativitate (excesiv afectate sau aproape inafectate). Nici eşantioanele suprapuse şi nici panelurile nu pot asigura nivelul de veridicitate necesar investigării unei pandemii, iar cercetările parţiale ante şi postfactum ce rezultă rămân doar studii focalizate apărute în publicaţii ştiinţifice şi nimic mai mult. Soluţia teoretică aleasă a fost cercetarea exhaustivă, dar la final s-au publicat rezultate parţiale, printr-un compromis inacceptabil statistic… S-au omis atât identitatea metodologică, cât şi menţinerea caracterului unitar al culegerii statistice a datelor medicale, ceea ce a condus în practică la neîncredere în date, informaţii, indicatori şi modelări derivate.
2) Ce variabile au fost selectate pentru a fi analizate evolutiv şi cum s-au asociat sau corelat acestea în viziunea exhaustivă şi integrativă a cercetării?
Au fost preferate şi la final selectate opt variabile statistice cu conţinut simultan şi demografic şi medical: i) cazuri totale; ii) cazuri noi; iii) decese totale; iv) decese noi; v) cazuri totale recuperate; vi) cazuri totale active; vii) cazuri grave/critice; viii) teste totale, conform sursei accesate online la https://www.worldometers.info/coronavirus/. Lipsa unui tratament unitar metodologic în cazul acestor variabile, ca acces, delimitare, specificitate etc. a generat o mulţime de erori. Pentru a exemplifica se poate apela la două exemple: decesele şi testele (totale). Nici până în prezent nu există o metodologie unitară a indicatorului decese totale ale pandemiei. În unele ţări se înregistrează exclusiv decesele din spitale, în altele se includ şi azilele, iar într-o a treia categorie şi decesele la domiciliu. Aprofundând observarea acestui indicator se poate menţiona că decesele au fost înregistrate în buletine statistice distincte, unde se menţionează atât cauza principală, cât şi mai multe cauze secundare favorizante (de regulă numai primele două). Ambiguitatea datelor şi informaţiilor este evidentă la decese, atâta timp cât nu se precizează câte persoane au avut Covid – 19, drept cauză principală şi câte drept cauză favorizantă a decesului (nu este clară metodologia acestui indicator, nefiind asimilabilă nici procedurii medicale uzuale şi nici celei demografice, care o sintetizează statistic pe prima). În privinţa testelor, această variabilă ce devine esenţială pentru modelări în general, este lipsită complet de metodologie iar practic ele nu sunt definite astfel încât să poată constitui o variabilă omogenă (câte teste se fac unei persoane în mod obligatoriu, cine sunt persoanele testate cu prioritate, ce claritate sau validitate au tehnicile de testare etc.). Informaţiile sunt contradictorii şi subliniază erori atât de mari, încât se agregă în indicatorul teste totale, populaţii diferite, din ţări diferite (fie numai segmentele de populaţie de peste 65 de ani într-o ţară, fie cu precădere personalul din sistemul sanitar în alta, fie numai populaţia unor areale declarate subit focare în cea de-a treia etc.). Cel mai grav aspect legat de variabila teste totale rămâne cel legat de erorile statistice de tip I sau II (atunci când se declară un adevăr drept fals sau un fals drept adevăr), erori acceptabile în proporţii bine delimitate (maxim 3-5 %), într-un context în care, de exemplu kit-urile de testare trimise de China în Europa (Italiei şi Spaniei), au generat erori de diagnosticare de 30% . Restul variabilelor sunt la fel de intens şi agregativ afectate de erori, fie că este cazul analizei oricărui indicator de tipul cazuri totale, noi, recuperate sau active, pornind de la acelaşi raţionament statistic şi medical… Se pot menţiona situaţiile absurde teoretic, dar reale în lipsa unei metodologii coerente şi unitare care să le acopere, când s-au înregistrat statistic decese de Covid -19 postmortem ale unor persoane care nu figurau ca înregistrate (la o zi sau chiar două de la moartea acestora la domiciliu sau chiar la spital).
3) Există o utilitate reală a modelelor rezultate din cercetarea unor astfel de evoluţii totale, pornind de la investigaţii parţiale neanticipate, cu erori de măsurare a variabilelor foarte mari, chiar şi de 30%?
Statistic, nu poţi investiga exhaustiv o populaţie prin cercetări parţiale, fără a cunoaşte nivelul erorilor şi fără un suport matematic adecvat, axat pe teoria probabilităţilor. Ceea ce rezultă cred că este un compromis fără utilitate demografică ori pentru populaţie. Totuşi, există câteva aspecte utile imediate. Deloc statistic, ci mai curând administrativ şi, mai ales, pentru managementul medical, se pare că s-a încercat o evaluare anticipată, cu erori mari, probabil acceptate la limită, a presiunii create de pandemie asupra spitalelor, paturilor, ventilatoarelor şi altor aparate necesare bolnavilor în terapie intensivă (ATI). S-ar mai putea adăuga o utilitate marginală şi tendenţială devoalată la finalul analizei din acest text. Fără a omite importanţa erorilor agregate mari din datele surselor celor 205 state care au raportat impactul Covid-19 la data de 5.04.2020, pe sursa existentă on line la https://www.worldometers.info/coronavirus/, se pot cuantifica intensităţile corelaţiilor dintre: teste şi cazuri totale, respectiv teste şi decese. Ceea ce se obţine constituie o confirmare a lipsei de validitate a modelelor potenţiale derivate de aici. Odată realizat acest calcul cu ajutorul E-Views se constată cum raportul de corelaţie – R – scade de la 0,88 la 0,59 ceea ce denotă ambiguitate în date sau neîncredere cauzată de erori (în trecerea de la îmbolnăviri la decese). Nu avea niciun sens practic să încerci să realizezi modelări pe aceste date, respectând principiul “dacă introduci date cu erori de măsurare mari, mai ales când sensul lor este incert, scoţi evident modele la fel de eronate ca şi măsurările”. În schimb am constatat că şi erorile statistice mari şi chiar foarte mari pot reliefa uneori ceva important, tendinţele, inflexiunile văzute cu mare aproximaţie, dar importante în intervalul critic de timp al unei pandemii… Graficul solitar, intitulat “Pragul de transformare a unei pandemii dintr-o evoluţie liniară într-una exponenţială”, a fost realizat pornind de la aceleaşi date din aceeaşi sursă şi a generat imaginea cu care debutează articolul. Corelograma cu regresie implicită subliniază că aproape de valoarea de 100.000 de îmbolnăviri numărul deceselor se accelerează şi dincolo de 700.000 de îmbolnăviri evoluţia deceselor se transformă din liniară într-una de tip exponenţial.
Realizat de autor pornind de la sursa de date disponibilă la : https://www.worldometers.info/coronavirus/ 5.04.2020, Software utilizat E-Views
Nedumerirea mea, una tipică de statistician, mă obligă fără să vreau să mă întreb, dacă acest semnal nu putea fi cumva cunoscut din dinamica fenomenului încă din regiunea Wuhan? Iar “drăcuşorul” gândirii statistice ridică alte întrebări legate de stagnarea datelor despre pandemie în China la cifra de 80.000 de cazuri de îmbolnăviri de Covid-19. Este eroarea aceasta întâmplătoare sau ascunde o bază de date metodologic eronată, aşa cum ultimele ştiri din presa franceză estimează, subliniind de fapt că numărul morţilor ar fi fost la un cu totul alt nivel, de 50.000 în Wuhan şi 97.000 în China? (Brosset, Holzman, 2020)… Dar, ce mai contează acum o “mică eroare” în plus, peste altele deja existente? Din păcate, în aceste zile, trista concluzie statistică a importanţei copleşitoare a erorilor metodologice asupra oricărei cercetări de amploare devine mult mai mult decât o simplă temă de dezbatere pur teoretică.
Referinţe bibliografice
Taleb, N.N. 2012. Antifragile: Things That Gain From Disorder, New York City: Random House & Penguin.
Covid-19 Coronavirus Pandemic, available on line at: https://www.worldometers.info/coronavirus/ 5.04.2020.
Brosset, V., Holzman, M., 2020. Un banquet officiel au cœur de la pandémie en Chine, Liberation, 5 avril 2020.
*** https://www.digi24.ro/stiri/actualitate/sanatate/coronavirus-30-din-bolnavi-nu-sunt-detectati-de-testele-actuale-1285675
PARTENERIAT ÎNTRE UNIVERSITATEA DIN PITEȘTI, S.C. CARIERĂ FEROVIARĂ și S.C. CLUB FEROVIAR
PARTENERIAT ÎNTRE UNIVERSITATEA DIN PITEȘTI, S.C. CARIERĂ FEROVIARĂ și S.C. CLUB FEROVIAR
Biblioteca Digitală a Universității din Pitești Bibliografii în format digital – un nou serviciu online oferit utilizatorilor - Ghid de acces -
Ghid de acces la Biblioteca Digitală a Universității din Pitești Bibliografii în format digital – un nou serviciu online oferit utilizatorilor
UEFISCDI - Chestionar studenți
Informații studiul european EUROSTUDENT VIII În perioada următoare – martie-mai 2023 –, România va participa, prin Ministerul Educației, pentru a șasea oar...
CARTA_UNSTPB - Consultare publică
Consultare publică CARTA UNSTPB Având în vedere prevederile Legii Învățământului Superior și în spiritul transparenței decizionale și asumării responsabi...
Informare privind Analiza de piață COM/DG RTD împreuna cu Banca Europeana de Investiții
Informare privind Analiza de piață COM/DG RTD împreuna cu Banca Europeana de Investiții
Taxe de școlarizare indexate – Centrul Universitar Pitești
Taxe de școlarizare indexate Taxele se pot plăti și cu cardul
A început procesul de selecție a grupului țintă (GT3) în cadrul proiectului ”Universitatea 4.0 – universitate deschisă și conectată pentru creșterea rezilienței instituționale”, Cod p
A început procesul de selecție a grupului țintă (GT3) în cadrul proiectului ”Universitatea 4.0 – universitate deschisă și conectată pentru creșterea rezilienței inst...