Guia prctica 5 Avaluaci d'impacte

  • Published on
    28-Jan-2017

  • View
    216

  • Download
    1

Transcript

Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies prctiques sobre avaluaci de poltiques pbliquesInstitucions membres dIvlua:2009, IvluaNo es permet la reproducci total o parcial daquest document, ni el seu tractament informtic, ni la seva transmissi en qualsevol forma o per qualsevol mitj, ja sigui electrnic, mecnic, per fotocpia, per registre o altres mtodes, sense el perms del titular del Copyright.Autors: Jaume Blasco, Analista dIvluaDavid Casado, Analista dIvluaDisseny: petitcomite.netImpressi: Cevagraf, s.c.c.l.Primera edici: Setembre de 2009Dipsit legal: B-39211-2009ndex1. IntroduccI PG. 51.1. AvAluAcI DImpActe: A lA recercA De lA cAusAlItAt pg. 61.2. el contrAfActuAl I lestImAcI De lImpActe DunA poltIcA pblIcA pg. 92. Passos PrelImInars Per dIssenyar una avaluacI dImPacte PG. 132.1. s oport AvAluAr els ImpActes Del progrAmA? pg. 132.2. A qu ens referIm quAn pArlem Doutcomes? pg. 142.3. qu vol DIr pArtIcIpAr en el progrAmA? pg. 182.4. per A quI volem DetectAr els ImpActes? pg. 192.5. A qu ens referIm, exActAment, quAn pArlem De contrAfActuAl? pg. 202.6. De quInes DADes DIsposem per fer lAvAluAcI DImpActe? pg. 213. mtodes Per a lavaluacI dImPacte PG. 233.1. lA vAlIDesA De les conclusIons pg. 243.2. experIments socIAls pg. 273.3. DIssenys sense grup De control: AbAns-Desprs I srIes temporAls pg. 343.4. lA tcnIcA Del matching pg. 373.5. el moDel De Dobles DIferncIes pg. 413.6. eleccI entre mtoDes pg. 45BIBlIoGrafIa PG. 51annex. GuIa de recursos PG. 52mAnuAls pg. 52ArtIcles pg. 52enllAos DInters pg. 54/ 5 /1. IntroduccILes administracions pbliques sesmercen contnuament a dissenyar i intentar millorar poltiques i programes, i dediquen cada any milers de milions deuros a implementar-los. No obstant aix, problemes com ara latur, el fracs escolar, la sinistralitat a les carreteres o la degradaci ambiental, tendeixen a persistir, la qual cosa planteja dubtes sobre lefectivitat de les intervencions pbliques que han de fer-los front. Duna part, aquest fet palesa que la tasca denfrontar-se als problemes socials s complicada, que en el millor dels casos mena a avenos lents, graduals i incomplets. De laltra, que, encara que una intervenci pblica sembli una gran idea i shi destinin molts recursos, el seu xit no es pot donar mai per ga-rantit a priori. Sobre la base duna anlisi sistemtica ex-post, lavaluaci dimpacte tracta, precisament, de determinar la capacitat que tenen les idees potencialment bones per solucionar els proble-mes socials. Un augment dels impostos sobre el tabac fa de deb que la gent fumi menys? Oferir desgravacions fiscals per als plans de pensions fa que la gent estalvi ms per desprs de la jubilaci? Incrementar les hores lectives a leducaci primria millora el rendiment es-colar? Formar els aturats amb baixa qualificaci augmenta la seva renda a mig termini? Ats que els problemes socials poden tenir conseqncies greus per a qui els pateix, i que els re-cursos per fer-los front sn limitats, es tracta didentificar i destriar les poltiques pbliques que millor funcionen per donar-los soluci o, com a mnim, per contenir-los.Tanmateix, com podem saber si les poltiques pbliques realment funcionen? I si funcionen, quina s la magnitud del seu impacte? Massa sovint lavaluaci de les poltiques sha centrat exclusivament en els inputs o els outputs, s a dir, en els recursos que el programa utilitza o en all que el programa fa. Per que 100 bombers hagin estat 24 hores abocant aigua sobre un foc ens diu poc sobre si han aconseguit apagar-lo. Tampoc el mer seguiment dun proble-ma ens diu gaire sobre limpacte real de les poltiques pbliques. Que un any shagin cremat la meitat dhectrees de bosc que lany anterior no vol dir, necessriament, que els bombers hagin fet millor la seva feina. Per tant, en una avaluaci dimpacte no noms volem saber si un problema millora o empitjora, sin si la intervenci pblica hi ha tingut alguna cosa a veure. Es tracta, en resum, destablir si es pot atribuir o no (i en quina mesura) la causa del canvi en el problema a la intervenci pblica. Fer-ho de forma convincent, com veurem, s una tasca laboriosa.Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 6 /1.1. AvAluAcI DImpActe: A lA recercA De lA cAusAlItAtSuposem que lajuntament duna ciutat posa en marxa un programa nou datenci a les per-sones sense sostre que pernocten als carrers de la ciutat. La intervenci consisteix a oferir atenci personalitzada al carrer a les persones que no utilitzen els recursos municipals residencials, amb el propsit que cada persona rebi sempre latenci del mateix treballador social. El programa s costs, perqu implica la contractaci de nombrosos treballadors socials nous, per sespera que ajudi a reduir considerablement el nombre de persones que es troben en la necessitat de dormir al ras. La teoria consisteix que, mitjanant aquest tipus datenci, el treballador social desenvolupar una relaci de confiana amb la persona sense sostre que li permetr detectar millor quins problemes pateix, informar-la, orientar-la i acompanyar-la al recurs o servei ms adequat en cada cas, i anar vencent les barreres i des-confiances que fan que les persones sense sostre es mostrin reticents a utilitzar aquests re-cursos. Se suposa que daquesta manera sincrementar el nombre de persones que entren en contacte amb el sistema datenci, la qual cosa constitueix un primer pas crtic per poder proveir-les de lassistncia que necessiten i, en ltim terme, permetre que aquestes perso-nes accedeixin a solucions residencials estables en qu puguin desenvolupar el seu projecte de vida amb el mxim dautonomia personal possible. La idea sembla bona, per, funcionar a la prctica?Imaginem, ara, que per mesurar limpacte dels seus programes per a les persones sense sostre lajuntament realitza recomptes anuals de les persones que pernocten al carrer. Tal com mostra el grfic 1, els recomptes realitzats amb anterioritat al nou programa indicaven que lany 2007 hi havia 875 persones dormint als carrers de la ciutat, i que aquest nombre representava una petita variaci respecte a lany anterior. El recompte de lany 2008, espe-rat amb expectaci per poder estimar limpacte del nou programa, revela que la poblaci de persones sense sostre ha baixat fins a les 625 persones. En altres paraules, aix implica una reducci de 250, gaireb un 30% comparat amb la poblaci sense sostre de lany anterior. A primera vista, sembla que limpacte del programa hagi estat positiu i considerable. Tanma-teix, podem considerar que aquesta conclusi s prou acurada?/ 7 /grfic 1: evoluci de les pernoctacions al carrerImpacte625-875= -250875625NOMBRE DE PERSONES SENSE SOSTRE1002002006 2007 200830040050006007008009001000INTERVENCIANYSPer respondre aquesta pregunta hem de tenir en compte que, entre els anys 2007 i 2008, poden haver passat altres coses a part de la posada en marxa del nou programa. Per exem-ple, s possible que leconomia shagi expandit i ofereixi ms oportunitats laborals fins i tot per a les persones de ms baixa qualificaci. Tamb pot haver passat que els serveis de salut mental hagin endegat un nou programa en coordinaci amb els serveis socials, que shagi mostrat especialment efectiu a prevenir que les persones amb malalties mentals greus i pocs recursos econmics acabin al carrer. Igualment, s possible que el govern hagi endurit el control de lentrada al pas de nous immigrants, fent ms difcil lentrada al pas per als immigrants indocumentats, que representen un sector de la poblaci amb problemes ms greus daccs a lhabitatge. Aquests fenmens, entre molts altres, podrien explicar, total-ment o parcialment, el descens de la poblaci sense sostre observada entre 2007 i 2008. La situaci oposada s igualment factible: que en aquest mateix any les condicions econmi-ques haguessin empitjorat, un programa datenci a les persones amb malalties mentals shagus suprimit i haguessin entrat a la ciutat molts ms immigrants indocumentats que en anys anteriors. En aquest cas, la reducci de 250 persones respecte a lany anterior estimada al grfic 1 seria una clara subestimaci de limpacte real del programa. La situaci descrita en lexemple s la ms habitual en una avaluaci dimpacte. Podem mesurar fcilment un determinat fenomen, com ara la quantitat de persones que dormen al carrer, el nombre daccidents a les carreteres, o la productivitat del sector de la fruita dola per capturar limpacte o outcome duna intervenci pblica que ens interessa avaluar. Per, malauradament per als avaluadors, succeeixen moltes altres coses ms enll de la mateixa Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 8 /intervenci pblica (com ara levoluci de leconomia, els canvis en la meteorologia o la posa-da en marxa daltres programes i poltiques) que tenen una influncia notable sobre limpacte que intentem observar i en compliquen lavaluaci. En conseqncia, avaluar limpacte dun programa implica ser capa dallar lefecte del programa en relaci amb tots aquests altres fenmens que afecten el problema o situaci que la intervenci pblica pretn adrear. Aquesta constataci ens porta a introduir el que sembla un petit mats per que t, en rea-litat, una importncia cabdal en lavaluaci dimpacte (i que, com veurem ms endavant, s la principal font de maldecaps metodolgics): la pregunta que lavaluaci dimpacte ha de respondre no s qu ha passat desprs de posar en marxa una intervenci pblica (moltes coses hi poden haver influt), sin qu ha passat en comparaci amb el que hauria passat si la intervenci no shagus dut a terme. Lgicament, la diferncia entre el que ha passat amb el programa i el que hauria passat sense el programa es pot atribuir nicament i solament al programa o, dit duna altra manera, la diferncia ha estat causada pel programa. I aix s, precisament, el que cerca lavaluaci dimpacte: all que el programa ha causat, i no all que ha passat al mateix temps que el programa.quADre 1AssocIAcI no vol DIr cAusAlItAtUna de les regles dor presents a quasi tots els manuals destadstica s no confondre associaci amb causalitat. La diferncia entre tots dos conceptes s senzilla. Suposem que, en un moment donat, observssim en una poblaci determinada que tenir els dits esgroguets i patir bronquitis crnica estan associats, s a dir, sn caracterstiques que tendeixen a presentar-se juntes en les mateixes persones. Vol dir aix que la bronquitis crnica fa que la gent tingui els dits grocs? En rea-litat sabem que no s aix, sin que hi ha un tercer factor, que s fumar, que s una causa important tant que la gent tingui els dits grocs, com que pateixin bronquitis crnica. Per aix tenir bronquitis i els dits grocs sn fenmens associats, per un no s la causa de laltre. Tcnicament, es diu que lassociaci que existeix entre tots dos fenmens s espria.Tanmateix, desenredar causalitat i associaci en el camp de les poltiques pbliques no sempre s tan fcil. Imaginem-nos que, entre la poblaci escolar, estudiar en una escola concertada est associat a un millor rendiment acadmic que fer-ho en una escola pblica. Vol dir aix que la titula-ritat de lescola s la causa daquesta diferncia i, per tant, que el concert escolar s una forma de provisi de leducaci ms efectiva que la gesti pblica directa? s possible, per no s segur. Una explicaci alternativa s que els alumnes de lescola concertada tendeixen a pertnyer a famlies dun nivell socioeconmic i formatiu superior que els de la pblica, i que aquesta diferncia en les caracterstiques de lalumnat s la causa real de la diferncia en el rendiment escolar. De manera similar, que un ajuntament posi en marxa un programa datenci a les persones sense sostre i lany segent baixi considerablement el nombre de persones que pernocten al carrer sn fets associats, per no necessriament un s la causa de laltre. Com hem vist en lexplicaci de lexemple, hi ha molts altres motius plausibles, per la qual cosa s millor no extreure conclusions precipitades que ens puguin convertir en vctimes de la fallcia causal.Quan observem una associaci (per exemple, que participar en un programa est associat a una mi-llora en un determinat outcome), s important tenir sempre present que la causalitat s una explica-ci possible, per no lnica. El repte de lavaluaci dimpacte s, justament, descartar explicacions alternatives per poder atribuir, de la forma ms convincent possible, la causalitat del canvi observat a la intervenci pblica./ 9 /1.2. el contrAfActuAl I lestImAcI De lImpActe DunA poltIcA pblIcASeguint largumentaci del pargraf anterior, limpacte duna intervenci pblica es pot ex-pressar en termes de la diferncia entre dos nombres: IMPACTE = Y1-Y0On: Y1 sn els outcomes que shan esdevingut amb la intervenci pblica. Y0 sn els outcomes que shaurien esdevingut en absncia de la intervenci pblica, que de forma tcnica (i ms breu), sanomenen el contrafactual.De forma general, Y1 s un nombre relativament fcil destimar. Normalment, fent s de registres administratius, mitjanant una enquesta, realitzant un recompte (com en lexemple) o amb qualsevol altra tcnica dobservaci, podem estimar qu ha passat amb els outcomes dinters un cop sha implementat el programa. Per exemple, podem arribar a saber, sense gaires dificultats, quants aturats han trobat feina desprs de participar en un curs de forma-ci, quantes patents shan registrat en el marc dun programa de subvencions R+D+I, o com han evolucionat les rendes dels agricultors desprs dun programa de suport a la tecnificaci dun determinat tipus de conreu.Per contra, estimar Y0 sn figues dun altre paner. De fet, construir un contrafactual apropiat s, de bon tros, la tasca ms complicada de lavaluaci dimpacte. El motiu daquesta dificul-tat s, senzillament, que el mn no pot estar en dos estats al mateix temps: una ciutat no pot haver implementat un programa i no implementar-lo al mateix temps, igual que una empre-sa no pot haver rebut una subvenci R+D+I i no rebre-la alhora. Si el programa sha imple-mentat, mai no podrem arribar a observar qu hauria passat si no shagus dut a terme. Per tant, mentre que lestimaci dY1 respon a una mesura basada en lobservaci de la realitat, lestimaci dY0 s sempre una declaraci hipottica sobre com creiem que hauria estat el mn en absncia del programa. La qesti llavors esdev: com ens ho fem per formular una hiptesi contrafactual? El concepte en si mateix no ens hauria despantar car la vida quotidiana s plena dexemples daquest tipus dhiptesis: si hagus estudiat ms, hauria aprovat les oposicions; o b si no mhagus hipotecat, ara no aniria tan escanyat. El repte de lavaluaci de poltiques, per, s arribar a construir una hiptesi que no noms sembli realista sin que, a ms, permeti quantificar amb precisi qu hauria passat en absncia del programa, ja que necessitem un nombre Y0 amb el qual poder realitzar la resta (Y1 - Y0) que ens porta a estimar limpacte del programa. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 10 /Per fer-ho, lestratgia sol consistir a substituir el contrafactual, que per definici s no ob-servable, per un escenari de comparaci observable. Per exemple, suposem que el Departa-ment dEducaci endega un programa que consisteix a atorgar autonomia de gesti a les di-reccions de determinats centres escolars, amb lobjectiu de millorar la qualitat de leducaci i, en ltim terme, el rendiment dels alumnes. Mesurar Y1 s fcil: es tracta de mesurar quines qualificacions han tret els nens i nenes daquests centres escolars, diguem que un any desprs del canvi en el model de gesti. Quina pot ser la hiptesi contrafactual? Supo-sem que a la xarxa de centres escolars hi ha escoles de caracterstiques similars a les que han participat en el programa, que romanen sota el rgim de gesti ordinari. Podem mesurar les qualificacions dels alumnes daquests centres similars i formular la segent hiptesi con-trafactual: si les escoles que han participat en el programa no ho haurien fet (contrafactual no observable), les qualificacions que haguessin tret els seus alumnes serien les mateixes que han tret els alumnes de les escoles de caracterstiques similars que no hi han participat (escenari de comparaci observable).quADre 2lA mesurA De lImpActe Amb unA hIptesI contrAfActuAlEls grfics 2 i 3, tornant a lexemple del programa datenci a les persones sense sostre, repre-senten amb una lnia vermella dos possibles contrafactuals. El primer es basa en lestimaci que, en absncia de la intervenci, el nombre de persones sense sostre hauria augmentat (aix corres-pondria, per exemple, a un escenari de ms atur, pitjors serveis a les persones amb malaltia men-tal i ms immigraci indocumentada). Daltra banda, en lestimaci del contrafactual del grfic 3 sassumeix que el nombre de persones hauria baixat igualment en absncia del programa (a causa, per exemple, dun escenari de menys atur, millors serveis i menys immigraci). Noteu que Y1 no varia en els dos grfics: el programa es va endegar i el nombre de persones que pernoctaven al carrer desprs de la implementaci es va observar i mesurar. Per tant, la divergncia de la magnitud de limpacte en un i altre grfic (400 persones en el grfic 2 i 175 en el 3) es deu exclusivament al fet que lestimaci dY0 (el contrafactual) s diferent.grfic 2: evoluci de les pernoctacions al carrer amb estimaci del contrafactual (I)INTERVENCIANYSImpacte:625-1025= -400875Y1=625Y0=1025NOMBRE DE PERSONES SENSE SOSTRE1002002006 2007 200830040050006007008009001000/ 11 /quadre 2 (cont.)grfic 3: evoluci de les pernoctacions al carrer amb estimaci del contrafactual (II)Impacte net:625-800= -175875Y1=625Y0=800NOMBRE DE PERSONES SENSE SOSTRE1002002006 2007 200830040050006007008009001000INTERVENCIANYSLa bibliografia estadstica i economtrica s plena destratgies per identificar el contrafac-tual de programes i poltiques pbliques, i en el captol 3 daquesta guia exposarem les ds ms freqent. Comprovarem que el principal repte daquestes estratgies didentificaci rau a trobar unitats (escoles, persones, barris, etc.) que compleixin la condici de tenir caracte-rstiques similars a les que han participat en el programa. Aix s perqu, generalment, si una persona participa en un programa i una altra no, i si un barri rep una subvenci i un altre no, s perqu sn diferents en alguna caracterstica rellevant. Les estratgies didentificaci del contrafactual fan tots els possibles per controlar aquestes diferncies, amb lagreujant que mentre que algunes sn observables, altres no ho sn. Per exemple, podem trobar aturats que sassemblin als que han participat en un curs de formaci quant al nivell formatiu previ, la histria laboral, ledat i altres caracterstiques similars recollides en una base de dades, per no per altres factors rellevants, com ara la motivaci per trobar feina, lestat anmic, etc.Les metodologies per a lavaluaci dimpactes que presentarem al captol 3 sadeqen a diferents tipus de programes i circumstncies de lavaluaci, i no nhi ha cap duniversalment superior. La selecci de lestratgia ms adequada requerir, en cada cas, una anlisi prvia de les caracterstiques de la intervenci pblica que la justifiqui, especialment so-bre els objectius del programa, el procediment de selecci dels participants, el procs dimplementaci i les fonts de dades disponibles. Abans dexposar els diferents mtodes per a lavaluaci dimpacte, el captol 2 fa referncia als passos preliminars per enfocar el dis-seny de lavaluaci i que guiaran lelecci del mtode ms adequat. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 12 /quADre 3lA robustesA De les hIptesIs contrAfActuAlsLes estratgies didentificaci del contrafactual sn hiptesis sobre situacions que mai no sesdevindran ja que, com hem dit, s impossible que una persona que ha participat en un programa no hi hagi participat al mateix temps. Per tant, totes les estratgies tenen en com que no poden ser testades empricament, s a dir, mai no podrem comprovar a posteriori si eren correctes o falses. Tot el que podem fer s valorar si la hiptesi contrafactual sembla ms o menys realista i argumentar sobre els motius pels quals creiem que es tracta (o no) duna hiptesi plausible. De fet, les contro-vrsies sobre les avaluacions giren gaireb sempre sobre la robustesa de la hiptesi contrafactual, s a dir, sobre com dadequat s lescenari de comparaci identificat.La bibliografia s plena dexemples de programes o poltiques en qu diferents estratgies didentificaci en lavaluaci han menat a estimacions de limpacte molt diferents. Per exemple, les avaluacions sobre la cooperaci financera internacional amb els pasos en desenvolupament han tendit a no detectar cap impacte significatiu sobre el creixement econmic dels pasos receptors. Tanmateix, lany 2000, els economistes del Banc Mundial Criag Burnside i David Dollar van publicar un article en qu introduen una novetat en aquest tipus davaluacions: lefectivitat dels ajuts finan-cers podria dependre de la qualitat de les institucions i poltiques fiscals, monetries i comercials del pas receptor. Efectivament, la seva avaluaci indicava que si la comparaci es feia noms entre pasos amb bona governana, limpacte de lajut financer era positiu i estadsticament significatiu. En canvi, entre pasos amb institucions i poltiques deficients, limpacte de la cooperaci financera era nul. Aquesta avaluaci va ser altament influent, ja que va menar diverses institucions a condicionar la seva cooperaci financera a ladopci, per part dels pasos receptors, de les poltiques i les institu-cions identificades com a adequades en larticle de Burnside i Dollar. Posteriors articles i avaluacions han posat en solfa lestratgia didentificaci del contrafactual emprat en lesmentat article, amb la qual cosa la pregunta davaluaci de fons els pasos que reben ajut financer internacional, es desenvolupen econmicament ms de pressa que si no en rebessin? encara sense una resposta clara./ 13 /2. Passos PrelImInars Per dIssenyar una avaluacI dImPacte2.1. s oport AvAluAr els ImpActes Del progrAmA?Lavaluaci dimpacte s, en certa manera, la reina de les avaluacions. Malgrat la innegable importncia de realitzar una avaluaci de necessitats per caracteritzar adequadament el pro-blema que es vol adrear, de ponderar b el disseny de la intervenci i assegurar-se que s robust i coherent amb el coneixement que les cincies socials atresoren, i davaluar el procs dimplementaci per detectar dificultats imprevistes i desviacions respecte de les previsions, pocs moments sn tan emocionants tant per als gestors dels programes com per als avaluadors com el dintentar respondre la pregunta funciona?. Pot existir, en conseqncia, la temptaci de fer-se aquesta pregunta prematurament, quan les condicions no sn encara adequades per poder realitzar una avaluaci dimpacte, o b quan seria ms aconsellable i rellevant efectuar un altre tipus davaluaci. Els requisits per dur a terme una avaluaci dimpacte sn aquests:1. el programa ha de ser estable. Per poder avaluar els impactes duna intervenci pblica s molt convenient que aquesta intervenci hagi roms sense gaire variacions durant un cert temps, ja que, altrament, es fa difcil determinar sobre quina de les mltiples versions del programa shan destimar els impactes. A ms, en programes inestables o voltils, s molt possible que els resultats de lavaluaci dimpacte siguin irrellevants des del mateix moment en qu es coneguin perqu la versi avaluada no coincideix amb la que sest implementant en aquell moment. Lestabilitat del programa sol ser ms baixa quan el pro-grama s relativament nou, ja que en les primeres fases de la implementaci s habitual que es produeixi un cert procs dajustament del programa per assaig i error. En aquestes circumstncies, una avaluaci dimplementaci que permeti analitzar de forma sistemti-ca qu est passant i detectar quines correccions escauen sol ser ms til que una avalua-ci dimpacte. No obstant aix, lexcepci a aquesta regla la constitueixen els programes pilot, que si b per definici sn sempre nous, es mantenen estables i fidels al seu disseny original, precisament perqu el seu objectiu s avaluar-ne lefectivitat.2. cal haver descrit una teoria del canvi coherent. Com qualsevol altre tipus davaluaci, lavaluaci dimpacte requereix que prviament shagin identificat els objectius genuns de la intervenci (altrament no s possible determinar quins sn els impactes que shan estimar) i una teoria del canvi que uneixi, de forma mnimament plausible, les activitats i els productes del programa amb els impactes que es pretenen assolir (ja que, si esperar impactes positius es demostra poc realista, s preferible treballar per millorar el disseny de la intervenci que per avaluar-ne els improbables impactes). Dit en altres paraules, abans de lavaluaci dimpacte (o en el marc de lavaluaci dimpacte) s necessria una mnima avaluaci del disseny.Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 14 /3. cal tenir un coneixement adequat del procs dimplementaci. Linters per saber si un programa funciona o no sol anar acompanyat de linters per saber per qu funciona, per la qual cosa les avaluacions dimpacte sovint es fan juntament amb avaluacions de la implementaci. Per fins i tot si el nostre inters se centra estrictament a mesurar els impactes de la intervenci, un mnim coneixement del procs dimplementaci s neces-sari per interpretar els resultats duna avaluaci dimpacte i transformar-los en recoma-nacions de millora. Aix, si una avaluaci dimpacte conclou que un programa no t cap impacte significatiu, s possible concloure que la teoria de limpacte que uneix els outputs amb els outcomes era equivocada (vegeu: Ivlua. Guia prctica, 31), o que el programa mai no es va arribar a implementar com estava previst i els outputs previstos mai no es van arribar a generar, ja sigui per desviacions respecte a disseny o perqu la teoria del procs era impossible de portar a la prctica. Fins i tot si els resultats de lavaluaci dimpacte sn positius, comprovar que el procs dimplementaci sha produt dacord amb les previ-sions refora la conclusi que el programa s la causa dels impactes. 4. els impactes shan dhaver pogut produir. Sn rares les intervencions pbliques que pro-dueixen impactes immediats, per la qual cosa s necessari que transcorri un cert temps des de la implementaci de la intervenci abans de poder-ne detectar limpacte. A les pgines que segueixen veurem que una de les decisions a prendre a lhora de dissenyar una avaluaci dimpacte s triar el moment ms adequat per fer la mesura de limpacte, ja que s possible que alguns efectes triguin a esdevenir-se, tendeixin a acumular-se o es dissipin amb el temps. Si, donat el tipus dintervenci, sabem de bon principi que aquest moment no ha arribat encara, ser preferible posposar lavaluaci i esperar que els im-pactes hagin pogut tenir lloc. 2.2. A qu ens referIm quAn pArlem Doutcomes?Al llarg daquesta srie de guies metodolgiques hem repetit en diverses ocasions que les poltiques pbliques tenen la seva ra de ser en lexistncia dun problema o situaci social insatisfactria, i que els objectius de la poltica pblica han de fer referncia al canvi que la intervenci pblica pretn induir sobre aquest problema o situaci. Sembla, doncs, que la de-finici dels outcomes amb els quals mesurarem limpacte shauria de derivar de forma bas-tant directa dels objectius del programa, ja siguin els declarats formalment o els identificats en lelaboraci de la teoria del canvi de la intervenci. Per exemple, si lobjectiu dun progra-ma s la reducci de la sinistralitat a les carreteres, sembla que la definici dels outcomes hauria de capturar de la millor manera possible el fenomen de la sinistralitat a les carreteres. Tanmateix, la tasca didentificar els outcomes i la forma de mesurar-los rarament s directa i sol requerir la presa dalgunes decisions sobre qu, com i quan mesurar. / 15 /En primer lloc, cal tenir present que algunes intervencions pbliques tenen objectius ml-tiples. Per exemple, la reducci de la velocitat mxima en els accessos a Barcelona t per objectiu reduir la contaminaci i reduir els accidents; i el Programa Interdepartamental de Rendes Mnimes dInserci t per objectiu, com el seu nom indica, elevar la renda i inserir en el mercat laboral les persones beneficiries de la prestaci. Si aquest s el cas del programa que hem davaluar, s necessari seleccionar lobjectiu sobre el qual ens interessa avaluar els impactes, o si decidim avaluar-ne ms dun, prendre conscincia en la planificaci de lavaluaci que els recursos necessaris (temps, finanament, etc.) es multiplicaran.Daltra banda, alguns objectius sn multidimensionals. Fins i tot si la intervenci t un nic objectiu, o si nhem triat un de sol sobre el qual volem realitzar lavaluaci dimpacte, les maneres com podem arribar a definir aquest impacte solen ser mltiples. Suposem, per exemple, que volem capturar el fenomen de la sinistralitat a les carreteres: podem mesu-rar el nombre daccidents, el daccidents amb ferits o morts, o b directament el nombre de ferits o de morts en accident de trnsit. Per contra, si volem capturar el fenomen de la inserci laboral, que sol ser lobjectiu de les poltiques actives docupaci, les opcions es multipliquen: ens pot interessar si la persona ha trobat una feina dins dun perode de temps, o b intentar capturar la retenci de la feina, s a dir, mesurar si la persona mant la feina al cap dun temps determinat, o b quants dies en total ha treballat al llarg daquest perode de temps. Igualment, s possible que el nostre inters en la inserci laboral sigui instrumental, amb la qual cosa la dimensi que realment ens resulta rellevant s la variaci en la renda o b lincrement en el benestar subjectiu derivats de la inserci laboral. En els termes que emprvem en la Guia 3 sobre avaluaci de disseny, la consecuci dalguns objectius implica lassoliment duna seqncia prvia dimpactes (per exemple, trobar feina, retenir-la, fet que incrementa la renda i, en ltim terme, el benestar), que anomenvem estructura dimpactes. Abans diniciar lavaluaci s precs decidir quina (o quines) de les mltiples dimensions que constitueixen aquesta estructura s la ms rellevant per al propsit de la nostra avaluaci. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 16 /quADre 4mesures!Suposem que us contracto per mesurar un elefant. Pot semblar una tasca prou clara, per penseu-hi un minut. Heu de mesurar-ne pes? Lalada? La llargada? El volum? La intensitat del seu color gris? El nombre i profunditat de les seves arrugues? O potser la proporci del dia que dorm? Per poder mesurar aquesta criatura necessiteu seleccionar una o unes quantes caracterstiques entre diverses possibilitats. Lelecci dependr del vostre propsit a lhora de mesurar, o ms aviat del meu, ja que us he contractat. Si jo fos el responsable del transport ferroviari de mercaderies ne-cessitaria conixer lalada, la longitud i el pes de lelefant. Per si fos un taxidermista, estaria ms interessat en el seu volum i arrugues. Com a domador, em preocuparia ms la proporci del dia que dorm. Com a productor de pells danimal sinttiques, voldria saber el to exacte del gris. Vosaltres, veient loportunitat de mantenir-vos en nmina, insistireu segurament en el fet que no puc entendre el meu elefant si no en conec la variaci estacional de la temperatura corporal.STONE, D. Policy Paradox, The Art of Political Decision Making, 2002 [Traducci prpia]Per contra, alguns impactes sn especialment difcils de mesurar perqu els objectius fan re-ferncia a constructes particularment intangibles com, per exemple, incrementar lautonomia personal dels participants dun programa datenci a les persones sense sostre. En aquest cas, la dificultat no s tant seleccionar una dimensi entre les diverses que constitueixen un objectiu, sin arribar a mesurar un fenomen que, per la seva naturalesa, sembla immesura-ble. En aquestes situacions, la decisi rau entre triar una mesura preexistent (hi ha, en aquest sentit, una literatura especialitzada en el desenvolupament de mesures per als fenmens socials ms diversos, des del desenvolupament cognitiu a lestrs laboral, passant per la fe-licitat i la percepci de seguretat a la via pblica) o b crear-ne una de nova ajustada a les es-pecificitats de la nostra avaluaci. En general, sol ser preferible triar una mesura preexistent, ja que aix implica que alg nha comprovat amb anterioritat la fiabilitat (s a dir, que si la mesura sempra en diverses ocasions els resultats sn coherents), i perqu ls duna mesura estandarditzada facilita la posterior comparaci de resultats amb altres avaluacions. A ms, lesfor de localitzar una mesura vlida per a la nostra avaluaci a la bibliografia (o sigui, que capturi satisfactriament el nostre fenomen dinters) sol ser substancialment menor que el de desenvolupar i testejar qestionaris per elaborar-ne una de prpia./ 17 /quADre 5els conceptes De vAlIDesA I fIAbIlItAt De lA mesurA De lImpActeLa mesura no captura el fenomen dinters, i els diferents intents de mesurar el fenomen donen resultats dispars.NI VLIDA NI FIABLELa mesura no captura el fenomen dinters, per intents repetits de mesurar el fenomen donen sempre resultats molt similars (per equivocats)FIABLE PER NO VLIDALa mesura captura relativament b el fenomen dinters, per els diferents intents de mesurar el fenomen donen resultats massa dispars.RELATIVAMENT VLIDA PER POC FIABLELa mesura captura el fenomen dinters, i els intents repetits de mesurar el fenomen donen sempre resultats molt similars.FIABLE I VLIDAFont: Adaptaci de VARKEVISSER, C. M.; PATHMANATHAN, I.; BROWNLEE, A. Designing and con-ducting health systems research projects. World Health Organization / International Development Research Centre, 2003. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 18 /Per acabar, hem de tenir en compte que definir els impactes no noms implica especificar qu mesurem i com ho mesurem, sin tamb quan ho mesurem. Aquesta qesti t una especial importncia, ja que diferents moments de mesura poden menar a conclusions diferents sobre els impactes del programa, ja que mentre que alguns impactes impliquen processos lents i poden trigar a esdevenir-se, daltres poden produir-se rpidament per no mantenir-se en el temps. En aquest sentit, es tracta de determinar quin s el moment ms rellevant per fer-se la pregunta qu ha passat en comparaci al que hauria passat si la interven-ci no shagus dut a terme? Aix, en un programa de suport als funcionaris perqu deixin de fumar, limpacte pot ser fulgurant una setmana desprs de comenar, per sembla ms re-llevant conixer limpacte un any desprs, ja que s probable que una part dels qui ho deixen inicialment acabin per recaure-hi. Per contra, una intervenci per protegir lhbitat duna espcie amenaada pot no tenir impactes apreciables en un principi, per molt notables al cap de tres anys, un cop la poblaci ha tingut prou temps per augmentar sota les noves con-dicions. En qualsevol cas, el temps de mesura sha de definir amb precisi: no es pot parlar de curt o llarg termini, sin que cal decidir, amb exactitud, si ens referim a sis, dotze, divuit o vint-i-quatre mesos desprs del programa.2.3. qu vol DIr pArtIcIpAr en el progrAmA?Alguns conceptes i mtodes de lavaluaci quantitativa dimpactes estan parcialment impor-tats de les cincies mdiques. Per exemple, en lassaig dun medicament sadministra una pndola a algunes persones que reben el nom de grup de tractament o casos i un placebo a les persones que constitueixen el grup de control, o simplement controls. Lefecte del medi-cament sinfereix de la diferncia en levoluci de la patologia o el smptoma de torn entre un grup i un altre. De forma anloga, els mtodes per a lavaluaci dimpacte solen comparar un grup de tractament (les escoles, persones, barris, etc. que han participat en un programa) amb un grup de comparaci o control (integrat pels qui no hi han participat) que serveix per controlar el contrafactual.No obstant aix, participar en un programa sol ser un concepte bastant ms imprecs que empassar-se una pndola. Mentre que amb un medicament no hi ha situacions intermdies (sabem si lhem administrat i en quina dosi), la participaci en un programa pot voler dir coses molt diferents. Per exemple, que un barri participi en la Llei de Barris vol dir que ha rebut finanament per fer determinades actuacions que sn gestionades duna determinada manera. La quantitat de finanament, el tipus dactuacions i la forma com shan gestionat canvia dun barri a un altre, per la qual cosa que un barri hagi participat en la Llei de Barris es correspon amb situacions molt diverses. Igualment, que una persona hagi participat en un curs de formaci ocupacional pot voler dir des de que ha assistit al 100% de les classes dun curs de jardineria de 80 hores, fins que ha assistit al 50% de les classes dun curs de media-ci comunitria de 20 hores. En sntesi, el tractament, en el cas de les poltiques pbliques, / 19 /pot ser molt heterogeni i planteja una qesti a resoldre: de qu, exactament, volem estimar limpacte?Lheterogenetat del tractament varia segons el tipus dintervenci pblica. Si el nivell de variabilitat en el que significa haver participat o haver-se beneficiat de la intervenci pblica s important, podem prendre alguna de les segents mesures per adrear-la: Imposar restriccions sobre la definici de participaci (per exemple, noms considerarem que una persona ha participat en un curs de formaci ocupacional si ha assistit a un mnim del 80% de les classes dun curs dun mnim de 30 hores). Desagregar lavaluaci segons el tipus de participaci (per exemple, es pot avaluar per separat limpacte de la formaci en jardineria del de mediaci comunitria). Assumir lheterogenetat del tractament com una caracterstica de la intervenci pblica, tenint sempre present que sest inferint un impacte promig de participacions que en reali-tat sn diverses. 2.4. per A quI volem DetectAr els ImpActes?Molt sovint les intervencions pbliques sadrecen a una poblaci diana fora heterognia. Per exemple, la Llei de Barris beneficia des de barris de grans zones urbanes fins daltres de ciutats petites, alguns cada cop ms deshabitats i daltres excessivament poblats. De forma similar, els programes datenci a les persones sense sostre atenen des de persones amb malalties mentals a immigrants acabats darribar amb cap altre problema que la manca de recursos i una xarxa social de suport, des de persones analfabetes a llicenciats universitaris. Donada aquesta diversitat en la poblaci diana, no s destranyar que els programes puguin ser efectius per a determinats tipus de beneficiari mentre que no ho sn per a daltres. En aquest context dheterogenetat dels impactes, estimar impactes promitjos per a tots els beneficiaris pot fer concloure que un programa s relativament inefectiu per a la majoria de persones quan en realitat s molt efectiu per a un subgrup. En aquest cas, no es tractaria tant de descartar el programa com de mantenir-lo noms per a aquells per a qui s efectiu i reformar-lo per als altres.Si les dades disponibles ho fan possible, lavaluaci dimpacte permet no noms saber si el programa funciona, sin per a qui funciona mitjanant la desagregaci de les estimacions dimpacte del programa per a diferents subgrups de poblaci. Aix permetria escatir, per exemple, si el carnet de conduir per punts s ms efectiu per reduir la sinistralitat a les carreteres per als conductors joves o els de mitjana edat, per als infractors reincidents o per als ocasionals, o per als desplaaments doci o els de treball. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 20 /En preparar el disseny duna avaluaci dimpacte, s important identificar quins sn els subgrups de poblaci (per gnere, grups dedat, tipus de problemtica inicial, etc.) per als quals s rellevant realitzar una anlisi desagregada. quADre 6les DecIsIons metoDolgIques en el procs De DIsseny De lAvAluAcIDissenyar una avaluaci dimpacte implica prendre decisions constantment: la definici de limpacte, el moment de mesura, la concreci del que significa participar en el programa, la desagregaci de lanlisi per subgrups o lelecci del mtode per identificar el contrafactual no sn passos au-tomtics sin que impliquen triar una alternativa entre vries. Cadascuna daquestes decisions implica haver de resoldre una disjuntiva. Duna part, augmentar la complexitat de lanlisi (escollir ms duna definici dimpacte i moment de mesura, desagregar lanlisi en diversos graus de participaci i subgrups de beneficiaris, o avaluar el programa amb ms duna metodologia) permet obtenir informaci ms detallada i assolir conclusions ms robus-tes. De laltra, incrementa el temps i recursos necessaris per dur a terme lavaluaci (de vegades fins a fer-la inabastable ) i complica la comunicaci dels resultats. En conseqncia, fins i tot si decidim que un cert grau de complexitat s assumible, s inevitable haver de renunciar a algunes mesures de limpacte, nivells de desagregaci i aproximacions metodolgiques.Tot i que, idealment, aquestes renncies es fan sobre criteris de menor rellevncia, la presa de deci-sions implica de vegades un cert grau darbitrarietat. Pot resultar difcil justificar per qu mesurem la situaci laboral al cap de 12 mesos i no de 24, desagreguem lanlisi per vegueries i no per grups dedat, o per qu hem triat un mtode determinat enlloc dun altre, fins a generar una certa sensa-ci que la foto que estem oferint sobre el rendiment del programa s incompleta.Malgrat els dubtes que es plantegin en la presa daquestes decisions metodolgiques, el ms important s prendre-les amb diligncia perqu lavaluaci pugui estar acabada a temps per ser rellevant, i fer constar sempre sota quina definici dimpacte i sota quines hiptesis de partida hem arribat a la conclusi que el programa s efectiu o no.2.5. A qu ens referIm, exActAment, quAn pArlem De contrAfActuAl?Tal com hem explicat anteriorment, lavaluaci dimpacte requereix identificar un escenari contrafactual amb el qual estimar els outcomes que shaurien produt en absncia de la inter-venci pblica. Tanmateix, el concepte de contrafactual s excessivament ambigu i requereix ser precisat abans davanar en el disseny metodolgic de lavaluaci: Duna part, les intervencions pbliques rarament constitueixen el primer intent dadrear un problema, sin que es tracta duna reforma respecte dun programa anterior. En aquest context, el contrafactual s el que hauria passat si hagussim continuat amb el programa antic. De vegades, per, el programa pot ser genunament nou, o b pot ser del nostre inters estimar limpacte en relaci amb labsncia de qualsevol intervenci pblica. En aquestes situacions, el contrafactual esdev el que hagus passat si no hi hauria cap programa en funcionament. / 21 / Per acabar, de vegades, per a un mateix objectiu, hi ha diversos programes en funciona-ment, o b nhi ha un que funciona amb diferents variants o models dimplementaci (per exemple, amb provisi pblica directa en uns llocs i externalitzada en uns altres), amb la qual cosa linters de lavaluaci s valorar lefectivitat dun programa o model respecte dels altres. En aquestes situacions, el contrafactual es pot definir en qualsevol de les dues versions anteriors, depenent de la pregunta davaluaci i laproximaci metodolgica per donar-li resposta. 2.6. De quInes DADes DIsposem per fer lAvAluAcI DImpActe?La disponibilitat de dades determina, a la prctica, moltes de les decisions sobre el disseny duna avaluaci dimpacte. No sempre podem definir els outcomes com voldrem sin que ens veiem forats a definir-los de la millor manera que podem amb les dades de les quals disposem. El mateix passa amb la definici del que significa participar en el programa, la identificaci dels subgrups dinters o la selecci de lestratgia metodolgica per controlar el contrafactual. La disponibilitat de dades s el major determinant de la feina de lavaluador, com el solar i lentorn ho sn per a larquitecte.Aquestes limitacions es deuen al fet que, en general, s preferible treballar amb dades preexistents provinents de registres administratius. En efecte, si definim els outcomes, els subgrups i el tractament de manera que els puguem extreure de dades preexistents, lavaluaci s molt ms rpida i barata que si hem de dur a terme una enquesta per generar dades noves. A ms, si usem dades administratives, la mostra amb qu treballarem ser molt ms gran que si fem una enquesta, amb la qual cosa les estimacions seran molt ms precises. Daltra banda, ens estalviarem els biaixos de no resposta que pateixen les enques-tes i que compliquen el tractament estadstic de les dades (Purdon, 2002). No obstant aix, realitzar una enquesta no sempre s una opci a descartar. De vegades per estimar limpacte dun programa necessitem saber qu ha passat amb els participants un temps desprs que hagin abandonat el programa, quan ja no sen fa un seguiment en els registres. La disjuntiva s sempre entre el cost, el temps i les limitacions que implica generar dades noves mit-janant una enquesta, i lavantatge de poder recollir tota la informaci que ens interessa, i de la manera en qu ms ens interessa.Tanmateix, les limitacions que la qualitat i el contingut dels registres administratius imposen sobre les avaluacions no han de ser considerades com un designi immutable. Dacord amb un reconegut economista i avaluador del Banc Mundial, que les avaluacions dimpacte siguin ex-post per definici no vol dir que hagin de comenar desprs que el programa sacabi, o ni tan sols desprs que hagi comenat: les millors avaluacions ex-post es dissenyen i es comencen a implementar ex-ante (Ravallion, 2006). Entre les mesures ms importants a prendre ex-ante hi ha aconseguir que els registres administratius incorporin informaci Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 22 /rellevant per a usos davaluaci i millorin la seva qualitat. Se sol dir que els problemes que no tenen soluci no sn problemes sin condicionants. En aquest sentit, la manca de dades adequades per a lavaluaci en els registres administratius s un condicionant a curt termini i un problema a llarg termini. notes:1 BLASCO, J. Avaluaci del disseny. Barcelona: Ivlua, 2009. (Guies prctiques sobre avaluaci de poltiques pbliques; 3)/ 23 /3. mtodes Per a lavaluacI dImPacteLa qesti fonamental que planteja lavaluaci dimpacte s mesurar fins a quin punt laplicaci duna determinada poltica sobre un conjunt dindividus modifica un determinat outcome dinters, com ara llur renda o salut, respecte dall que aquests mateixos individus haurien experimentat en absncia de la poltica. El que complica lavaluaci dimpacte s que la situaci en absncia del programa, lanomenat contrafactual, s quelcom que per defini-ci resulta inobservable pel grup dindividus que reben el programa. Aix doncs, com ja hem esmentat en lapartat anterior, el gran repte metodolgic que planteja lavaluaci dimpacte s com definir un grup dindividus que, a ms de no participar o beneficiar-se del programa o poltica, constitueixi un contrafactual creble, s a dir que el seu nivell doutcome pugui considerar-se equivalent al que haurem observat per als beneficiaris de la poltica si aques-ta no els hagus estat aplicada. Els mtodes que sempren en lavaluaci dimpacte difereixen entre si segons el procediment utilitzat per definir el grup dindividus que actuen com a contrafactual: Duna banda, els anomenats dissenys experimentals sn aquells en qu, partint duna poblaci de potencials beneficiaris del programa o poltica, els individus hi acaben partici-pant o no dacord a un mecanisme dassignaci purament aleatori; els individus que no hi participen, lanomenat grup de control, constitueixen el contrafactual en aquest tipus de disseny. Daltra banda, la resta de mtodes disponibles, que reben el nom de dissenys quasiex-perimentals, comparteixen la caracterstica que la participaci en el programa per part dels individus no ve definida per un procediment aleatori: ja sigui perqu sn els mateixos individus els qui trien si participar-hi o no, ja sigui perqu algun altre agent pren aquesta decisi, o per totes dues coses alhora. En els dissenys quasiexperimentals, el contrafactual es defineix a partir dels individus que no participen en el programa, que constitueixen el que sanomena grup de comparaci. Els apartats segents constitueixen una introducci breu, de carcter no tcnic, als prin-cipals mtodes que es poden fer servir per establir limpacte duna poltica1. Comenarem amb una introducci dels dos principals reptes als quals shan denfrontar els diferents mtodes: maximitzar la robustesa amb qu conclouen que el programa s la causa dels im-pactes observats (validesa interna) i la potencialitat per generalitzar les conclusions a altres programes, situacions i moments (validesa externa). A continuaci, iniciarem lexposici dels mtodes amb els experiments socials, ja que hi ha un ampli consens en el sentit que consti-tueixen el disseny ms robust a lhora davaluar limpacte dun programa. Per aquest motiu, tot i que sn ds poc habitual, representen lestndard respecte al qual intenten emmirallar-se la resta de dissenys. La resta dapartats consideren els diferents mtodes de carcter Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 24 /quasiexperimental ms utilitzats: els anomenats dissenys abans-desprs, la tcnica de matching i el model de dobles diferncies. 3.1. lA vAlIDesA De les conclusIons3.1.1. lA vAlIDesA InternA Els mtodes per a lavaluaci dimpacte que presentem en aquest captol serveixen per inferir una relaci causal entre una intervenci pblica i determinats outcomes. Utilitzem el concepte de validesa interna per referir-nos a la veritat relativa duna inferncia causal, s a dir, a la robustesa amb qu es conclou que el programa s lagent responsable dels impactes observats. La validesa interna no s una propietat de les me-todologies sin de les inferncies concretes que es realitzen en cada avaluaci, ja que un mateix mtode davaluaci pot produir conclusions ms o menys vlides segons les cir-cumstncies i caracterstiques del programa avaluat. Les amenaces a la validesa interna sn raons especfiques per les quals s possible que estiguem parcialment o totalment equivocats a lhora de fer una inferncia causal. Concre-tament, sn totes aquelles explicacions alternatives, a part del programa, que potencial-ment podrien ser responsables dels canvis observats en els outcomes. En cada avaluaci, direm que el disseny metodolgic s ms o menys vlid en tant que descarti convincent-/ment aquestes explicacions alternatives. Les llistem a continuaci de forma separada, tot i que algunes delles no sn totalment independents:1. la histria / factors contemporanis. Fa referncia a tots els esdeveniments que ocorren durant la implementaci del programa i que poden tenir una influncia sobre els outco-mes. En lexemple del programa datenci a les persones sense sostre, les variacions en el mercat de treball, la posada en marxa dun programa de salut mental i els canvis en el control de la immigraci formaven part de la histria del programa, ja que sesdevenien al mateix temps que el programa i tenien una influncia sobre el nombre de persones que pernocten al carrer (la mesura de loutcome), per la qual cosa podrien ser parcial-ment responsables dels canvis observats i, per tant, ser confosos amb limpacte del pro-grama. Se sol adrear amb la identificaci dun grup de comparaci que estigui exposat a esdeveniments externs iguals o similars.2. el biaix de selecci. Una qesti crtica quan sidentifica un grup de comparaci s que sigui equivalent al grup de participants en totes les caracterstiques que estan associa-des amb els outcomes, excepte pel fet que uns participen en el programa i els altres no. / 25 /El biaix de selecci es produeix quan aquesta assumpci no es compleix i existeix, des dabans del programa, alguna diferncia significativa entre els participants i el grup de comparaci que pot ser potencialment responsable de les diferncies observades al final del programa entre els outcomes duns i altres. Imaginem, per exemple, un programa de refor lingstic en catal en qu es proporciona formaci en llengua catalana noms als immigrants nouvinguts que ho sollicitin, amb lobjectiu final de facilitar-los la in-serci laboral. s molt possible que els qui shi apunten difereixin dels qui no ho han fet en caracterstiques rellevants per a la inserci laboral: que el seu nivell educatiu sigui superior, que dominin ms la llengua castellana o que tinguin ms motivaci per trobar una feina. s probable que, en absncia del programa, els participants ho haguessin tin-gut igualment ms fcil per accedir al mercat laboral que els no participants. Per tant, si comparem levoluci de la participaci en el mercat laboral duns i altres s possible que part de la diferncia en els outcomes es degui, en realitat, a aquestes diferncies inicials en les seves caracterstiques. Lamenaa del biaix de selecci s omnipresent en tots els dissenys no experimentals i adrear-lo adequadament s, amb diferncia, el principal repte metodolgic de lavaluaci dimpacte.3. el desgast diferencial de la mostra (attrition). Es tracta duna forma del biaix de selec-ci que es produeix un cop iniciada lavaluaci. s relativament habitual que, al llarg de lavaluaci, alguns participants i membres del grup de comparaci abandonin el progra-ma, es neguin a seguir responent qestionaris o simplement desapareguin. Aquestes prdues poden arribar a canviar la composici dels dos grups de manera que s molt possible que un i altre grup acabin sent diferents en alguna caracterstica que estigui relacionada amb els outcomes, per ms que inicialment estiguessin equilibrats. Aquesta diferncia de composici entre un i altre grup pot ser la responsable dels canvis obser-vats en els outcomes, que per tant, poden ser confosos amb limpacte del programa. Su-posem, per exemple, que en un programa destinat a prevenir recaigudes en exalcohlics, aquells que millor es troben i ms segurs estan de no recaure tendeixin a abandonar-lo abans de la seva finalitzaci perqu el consideren innecessari, i sels perd la pista. En aquest cas, el grup de participants acaba estant compost per aquells amb un major risc de recaiguda mentre que el grup de comparaci continua constitut per una barreja de persones amb riscos alts i baixos. En conseqncia, igual que passava amb el biaix de selecci, s possible que part de la diferncia en els outcomes entre els dos grups es degui, en realitat, a aquestes diferncies finals en la seva composici.4. regressi a la mitjana. s la tendncia estadstica que tenen els resultats extrems que es produeixen en un determinat moment de mesura dels outcomes a acostar-se a la mitjana de la poblaci quan sels torna a mesurar un temps desprs. Aix s perqu molts fenmens impliquen una certa variaci aleatria: per exemple, un cap de setmana amb molts accidents de trnsit sol ser seguit per un altre amb un nombre menor, encara que les circumstncies que determinen la propensi als accidents (el clima, el volum de Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 26 /trnsit, etc.) no hagin variat, igual que les persones que van a psicoterpia perqu estan molt estressades s probable que la segent vegada que hi vagin ho estiguin menys, fins i tot encara que no hagin rebut tractament. En general, aquesta amenaa sha de tenir en compte si la selecci per participar al programa es produeix precisament perqu la mesura de loutcome ha estat substancialment alta o baixa. En aquestes situacions, s molt probable que en la segent mesura loutcome millori per efecte de la regressi a la mitjana, i que aquest efecte es confongui fcilment amb un efecte del programa.5. efectes dels tests. Algunes avaluacions consisteixen a realitzar un test a participants i membres del grup de comparaci abans del programa (pretest) i desprs (posttest) a fi de poder estimar quin ha estat limpacte de la intervenci. Ara b, fer el pretest pot en-senyar a les persones a fer-ho millor en el test segent, o b pot induir altres formes de reacci que es poden confondre amb els impactes del programa. Per exemple, si el test consisteix a fer proves de colesterol, pot ser que les persones cuidin ms la seva dieta perqu saben que els el tornaran a mesurar. Igualment, en una prova de vocabulari, s possible que la gent amb mals resultats es prepari per a la segent perqu els fa ver-gonya tornar a fer-ho malament, o que senzillament ho faci millor perqu ja coneixen en qu consisteix la prova i ja hi tenen una certa prctica.6. lefecte hawthorne. s un increment de loutcome que experimenten les persones pel sol fet que alg t una atenci especial cap a ells, i no tant per lefecte del programa en si mateix. Aquest efecte deu el seu nom a una srie destudis realitzats entre els anys 1927 i 1932 que van observar que els treballadors duna planta elctrica augmentaven la seva productivitat quan tenien la sensaci que la direcci es preocupava dells, amb independncia de la forma que prengus aquesta atenci. Aix, tant abaixar la intensitat de la llum com apujar-la va provocar els mateixos impactes positius.7. maduraci. El canvi natural o el creixement degut al mer pas del temps poden explicar les diferncies entre els outcomes mesurats abans i desprs dun programa. Per exem-ple, la millora de les capacitats cognitives dels infants, el temperament dels compor-taments de risc dels adolescents o lempitjorament de lautonomia personal de la gent gran sn fenmens que es produiran entre el pretest i el posttest per efecte de la ma-duraci i que es poden confondre amb els impactes del programa. Per adrear aquesta amenaa s necessari disposar dun grup de comparaci de la mateixa edat perqu el fenomen de maduraci afecti de manera similar a tots dos grups.8. efectes dels instruments. Si es produeix un canvi en linstrument emprat per mesurar els outcomes en el pretest i el posttest, la variaci en els outcomes pot reflectir els efectes daquest canvi tcnic en el sistema de recollida de dades i es pot confondre fcilment amb els impactes del programa. s una amenaa freqent quan lavaluaci fa un seguiment de sries temporals llargues o quan la mesura depn duna valoraci relativament subjec-/ 27 /tiva que pot anar canviant al llarg del temps com, per exemple, lapreciaci del grau de desestructuraci duna persona sense sostre en el moment dentrar al sistema.9. externalitats (spillovers). Es produeixen quan els no participants poden absorbir els beneficis del programa de forma indirecta, sovint pel fet destar en contacte amb els participants. Per exemple, en un programa pilot dinformaci sexual a adolescents s possible que el grup de comparaci millori els seus outcomes perqu els participants els han explicat all que han aprs. Aquesta amenaa porta a la subestimaci de limpacte del programa.3.1.2. lA vAlIDesA externA La validesa externa fa referncia al grau en qu les conclusions duna avaluaci poden ser generalitzades a altres programes similars, moments o llocs ms enll dels propis de la mateixa avaluaci. Per exemple, si una avaluaci demostra que una intervenci per al foment de lemprenedoria empresarial ha estat efectiva en un estat de tradici industrial, als EUA, lany 2006, podem concloure que tamb ho ser ara i a Catalunya? De la mateixa manera que el disseny metodolgic de lavaluaci determina el grau de validesa interna de les conclusions, tamb ho fa amb la validesa externa. En general, com ms artificials i controlades siguin les condicions del programa per facilitar lavaluaci, menys plausible resulta pensar que aquestes condicions es reproduiran en un programa similar que no estigui subjecte a lavaluaci, i menys generalitzables seran les conclu-sions. Sovint, doncs, lelecci dun disseny metodolgic ha de trobar un equilibri adequat entre la validesa interna i lexterna.3.2. experIments socIAls3.2.1. qu sn I qu els fA robustos Avaluar limpacte duna poltica pblica mitjanant un experiment social s, des duna perspectiva metodolgica, molt similar a aplicar la lgica que segueixen els assajos cl-nics. Aix, desprs de seleccionar un conjunt dindividus susceptibles de beneficiar-se dels potencials efectes positius de la poltica, sels assigna mitjanant un procediment aleatori, amb el seu consentiment, a un dels dos grups segents: duna banda, lanomenat grup de tractament, en qu els subjectes participaran o rebran durant un cert perode de temps la intervenci que caracteritza la poltica objecte davaluaci (p. ex., un incentiu fiscal, un nou tipus de servei, etc.); de laltra, lanomenat grup de control, on els individus no rebran la Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 28 /intervenci en qesti. El fet de no rebre la intervenci no implica necessriament que les persones que conformen el grup de control no rebin cap mena de tractament: nhi ha prou que all que rebin sigui diferent del que preveu la poltica que estiguem avaluant2. Limpacte de la poltica, en aquest tipus de disseny experimental, s molt fcil de mesurar: noms cal comparar, passat un cert temps, la mitjana que pren loutcome dinters (p. ex., trobar feina) entre els individus que formen part del grup de tractament i els que integren el grup de control (grfic 4). Si aquesta diferncia de mitjanes resulta estadsticament sig-nificativa, podrem concloure que la poltica t un efecte (positiu o negatiu) sobre loutcome que estiguem analitzant3. Qu s el que explica que, malgrat la seva senzillesa, els experiments socials constitueixin el disseny ms robust a lhora de mesurar limpacte duna poltica pblica? El motiu cal buscar-lo en lassignaci aleatria, que aconsegueix que els individus del grup de tracta-ment i de control siguin equivalents en tots els factors que poden influir sobre loutcome dinters, amb lexcepci dun de sol: la participaci o recepci de la poltica que estiguem analitzant. A ms, el fet que alguns daquests factors siguin inobservables per lanalista o de difcil mesura, com ara la motivaci o linters dels individus, resulta del tot irre-llevant: laleatoritzaci permet que tamb els factors inobservables es distribueixin de manera similar entre tots dos grups de persones. Aix doncs, donat que ambds grups resulten equivalents en totes aquelles variables (observables o no) que poden influir sobre loutcome dinters, resulta legtim atribuir causalment qualsevol diferncia en aquesta darrera variable a all que distingeix els grups entre si: haver rebut o no la poltica. En definitiva, la robustesa dun experiment social com a mtode per avaluar impactes es deriva del fet que queda eliminada, per construcci, la principal amenaa a la valide-sa interna de qualsevol disseny davaluaci: la possible existncia dun biaix de selecci (vegeu lapartat 3.1.1). Aquesta gran virtut dels experiments socials, no obstant aix, tan sols sacabar produint si lequivalncia entre el grup de tractament i de control es mant durant tot el perode de temps que dura lexperiment. En aquest sentit, tal com sexplica en el proper apartat, hi ha diverses circumstncies que poden aparixer durant la fase dimplementaci de lexperiment que erosionin llur validesa tant interna com externa. / 29 /grfic 4. Illustraci dun experiment social. Grup de tractamentGrup de controlY1Y0OUTCOMEImpacte=Y1-Y0TRACTAMENTTEMPSFont: Elaboraci prpia. 3.2.2. lmIts A lA vAlIDesA Dels experIments vAlIDesA InternA fracs de laleatoritzaci. La primera amenaa a la validesa interna dun experiment social s que el procs dassignaci aleatori de casos i controls no hagi funcionat. La manera de comprovar aquest extrem passa, simplement, per contrastar si existeixen diferncies estadsticament significatives entre tots dos grups en les mitjanes de totes aquelles variables (observables) que poden influir sobre loutcome (per exemple, en cas dun programa dinserci laboral, aquestes variables podrien ser ledat, el sexe, el nivell educatiu, etc.). s important comprovar-ho perqu, en cas que existeixin diferncies, podrien portar a un biaix de selecci. biaix de selecci en les mostres (sample selection bias). Un problema amb qu poden trobar-se els experiments socials s que, malgrat que hagin estat assignats aleatria-ment als grups de tractament i control, alguns del individus del primer grup acabin no seguint el protocol de tractament (p. ex., no assisteixen als cursos de formaci que preveu el programa), i/o alguns del grup de control hi acabin tenint accs. El risc que es produeixi aquest tipus de situacions depn de la naturalesa de la intervenci que sestigui analitzant: aix, tot i que resulta plausible pensar que alguns tractats decideixin Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 30 /no assistir a cursos de formaci, sembla poc probable que aquest rebuig es produeixi si el tipus dintervenci consisteix a rebre una transferncia monetria. Daltra banda, pel que fa a la possibilitat que persones control acabin rebent la intervenci, laspecte clau a tenir en compte s la capacitat que puguin tenir els responsables de lexperiment per monitorar lactivitat dels gestors del programa i evitar situacions anmales. externalitats (spillovers). Qualsevol efecte indirecte sobre els outcomes del grup de control motivat per lexistncia del tractament posa en entredit la validesa dels resultats generats per lexperiment. Una acurada selecci de les unitats a partir de les quals es realitzar el procs daleatoritzaci pot prevenir aquest tipus de biaix; a tall dexemple, si estem interessats a mesurar limpacte sobre lobesitat infantil dun programa escolar de salut alimentria, s evident que laleatoritzaci no sha de realitzar entre individus duna mateixa escola (hi haur processos dimitaci), sin entre escoles que es trobin a certa distncia les unes de les altres. Desgast diferencial de la mostra. En qualsevol experiment social hi ha un lapse de temps entre el moment de lassignaci aleatria dels individus als grups de tractament i control, i el moment en qu es mesura loutcome dinters per tal de valorar limpacte de la poltica; si durant aquest lapse de temps hi ha individus del grup de tractament i/o de control que abandonen lexperiment, de tal manera que resulta impossible mesurar-ne els outcomes, direm que sha produt un fenomen de desgast mostral. Aquest desgast pot provocar un biaix en lestimaci de limpacte si existeixen diferncies en les carac-terstiques daquells que abandonen respecte dels que romanen, ja que desapareix lequivalncia entre els individus del grup de control i de tractament que shavia aconse-guit en el moment de laleatoritzaci. En qualsevol cas, en aquelles situacions en qu es produeix un desgast mostral que pot amenaar la validesa dels resultats, hi ha tcni-ques estadstiques que permeten corregir (parcialment) el possible biaix resultant. La naturalesa prospectiva dels experiments socials fa que les fases de planificaci i disseny de lavaluaci siguin de crucial importncia. El desgast mostral, lexistncia dexternalitats i qualsevol altre factor que pugui esbiaixar els resultats de lavaluaci, han de ser anticipats i incorporats al disseny de lexperiment per tal deliminar-los o mini-mitzar-ne el seu abast. En cas contrari, quan lexperiment ja es troba en marxa, resulta prcticament impossible refer-ne el disseny. vAlIDesA externA En el cas dun disseny experimental, la validesa externa dels resultats obtinguts (aix s, la possibilitat dextrapolar-los) es pot veure afectada per dos motius principals. En primer lloc, pot ser que la mostra dindividus a partir de la qual shagin definit els grups de trac-/ 31 /tament i de control no sigui representativa de la poblaci a la qual pretenem extrapolar els resultats; aquest seria el cas, per exemple, dun experiment social que shagus portat a terme en una determinada comarca de Catalunya que no fos representativa de la poblaci catalana. Daltra banda, tamb pot passar que el mateix programa no resulti representatiu, s a dir, que la manera en qu aquest opera en condicions experimentals no pugui repro-duir-se a una escala superior (per exemple, en el cas dun programa de refor educatiu, pot passar que el nivell de motivaci dels professionals no sigui el mateix, o que la insuficincia de recursos dilueixi alguns elements del programa quan saplica a gran escala, etc.). 3.2.3. per qu no hI hA ms experIments socIAls? En les darreres dcades, els experiments socials han tingut un creixement notable, sobre-tot als pasos anglosaxons i tamb en alguns pasos en vies de desenvolupament. Als EUA, pas capdavanter en aquest sentit, shan fet experiments socials per avaluar canvis en les poltiques educatives (Krueger, 1999), reformes en els programes de manteniment de rendes per a persones pobres (Moffit, 2004), o tamb experincies innovadores en el camp de les poltiques actives docupaci (Heckman, 1997). Tamb hi hagut experiments socials en altres pasos del continent americ, com ara Mxic, on lavaluaci experimental del programa PROGRESA va tenir un impacte notable a nivell internacional (Skoufias, 2005). A Colmbia, Xile o lArgentina, entre altres, tamb han avaluat mitjanant experiments diverses poltiques en mbits laborals, educatius o dels serveis socials, aix com en altres pasos dels continents asitic i afric que reben fons provinents de lajuda internacional4. El quadre 6 illustra les caracterstiques daquest tipus de dissenys de la m dun experi-ment social concret: lavaluaci duna reforma organitzativa dels serveis socials i sanitaris per a persones grans al Quebec (Bland [et al.], 2006). En qualsevol cas, com que la majoria danalistes considera els experiments socials el dis-seny ms robust per avaluar limpacte duna poltica (el gold standard), resulta fins a cert punt paradoxal que no hi hagi molts ms experiments socials dels que hi ha. Un primer factor a considerar s lelevat cost que, en general, tenen aquest tipus de dis-senys: duna banda, ats que la minimitzaci de les amenaces a la validesa de lexperiment requereix un rigors procs de planificaci ex-ante, la negociaci entre les diverses parts implicades sobre aquestes qestions pot resultar fora important en termes de temps; daltra banda, si la hiptesi s que els efectes de la poltica no siguin immediats i es pretn poder extrapolar els resultats de lexperiment a daltres rees del pas, caldr treballar amb mostres de controls i tractaments de grandria suficient (milers de persones) que caldr seguir durant un ampli perode de temps5.Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 32 / En qualsevol cas, ms enll de les consideracions econmiques, largument habitual que utilitzen els qui soposen als experiment socials t un rerefons tic: resulta inadequat privar determinats individus (els del grup de control) dels beneficis que suposa una nova poltica utilitzant un mecanisme tant arbitrari com laleatoritzaci. La rplica per part daquells que veuen en els experiments socials una eina adequada davaluaci se sustenta en tres consideracions. La primera s que la presumpci que sest privant alguns indivi-dus de quelcom de beneficis no hauria de tenir sentit si lexperiment est justificat, ja que s precisament labsncia de dades sobre lefectivitat del programa el que justifica la seva avaluaci. Daltra banda, sn poques les ocasions en qu pertnyer al grup de control im-plica no rebre cap mena dintervenci, sin que ms aviat el que es compara s la nova po-ltica respecte de seguir com fins ara. Finalment, hi ha situacions fora freqents en qu laleatoritzaci pot considerar-se un criteri dassignaci equitatiu, com per exemple quan la manca de recursos no permet atendre duna sola vegada tota la poblaci potencialment beneficiria de la poltica; de fet, quan es produeixen situacions daquest estil, un disseny experimental ms acceptable que utilitzar una simple loteria entre individus s optar per un desplegament aleatoritzat (randomized phase-in): all que saleatoritza s el moment del temps en qu diferents grups dindividus comenaran a rebre el nou programa. En qualsevol cas, ms enll de quines siguin les raons que hi ha darrere de lescassetat dexperiments socials, el cert s que moltes de les avaluacions dimpacte que es porten a terme arreu fan servir dissenys de carcter no experimental. Dedicarem els propers apar-tats a descriure breument els principals mtodes disponibles a tal efecte. / 33 /quADre 7exemple DexperIment socIAl: sIstemA IntegrAt DAtencI sAnItrIA Del quebeccontext: En molts casos, la manca dautonomia de les persones grans ve motivada pel patiment de malalties crniques i, per aix, les necessitats datenci daquest collectiu sn tant sanitries com socials. No obstant aix, a la majoria de pasos desenvolupats, incls el Canad, la resposta assistencial que proporcionen els sistemes sanitari i social acostuma a portar-se a terme sense cap mena de coordinaci. objectIu: Lequip investigador pretenia avaluar en quina mesura un sistema integrat datenci, anomenat SIPA per les seves sigles en francs, permetria millorar la salut de les persones grans dependents del Quebec, augmentar la satisfacci dels seus cuidadors i reduir els costos assisten-cials totals. tIpus DestuDI I IntervencI: Lavaluaci del nou model integrat datenci es va portar a terme mitjanant un experiment aleatoritzat amb grup de control. Els pacients assignats al grup de trac-tament (606) van passar a ser atesos per equips multidisciplinars que no tan sols proporcionaven directament els serveis comunitaris socials i sanitaris (atenci domiciliria, centre de dia, centre de salut, infermeria domiciliria, etc.), sin que tamb coordinaven latenci hospitalria i la insti-tucionalitzaci social (residncies dassistits) dels pacients. Daltra banda, els individus del grup de control (624) van continuar rebent latenci de la manera habitual, o sigui, mitjanant lacci indepen-dent dels sistemes sanitari i social del Quebec. outcomes: Durant 22 mesos, es va obtenir informaci de registre sobre els serveis sanitaris i socials utilitzats pels pacients assignats a tots dos grups, incloent-hi tamb els costos de latenci rebuda en cada cas. Addicionalment, en el moment de comenar lestudi i transcorreguts 12 mesos, es va utilitzar una enquesta per obtenir informaci sobre lestat de salut de la persona gran, la satisfacci i la crrega suportada pels cuidadors, aix com les despeses privades assumides per la famlia en relaci amb la cura de la persona dependent. resultAts: Els pacients atesos mitjanant el model SIPA van fer una major utilitzaci dels serveis sanitaris i socials de carcter comunitari, per la seva probabilitat de patir episodis dhospitalitzaci innecessariament llargs (bedblocking) fou menor que la de les persones del grup de control. No obs-tant aix, pel que fa a la resta de serveis sanitaris i socials considerats, no es va detectar cap mena de diferncia entre ambds grups: van utilitzar les urgncies hospitalries amb la mateixa inten-sitat, van ser ingressats als hospitals amb la mateixa freqncia i van tenir la mateixa probabilitat dacabar ingressats en una residncia d assistits. En termes de costos, si b els pacients del model SIPA van tenir unes despeses mitjanes inferiors en els serveis que impliquen la institucionalitzaci dels individus (hospitals i residncies), aquest efecte es va veure totalment compensat per un increment en la despesa mitjana dels serveis comunitaris, de tal manera que el cost total mitj dambds grups va acabar sent el mateix. Daltra banda, tot i que la satisfacci dels cuidadors informals dels pacients SIPA va augmentar, no es van detec-tar diferncies significatives pel que fa a la crrega suportada. Finalment, tampoc no hi va haver diferncies entre ambds grups pel que fa a levoluci de lestat de salut dels pacients tractats en cada cas.Font: Elaboraci prpia a partir de Bland [et al.] (2006). Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 34 /3.3. DIssenys sense grup De control: AbAns-Desprs I srIes temporAlsEl mtode quasiexperimental ms simple per avaluar impactes i, com veurem, tamb el menys robust, s lanomenat disseny abans-desprs. La seva aplicaci requereix disposar dinformaci relativa als beneficiaris de la poltica tant abans com desprs de la seva posada en marxa. Limpacte de la poltica sobt, simplement, calculant la diferncia entre la mitjana de loutcome per la mostra de beneficiaris en cadascun dels dos moments esmentats. El con-trafactual es defineix reflexivament, daqu que aquest disseny es conegui tamb amb el nom de controls reflexius, en el sentit que la mesura d all que hauria passat als beneficiaris en absncia de la poltica sobt a partir de lexperincia daquests mateixos individus abans que la poltica exists (grfic 5). grfic 5. Illustraci dun disseny abans-desprs. Grup de tractamentOUTCOMEImpacte=Y1-Y0ABANS TRACTAMENT DESPRSTEMPSY1Y0Font: Elaboraci prpia. El supsit clau perqu aquest mtode estimi correctament limpacte duna poltica s que no hi pot haver cap altre factor, diferent del programa, que hagi pogut afectar loutcome dinters entre els dos moments de recollida de dades. En la majoria de casos, per, resulta evident que la plausibilitat daquest supsit ser mnima. Imaginem, a tall dexemple, una hipottica reforma que doni ms autonomia de gesti als centres amb lobjectiu de reduir les taxes de fracs escolar. En aquest cas, si ens aproximem a la mesura de limpacte mitjanant un dis-seny abans-desprs, els possibles canvis que observem en levoluci de les taxes de fracs escolar poden haver estat provocats per mltiples factors diferents de la reforma: un decre-ment de les rtios alumnes/professor frut de levoluci demogrfica, una reforma curricular, canvis en el perfil sociodemogrfic dels pares, etc. / 35 /Per, a ms de les amenaces a la validesa interna provocades pel que en lapartat 3.1 ano-menvem histria o factors contemporanis, els dissenys abans-desprs sn tamb molt vulnerables a amenaces a la validesa interna, especialment els anomenats fenmens de ma-duraci i regressi a la mitjana. En essncia, com que aquest tipus de disseny es troba man-cat dun grup de comparaci genu sobre el qual construir un contrafactual creble, sempre hi ha el dubte que les variacions observades en loutcome al llarg del temps no shaguessin produt de totes maneres, encara que la poltica avaluada no hagus tingut lloc. Aix doncs, malgrat que sutilitzen amb fora profusi, els dissenys abans-desprs sn un mtode molt poc robust. s per aix que, sempre que sigui possible, optarem per altres mtodes que basin la seva estratgia didentificaci en la comparaci de grups de persones beneficiries i no beneficiries de la poltica. Qu fer quan resulta totalment impossible cons-truir un grup de comparaci no beneficiari de la poltica, com s tpicament el cas quan una poltica sintrodueix en tot el territori i afecta tota la poblaci? En aquestes circumstncies, noms si estem molt segurs que els impactes esperats de la poltica sn fora immediats i que no hi ha factors contemporanis que influeixin sobre loutcome, podrem arribar a consi-derar un disseny abans-desprs; en canvi, si aquestes circumstncies no es donen, caldria reconsiderar seriosament la convenincia de portar a terme una avaluaci dimpacte quanti-tativa. Els anomenats models de sries temporals interrompudes constitueixen laltre gran tipus de disseny quasiexperimental que, igual que els dissenys abans-desprs, miren destimar limpacte duna poltica sense utilitzar un grup de comparaci. En certa mesura, consti-tueixen una variant refinada dels dissenys abans-desprs, ja que la seva principal caracte-rstica s que utilitzen informaci sobre mltiples perodes de temps anteriors i posteriors a la introducci de la poltica que es pretn avaluar. Aix doncs, en comparaci amb un model abans-desprs, el contrafactual reflexiu daquest tipus de dissenys resulta ms creble ja que disposem de ms informaci per estimar qu hauria passat en absncia de la poltica. Lestratgia didentificaci dels impactes que utilitzen els dissenys de sries temporals interrompudes s senzilla. A partir de les observacions disponibles sobre levoluci de loutcome abans de la intervenci, sutilitzen tcniques estadstiques per mirar de modelit-zar-ne el seu comportament normal en absncia de la intervenci, tot tenint en compte la possible influncia que hagin pogut tenir altres factors. A continuaci, aquest comporta-ment normal es projecta als perodes posteriors a la introducci de la poltica, i es contrasta fins a quin punt existeixen discrepncies entre les prediccions del model i els valors real-ment observats; si hi ha, satribueixen aquestes discrepncies a lexistncia de la poltica (grfic 6). No obstant aix, tot i que la idea subjacent s simple, val a dir que els models de sries temporals sn tcnicament complexos i llur aplicaci exigeix coneixements avanats destadstica. Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 36 /grfic 6. Illustraci dun disseny de sries temporals interrompudes. Grup de tractamentOUTCOMEImpacte=Y1-Y0Evoluci hipottica en absncia de tractamentTRACTAMENT (PERODE T)YT-1Y1Y0YT-2YT-3TEMPSFont: Elaboraci prpia. En qualsevol cas, tot i que els models de sries temporals constitueixen un mtode ms robust que els dissenys abans-desprs per avaluar impactes, cal tenir present que el contra-factual se segueix construint de forma reflexiva. Aix doncs, tot i que puguem tenir en compte la influncia daltres factors sobre levoluci de loutcome, aquesta influncia es modelitza en funci duna informaci que no pertany al mateix perode de temps en qu realment opera la poltica. En definitiva, tot i que suavitzats, segueixen resultant daplicaci el mateix tipus de cauteles que plantejvem en el cas dels dissenys abans-desprs, o sigui, limitar el seu s a situacions en qu, duna banda, no resulti possible construir un grup de comparaci i, de laltra, hi hagi una quantitat molt reduda dexplicacions alternatives sobre el perqu de levoluci de loutcome desprs de la introducci de la poltica. En la resta de casos, resulta recomanable explorar altres tipus de dissenys, com els que sexpliquen tot seguit, en qu limpacte es mesura utilitzant persones no beneficiaries (grup de comparaci) contempor-nies daquelles que es beneficien de la poltica (grup de tractament). / 37 /3.4. lA tcnIcA Del matching3.4.1. qu s? Aquesta tcnica imita un experiment amb assignaci aleatria de tractament mitjanant la creaci dun grup de control ex-post que sassembla al mxim possible al grup de tracta-ment per a aquelles caracterstiques rellevants observables. Laplicaci daquest mtode per avaluar limpacte duna poltica pot considerar-se en aquells casos en qu, amb pos-terioritat a la intervenci pblica, disposem dinformaci tant duna mostra dindividus que han estat beneficiaris del programa com duna altra de persones que no ho han estat. En concret, per a cadascun dels individus dambds grups, cal tenir informaci sobre el valor que pren en cada cas loutcome dinters i tamb sobre tots aquells factors (caractersti-ques dels individus, entorn en el qual viuen, etc.) que, duna banda, poden haver determi-nat el procs pel qual els individus han decidit participar en el programa i, de laltra, poden tenir efectes sobre el valor que pren loutcome dinters. El que el mtode de matching proposa s utilitzar tota la informaci anterior per construir un grup de comparaci entre els individus que no es beneficien del programa. Per fer-ho, el mtode busca, per a cadascun dels individus que composen la mostra de tractats, una parella o match (daqu el nom de la tcnica) que sigui el ms semblant possible en el sen-tit que acabem de descriure. La pretensi darrera de la tcnica del matching s obtenir, mitjanant procediments esta-dstics, all que els experiments socials obtenen mitjanant lassignaci aleatria, a saber, que el grup dindividus que ens ha de servir per construir el contrafactual sigui el ms semblant possible al grup dindividus que reben el programa, a fi de minimitzar tant com es pugui el biaix de selecci. Per mentre que una assignaci aleatria veritable distribueix de forma equitativa les caracterstiques observables i les no observables entre el grup con-trol i el de tractament, el matching noms distribueix equitativament les caracterstiques observables. En altres paraules, assumeix que no hi ha cap variable rellevant no obser-vable que difereixi sistemticament entre el grup de tractament i el de comparaci i que, per tant, loutcome del grup de tractament si no hagus participat o shagus beneficiat del programa (s a dir, el contrafactual) equival a loutcome del grup de comparaci que, realment, no hi ha participat (grfic 7).Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 38 /grfic 7. Illustraci dun disseny basat en la tcnica del matching. Grup de tractament (GT)Grup de comparaci (GC)OUTCOMEImpacte=Y1-Y0Moment dobservaci per part de lavaluadorIgualtat hipottica entre GT i GCY1Y0TRACTAMENTTEMPSFont: Elaboraci prpia. Un exemple pot ajudar-nos a acabar de comprendre la lgica daquest tipus de disseny. Imaginem que el Departament de Salut posa en marxa una poltica dincentius destinada a incrementar la prescripci de genrics per part dels metges datenci primria. Supo-sem que el percentatge de medicaments genrics que prescriuen els facultatius noms es troba influt per ledat del metge i pel seu sexe, i que la decisi de participar o no en el programa dincentius s voluntria. Aix les coses, si tingussim la sort que no hi hagus diferncies pel que fa al sexe i ledat dels metges que hi participen i dels que no, una sim-ple comparaci de mitjanes entre ambds grups pel que fa al percentatge de prescripci de genrics ens proporcionaria una bona estimaci de limpacte de lesquema dincentius. I si, per contra, observem que la distribuci per sexe i edat dels participants s diferent de la dels no participants? Llavors no podrem atribuir la diferncia en la mitjana dels outcomes exclusivament a la intervenci, ja que estar tamb motivada pel fet que ambds collectius sn diferents. En aquest cas, una possible estratgia seria construir el grup de comparaci seleccionant nicament aquells metges no participants que garantissin un percentatge de dones i una distribuci per edats idntics als del grup de participants: aix, per a cada dona participant dentre 30 i 35 anys, buscarem una dona digual edat en el grup de no participants. Una lgica molt similar a la que acabem de descriure s la que utilitza el matching per tal dintentar obtenir estimacions no esbiaixades de limpacte de les poltiques. / 39 /3.4.2. com sImplementA: propensIty score I ApArellAment Lexemple anterior s poc realista en el sentit que resulta evident que la prescripci de genrics es troba determinada per ms factors que el sexe i ledat dels metges. En gene-ral, com que el nombre de variables susceptibles dinfluir tant sobre la decisi de parti-cipar en un programa com sobre loutcome dinters ser fora elevat, resulta impossible realitzar un aparellament com el que descrivem en lexemple anterior. Lalternativa passa per reduir la dimensionalitat del problema i definir la major o menor similitud entre tractaments i controls a partir dun sol nombre: lanomenat propensity score (PS). El PS mesura la probabilitat que un individu, donades les seves caracterstiques, de-cideixi participar en el programa; aquesta probabilitat sobt a partir dun model delecci discreta, com ara un lgit o un prbit6. El pas segent consisteix a realitzar els aparellaments entre participants i no participants basant-nos en el PS duns i altres. Hi ha diversos mtodes per definir com es constitueixen les parelles. El ms senzill s el que sanomena el ve ms proper (nearest-neighbour caliper) i consisteix a formar tan sols aquelles parelles participant-no participant en qu la diferncia entre el PS dun i altre sigui inferior a un cert nombre predeterminat. Aquest mtode permet que estiguin equilibrades la mostra de participants i la mostra final de no participants amb qu els acabem comparant, si ms no pel que fa a les variables que hem considerat a lhora de modelitzar la participaci en el programa. El darrer pas consisteix a estimar limpacte de la intervenci. En aquest sentit, igual que en el cas dels experiments socials, la tcnica de clcul s ben senzilla: nhi ha prou de computar la mitjana aritmtica de les diferncies en outcomes de les diferents parelles construdes, i verificar si aquesta mitjana s significativament diferent de zero o no. 3.4.3. lImItAcIons El supsit bsic que la tcnica del matching necessita per obtenir estimacions consistents de limpacte duna poltica s que, en mitjana, un cop sha tingut en compte lefecte de les variables condicionants (el sexe, ledat, lespecialitat, etc., en el cas de lexemple dels met-ges), els participants haguessin obtingut el mateix outcome que els no participants si la poltica no hagus existit. O, dit duna altra manera, el supsit fonamental s que no exis-teix el que tcnicament sanomena selecci en variables no observables, s a dir, no hi ha cap factor que no hagi estat tingut en compte per lanalista que influeixi simultniament sobre la probabilitat de participar en el programa i sobre loutcome dinters. En cas con-trari, com que res no garanteix que laparellament hagi generat mostres de tractaments i controls equilibrades pel que fa a aquests factors no observats, la mesura de limpacte que Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 40 /obtinguem pot patir un biaix important respecte del seu autntic valor. En aquest sentit, seguint amb lexemple dels incentius als metges, aquest seria el cas si existissin difern-cies (no observables) de motivaci entre participants i no participants. Intutivament, per tal de minimitzar el risc que hi hagi un biaix de selecci en les prpies estimacions, sembla obvi que el que hauria de fer lanalista s intentar aplicar la tcnica del matching utilitzant un conjunt de variables de control el ms ampli possible; en con-cret, shaurien de tenir en compte totes aquelles variables per a les quals exists evidncia que influeixen tant la participaci com loutcome dinters. En aquest sentit, si per a alguns daquests factors no existeix informaci (s a dir, si aquests factors sn inobservables), la credibilitat dels resultats obtinguts quedar erosionada. Amb la intenci dillustrar les possibilitats que ofereix la tcnica del matching a la prcti-ca, el quadre segent cont la descripci duna avaluaci dimpacte que, seguint aquesta metodologia, va intentar esbrinar lefectivitat dels principals programes de formaci ocu-pacional existents a Catalunya. / 41 /quADre 8 AvAluAcI De lA formAcI ocupAcIonAl A cAtAlunyAEl Servei dOcupaci de Catalunya (SOC) porta a terme un ampli conjunt daccions formatives, dirigi-des a diversos collectius daturats, lobjectiu de les quals s millorar les possibilitats que aquestes persones trobin una feina i la mantinguin. Els programes en marxa comprenen, entre altres, els segents: Pla FIP, destinat prioritriament a persones desocupades majors de 65 anys, aturats de llarga durada, discapacitats, etc.; Centres dInnovaci i Formaci Ocupacional (CIFO), cadascun dells especialitzat en una o vries famlies professionals; Igualtat dOportunitats, programa de formaci dirigit especficament a dones; etctera. Lany 2008, per encrrec del SOC, un equip dinvestigadors dirigit pel professor Toharia va portar a terme una avaluaci dels impactes daquests programes fent servir la tcnica del matching (Toharia [et al.], 2008). Els principals ingredients metodolgics daquesta avaluaci varen ser els segents: outcomes: Situaci laboral de la persona durant els 8 trimestres posteriors a lany en qu van tenir lloc els programes avaluats. grups de tractament i de control: Es van definir 8 grups de tractament diferents, un per a cadas-cun dels 8 programes de formaci ocupacional avaluats (Pla FIP, CIFO, Igualtat dOportunitats, etc.). Addicionalment, es van definir mitjanant la tcnica de matching 8 grups de comparaci constituts per demandants docupaci que no shavien beneficiat de cap dels programes formatius del SOC, per que segons el seu propensity score, tenien caracterstiques similars a les persones beneficiries dels diferents programes. variables delpropensityscore: Sexe, edat, nacionalitat, nivell destudis, mbit de recerca, temps dinscripci, alta nova, aturat de llarga durada, recepci de prestacions, nombre docupacions demandades i provncia de residncia. Els resultats obtinguts assenyalen que tant els CIFO com el Pla FIP augmenten la probabilitat destar ocupats dels participants respecte dels no participants. En canvi, pel que fa al programa dIgualtat dOportunitats i a les Accions Integrades (dirigides a persones amb dificultats especials), els impactes estimats sobre locupaci van ser nuls. Finalment, en el cas dels Programes de Ga-rantia Social, dirigits a joves que finalitzen lESO sense acreditar-la, es va detectar un efecte negatiu sobre la probabilitat destar ocupat que tendeix, per, a disminuir rpidament en el temps; ara b, sha de tenir en compte que aquest programa s el de major durada i, per tant, cal pensar que els efectes tendeixen a produir-se a ms llarg termini.Font: Elaboraci prpia a partir de Toharia [et al.] (2008). 3.5. el moDel De Dobles DIferncIes 3.5.1. DefInIcI I AvAntAtges Aquesta tcnica saproxima a la quantificaci de limpacte dun programa definint lefecte no en termes de la diferncia posttractament en el nivell de loutcome per als beneficiaris i per als no beneficiaris, sin com la diferncia en la variaci de loutcome abans i desprs de la poltica en ambds grups7. Aix doncs, en definir limpacte daquesta manera, la Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 42 /tcnica de dobles diferncies reconeix explcitament que part de la variaci temporal en loutcome daquells que reben la poltica shauria produt en qualsevol cas, i que la mane-ra de mesurar-la s a travs del canvi en loutcome dels no beneficiaris durant el mateix perode. La millor forma dentendre aquesta tcnica s a travs de la seva representaci grfica. grfic 8. Illustraci dun model de dobles diferncies. TRACTAMENTTEMPSGrup de tractamentGrup de controlOUTCOMEImpacte=Y1-Y0YC, tYC, t+1YT, tY0YT, t+1 Y(1)Font: Elaboraci prpia. Aix, tal com pot observar-se a al grfic 8, limpacte que sestima amb un model de dobles diferncies s la diferncia entre loutcome dels beneficiaris (tractaments) desprs de la poltica (YT, t+1; el nostre Y1) i el valor daquest outcome per a aquest mateix collectiu en absncia del programa, el fams contrafactual, representat a la figura com a Y0. Lessncia del mtode s que aquest contrafactual sobt projectant el nivell de loutcome dels bene-ficiaris abans de la poltica (YT, t) a una determinada taxa de variaci: lobservada pel que fa als outcomes dels controls entre el moment anterior (YC, t) i posterior a la introducci de la poltica (YC, t+1). En definitiva, s fcil demostrar que la mesura de limpacte pot expres-sar-se en termes analtics com la diferncia de diferncies (daqu el nom de la tcnica) segent: (YT, t+1 - YT, t) - (YC, t+1 YC, t) on YT, t i YT, t+1 sn les mitjanes de loutcome per al grup de tractament abans i desprs de la poltica, i YC, t i YC, t+1 les del grup de comparaci./ 43 / El model de dobles diferncies (DD), en la mesura en qu fa servir informaci dabans i desprs de la posada en marxa de la poltica tant per als beneficiaris com per als no bene-ficiaris, s capa de superar algunes de les limitacions que amenaaven la validesa interna daltres tipus de dissenys8. En primer lloc, si el comparem amb un disseny abans-desprs, la utilitzaci per part del model DD dun grup de comparaci permet prevenir el possible biaix provocat per factors contemporanis a la poltica que poden tenir efectes sobre loutcome dinters. Per exemple, si estem interessats a avaluar lefecte dun programa de formaci sobre les possibilitats de trobar feina dels aturats, factors daquest estil serien variacions en la taxa datur, modifi-cacions en la normativa laboral, etc. Igualment, frut de lexistncia dun grup de compara-ci, un model de DD que, analitzs limpacte dun programa de beques sobre el rendiment escolar seria tamb menys sensible que un disseny abans-desprs a patir biaixos per regressi a la mitjana (ja que aquest fenomen afectaria igual a beneficiaris i no beneficia-ris). Daltra banda, en la mesura en qu el que sestima s la diferncia entre tractaments i controls en la variaci dels outcomes i no la diferncia en el nivell en si, els models DD po-den eliminar algunes de les fonts del biaix de selecci que lexistncia de factors inobser-vables provocava en el cas del matching. En concret, el tipus de factors inobservables que no tenen efecte sobre la consistncia de la mesura dimpacte dun model DD sn aquells que no varien al llarg del temps. Podem illustrar aquesta propietat a partir de lexemple esmentat sobre un hipottic programa de formaci. Suposem que la motivaci fos un factor inobservable i que aquesta variable es distribus de manera diferent entre els indivi-dus que participen en el programa (ms motivats) i els que no ho fan (menys motivats). En aquest cas, s evident que part de la diferncia en el nivell dels outcomes dambds grups (tant abans com desprs de la intervenci) sexplicaria per la influncia daquest factor; ara b, com limpacte que mesura el model DD no es dna en termes de nivells sin de taxes de variaci de loutcome, el fet que la diferncia de motivaci no vari al llarg del temps fa que aquest factor no pugui haver estat la causa de levoluci diferencial de loutcome en el grup de tractament respecte del de control. 3.5.2. lImItAcIons Els models de dobles diferncies, malgrat els seus avantatges, no es troben exempts de veure amenaada llur validesa interna si no es compleixen els dos supsits que permeten a aquest tipus de disseny identificar correctament limpacte duna poltica pblica. El primer daquests supsits s que tant els participants com els no participants han de reaccionar de la mateixa manera davant dels factors contemporanis a la poltica que, ms Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 44 /enll daquesta, poden influir sobre loutcome dinters. En el cas del programa de for-maci abans esmentat aix significa que, per exemple, si es produeix una millora en un factor que influeix sobre la probabilitat que els individus tenen de trobar feina, com ara una reducci en la taxa datur, el seu efecte sobre tractaments i controls ha de ser el mateix. En aquest cas, la violaci daquest supsit podria produir-se si laugment de locupaci shagus concentrat en feines delevada qualificaci, i els nivells formatius dels tracta-ments fossin superiors al dels controls, ja que llavors la millora induda per la caiguda de latur seria superior entre els primers. Hi ha dues formes dintentar mitigar les possibles sospites que pugin existir sobre el compliment del supsit digualtat de reacci davant de factors contemporanis. En primer lloc, si existeix informaci sobre mltiples perodes de temps previs a la introducci de la poltica, podem contrastar si efectivament els outcomes de tractaments i controls han evolucionat de manera similar quan shan produt variacions en determinats factors que tamb tenen influncia sobre loutcome (la taxa datur, en el nostre exemple). Laltra pos-sibilitat que podem aplicar quan no existeix informaci retrospectiva s estimar el model DD desprs dhaver seleccionat els grups de tractament i control utilitzant la tcnica del matching. Daquesta manera, com que el matching ens garanteix una elevada similitud en-tre els dos grups, cal pensar que les possibilitats que uns i altres reaccionin de la mateixa manera davant de factors contemporanis augmenta i, per tant, tamb la consistncia dels resultats del model DD. El segon supsit que sha de satisfer perqu el model DD proporcioni estimacions no es-biaixades de limpacte duna poltica s que no poden existir diferncies entre tractaments i controls en caracterstiques no observables que varin al llarg del temps. Si hi sn, el fet que els models DD mesurin limpacte com la diferncia entre tractaments i controls en la variaci de loutcome no permet en aquest cas eliminar possibles biaixos. Aix, seguint amb lexemple del programa de formaci, si la motivaci de tractaments i controls varia al llarg del temps, i no podem observar aquesta variable, no podrem estar plenament segurs que aquest factor no sigui la causa de levoluci diferencial de loutcome en el grup de tractament respecte del de control i, per tant, que la magnitud de limpacte estimat per a la poltica no en sobreestimi el seu efecte real. Aix doncs, si volem que els resultats duna avaluaci dimpacte que utilitzi un disseny DD resultin crebles, haurem doferir arguments que permetin descartar lexistncia de caracterstiques inobservables que varien en el temps de forma diferent entre tractaments i controls. El segent quadre illustra les possibilitats dels models DD a travs duna aplicaci portada a terme en el nostre entorn. En concret, el cas comentat s el duna avaluaci dimpacte que estima, mitjanant un model DD, els efectes que podrien derivar-se duna major cobertura per part del sector pblic de latenci bucodental dels infants. / 45 /quADre 9AvAluAcI Del progrAmA DAtencI DentAl Del pAs bAscEl Programa dAtenci Dental Infantil (PADI) del Pas Basc, que porta en funcionament des de lany 1990, constitueix una experincia de referncia a Espanya ja que ofereix un nivell de cobertura pblica pel que fa a latenci dental molt superior a la que sobserva a la resta de lEstat. Aquest programa, a ms de cobrir les extraccions com la resta de CA, inclou tamb una revisi anual i el tractament de cries i malformacions a tots els nens del Pas Basc dentre 7 i 15 anys. Garca (2005) va portar a terme una avaluaci del PADI que pretenia escatir els efectes daquest programa sobre els tres outcomes segents: la probabilitat de no haver anat mai al dentista, de haver-hi anat en els darrers tres mesos i, finalment, que la darrera visita fos una revisi. Lestudi estima limpacte del programa sobre aquestes variables utilitzant un model de dobles diferncies. En concret, partint de dues edicions de lEncuesta Nacional de Salud corresponents als anys 1987 i 2001, lautora obt informaci dabans i de desprs de la introducci de la poltica tant per al grup de tractament (els nens del Pas Basc) com per al grup de comparaci (els nens de la resta de CCAA). Els resultats obtinguts suggereixen que el programa noms ha millorat un dels tres outcomes con-siderats: la probabilitat dhaver visitat el dentista en els darrers tres mesos, superior en el grup de tractament (nens del Pas Basc) respecte del de control (nens de la resta de CA).Font: Elaboraci prpia a partir de Garca (2005). 3.6. eleccI entre mtoDesEls apartats anteriors han posat de manifest lexistncia de diversos mtodes susceptibles dsser utilitzats a lhora de mirar destablir limpacte duna determinada poltica. En gene-ral, una visi fora compartida entre els avaluadors s que no existeix el mtode ideal, s a dir, un tipus de disseny en particular que, independentment de les circumstncies, shauria daplicar de forma universal en totes les avaluacions dimpacte (Rossi, Lipsey i Freeman, 2004). A la prctica, per tant, els avaluadors es veuen obligats a decidir entre diverses alter-natives. Un element obvi que condiciona aquestes eleccions s la disponibilitat de temps i de recursos, per nhi ha daltres: les caracterstiques del programa, la importncia i ls que sesperi fer dels resultats, la disponibilitat de dades, etc. Els apartats que segueixen tracten breument aquests aspectes, i argumenten a favor de la necessitat daproximar-se a lelecci del mtode amb una mentalitat oberta, eclctica i desproveda dapriorismes excessius. 3.6.1. cArActerstIques Del progrAmA I DIsponIbIlItAt De DADes Hi ha determinades caracterstiques de les poltiques pbliques que augmenten les possi-bilitats de mesurar amb rigor el seu impacte. Una especialment important s la relativa a la seva novetat i, ms concretament, a la seva concepci com a prova pilot. En aquests ca-sos, si es reuneixen una srie de condicions, com ara que la demanda potencial sigui supe-rior a loferta o existeixin dubtes sobre lefectivitat del programa, els experiments socials que utilitzen procediments dassignaci aleatoris poden constituir una forma davaluaci Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 46 /dimpacte a considerar. En qualsevol cas, malgrat que lassignaci no es produeixi de ma-nera aleatria, un programa pilot que simplanti noms en determinades zones geogrfi-ques obre les portes a dissenys no experimentals (matching o models DD) que utilitzin les rees no-pilot per construir grups de comparaci. En qualsevol cas, fins i tot en aquells casos en qu una nova poltica simplementi sense proves pilots, afectant de sobte a tot el territori, segueix havent-thi possibilitats de cons-truir grups de comparaci si, pels motius que sigui, no tota la poblaci potencialment beneficiria acaba participant en el programa. El pitjor dels casos es produeix, des de la perspectiva de lavaluaci dimpacte, quan una nova poltica simplanta a escala nacional i afecta tota la poblaci, ja que aix noms permet laplicaci de mtodes reflexius (abans-desprs i sries temporals). Un altre avantatge de les poltiques noves, es materialitzin o no mitjanant proves pilot, s que permeten la introducci delements davaluabilitat mentre es desenvolupa la fase de disseny del programa. Com hem mencionat anteriorment, una avaluaci dimpacte s, per definici, una avaluaci ex-post, per les millors avaluacions dimpacte sn aquelles que es planifiquen ex-ante. La possibilitat ms extrema s que el mateix desplegament de la pol-tica es realitzi pensant en lavaluaci, com s el cas dun experiment social, per de vega-des nhi ha prou de planificar una bona recollida de dades abans i desprs de la interven-ci, que afecti sengles mostres de potencials beneficiaris i no beneficiaris, per incrementar enormement les possibilitats dobtenir estimacions dimpacte crebles mitjanant mtodes no experimentals. Sovint per, limpacte que es desitja avaluar no s el duna poltica nova. En aquests casos, com que resulta impossible influir en clau avaluadora sobre el disseny del programa, el repte de lavaluaci consisteix a trobar caracterstiques de la poltica i fonts dinformaci que facin possible laplicaci de les tcniques quasiexperimentals descrites en aquesta guia. Aix doncs, pel que fa a les caracterstiques del programa, cal buscar-hi elements que possibilitin la construcci de contrafactuals: per exemple, si pels motius que sigui un determinat programa t llistes despera, els individus que en formen part poden constituir un grup de control natural respecte del qual estimar limpacte del programa; aix mateix, en la mesura en qu existeixi variabilitat geogrfica en el grau dimplantaci duna poltica, les unitats territorials que disposin del programa poden comparar-se amb les que no en disposin (les comunitats autnomes poden constituir, en el cas dalgunes poltiques, una font de variabilitat a explorar en aquest sentit)./ 47 / Daltra banda, respecte de la disponibilitat de fonts dinformaci, constitueix una impres-si general en el nostre pas la infrautilitzaci dels registres administratius amb finalitats avaluadores. En aquest sentit, un cop es t clar el disseny que pot prendre lavaluaci de la poltica o programa, la tasca de lequip avaluador consisteix a identificar totes aquelles ba-ses de dades amb informaci rellevant sobre els individus que componen els grups de con-trol i tractament prviament definits, idealment amb lhoritz temporal ms ampli possi-ble. Igualment, a ms dels registres administratius, la recerca dinformaci pot estendres a enquestes ja disponibles o, fins i tot, a lelaboraci dalguna de nova.3.6.2. eclectIcIsme Hi ha fora casos en qu lequip avaluador, un cop explorades les caracterstiques del programa i les fonts de dades disponibles, sadonar que poden utilitzar-se diverses de les tcniques quasiexperimentals comentades en els apartats previs i no una de sola. En aquestes quasiexperimentals, tret dels dissenys que no utilitzen grups de comparaci, poc recomanables com ja sha comentat, no existeix evidncia concloent que hi hagi una determinada metodologia que domini clarament la resta9. s per aix que, en general, els avaluadors acostumen a aplicar simultniament diversos tipus de metodologies, soluci que permet addicionalment verificar fins a quin punt els resultats obtinguts depenen molt o poc de les eleccions de carcter metodolgic. Les diverses tcniques en qu hem centrat la nostra atenci fins el moment sn metodo-logies danlisi quantitatives. No s estranya la preeminncia daquest tipus denfocament en lavaluaci dimpacte, ja que la qesti fonamental a resoldre, que no s altra que la construcci dun contrafactual, s de naturalesa bsicament quantitativa. No obstant aix, existeix una percepci creixent per part dels avaluadors que, per tal de millorar la robus-tesa de lavaluaci dimpacte, resulta recomanable complementar lanlisi utilitzant tc-niques qualitatives (p. ex., entrevistes en profunditat o grups de discussi). El valor afegit que pot aportar llur utilitzaci s permetre a lequip avaluador millorar el seu coneixe-ment sobre les condicions en qu realment opera el programa, les perspectives dels seus beneficiaris, i daltres elements fonamentals a lhora dentendre realment el perqu de limpacte duna poltica o programa (o de la seva absncia). Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 48 /notes:1 El lector interessat pot aprofundir en lestudi daquests mtodes seguint les lectures recomanades que apareixen en lannex daquesta guia. Tamb hi trobar referncies que tracten sobre dues tcniques que, donat el seu carcter ms tcnic, hem optat per deixar fora duna guia de carcter introductori: el models amb variables instrumentals i el disseny de regressi discontnua.2 A llarg de lexposici, ens referirem de manera genrica a individus tractats i controls, tot i que hi ha fora situacions en qu la unitat danlisi no sn persones. s el que passaria, per exemple, si volgussim avaluar una poltica dincentius fiscals destinats a empreses per tal daugmentar la seva recerca en R+D+I, o una reforma que dons ms autonomia de gesti als centres escolars. 3 No entrarem en els detalls relatius a la grandria (nombre de persones) que han de tenir les mostres que componen els grups de control i tractament, ja que es tracta duna qesti fora tcnica. Noms menciona-rem que quant ms gran sigui la mida daquestes mostres, ms possibilitats hi ha de detectar lexistncia defectes atribubles a la poltica per petits que siguin. Vegeu per a una discussi detallada daquestes qestions Purdon (2002). 4 Un llistat molt ampli davaluacions dimpacte fetes arreu, tant amb dissenys experimentals com quasi-experimentals, pot trobar-se a la web del Banc Mundial que apareix referenciada a lannex daquesta guia. 5 Lelevat cost dun experiment no constitueix, per si sol, un argument suficient per decidir no portar-lo a terme. La comparaci rellevant sha de realitzar tenint en compte tamb les conseqncies que pot supo-sar estendre una poltica que, malgrat no tenir cap impacte demostrat, absorbeix una quantitat ingent de recursos pblics. 6 Els models delecci discreta sn aquells que pretenen establir la relaci existent entre una variable de-pendent binria (p. ex. participar o no) i un seguit de variables independents que a priori es considera poden influir sobre aquella. La diferncia entre els dos models esmentats rau en la forma funcional que es suposa relaciona la variable dependent amb les independents: una funci logstica en el cas del lgit, una funci normal en el cas del prbit. Vegeu Corbetta (2007) per a ms detalls sobre aquest tipus de models. 7 Aquests tipus de models es coneixen en angls amb el nom de difference-in-differences, tot i que sovint sutilitza labreviatura diff-in-diff per referir-shi. Hem optat per traduir-los per models de dobles difern-cies seguint la proposta de traducci al castell suggerida per Vera-Hernndez (2003).8 s important assenyalar que, a lhora destimar impactes mitjanant un model DD, no cal que la informa-ci sigui longitudinal (aix s, sobre els mateixos individus abans i desprs de la intervenci). Poden fer-se servir dades de secci creuada (dues enquestes realitzades abans i desprs de la intervenci a individus diferents), sempre i quan puguem identificar beneficiaris i no beneficiaris en un i altre moment./ 49 /9 La manera com savalua la robustesa dels mtodes davaluaci dimpacte quasiexperimentals s aplicant-los a bases de dades que han estat obtingudes a partir dun experiment social. Aix doncs, partint de la premissa que lexperiment social permet identificar limpacte real, els resultats obtinguts per la resta de mtodes es comparen amb aquests./ 51 /BIBlIoGrafIaBLAND, F. [et al.]. A system of integrated care for older persons with disabilities in Cana-da: Results from a randomized controlled trial. The Journals of Gerontology: Medical Sciences (2006), nm. 61 (4), p. 367-373. CORBETTA, P. Metodologa y Tcnicas de Investigacin Social. Madrid: MacGrawHill, 2007. GARCA, P. Evaluacin de un Programa de Atencin Dental Pblico: PADI en el Pas Vasco. Ekonomiaz (2005), nm. 60, p. 62-89. HECKMAN, J.; HIDEHIKO, I.; TODD, P. Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme. Review of Economic Studies (1997), nm. 64 (4), p. 605-654.KUEGER, A.B. Experimental Estimates of Education Production Functions. The Quarterly Jour-nal of Economics (1999), nm. 114, p. 497-532. MOFFITT, R. A. The Role of Randomized Field Trials in Social Science Research. A Perspec-tive from Evaluations of Reforms of Social Welfare Programs. American Behavioral Scientist (2004), nm. 47 (5), p. 50640.PURDON, S. Estimating the impact of labour market programmes. Londres: Department for Work and Pensions, 2002. (Working Paper nm. 3) RAVALLION, M. Evaluating Anti-Poverty Programs. Washington DC: World Bank, 2006. (Policy Research Working Paper 3625)SKOUFIAS, E. PROGRESA and Its Impact on the Welfare of Rural Households in Mexico. Washing-ton DC: International Food Research Institute, 2005. (Research Report 139)TOHARIA, L. [et al.]. Estudio de evaluacin de la formacin ocupacional en Catalunya. Barcelona: Servei dOcupaci de Catalunya, 2008. (mimeo) Guia prctica 5 Avaluaci dimpacteCollecci Ivlua de guies/ 52 /annex. GuIa de recursosmAnuAlsmAnuAls especfIcs DAvAluAcI DImpActe:BAKER, J. Evaluating the Impact of Development Projects on PovertyA Handbook for Practitio-ners. Washington, DC: World Bank, 2000. ASIAN DEVELOPMENT BANK. Impact Evaluation: Methodological and Operational Issues. / Manila: ADB, 2006. (http://www.adb.org/Documents/Handbooks/Impact-Analysis/default.asp)SHADISH, W. R.; COOK, T. D.; CAMPBELL, D. T. Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin Company, 2002. mAnuAls generAls DAvAluAcI Amb cAptols sobre AvAluAcI DImpActe:ROSSI, P. H.; LIPSEY, M. W; FREEMAN, H. E. Evaluation: a systematic approach. 7a ed. / Londres: Sage, 2004. WEISS, C. Evaluation. 2a ed. New Jersey: Prentice Hall, 1998. ArtIclesLa majoria darticles que es mencionen a continuaci, i daltres de relacionats, poden descarregar-se gratutament des de la segent pgina web del Banc Mundial: http://web.worldbank.org/WBSITE/EXTERNAL/TOPICS/EXTPOVERTY/EXTISPMA/0,,contentMDK:20215333~menuPK:451260~pagePK:148956~piPK:216618~theSitePK:384329,00.htmlArtIcles IntroDuctorIs:RAVALLION, M. The Mystery of the Vanishing Benefits. Ms Speedy Analysts Introduction to Evaluation. World Bank Economic Review (2001), nm. 15, p. 115-140. VERA-HERNNDEZ, M. Evaluar intervenciones sanitarias sin experimentos. Gaceta Sanita-ria (2003), nm. 17, p. 238-248. (http://scielo.isciii.es/pdf/gs/v17n3/revision.pdf)/ 53 /ArtIcles que revIsen DIverses tcnIques DAvAluAcI:BLUNDELL, R.; COSTA DIAS, M. Evaluation methods for non-experimental data. Fiscal Stu-dies (2000), nm. 21(4), p. 427-468.RAVALLION, M. Evaluating Anti-Poverty Programs. Washington DC: World Bank, 2006. (Policy Research Working Paper 3625)ArtIcles sobre experIments socIAls:BURTLESS, G. The case for randomized field trials in economic and policy research. Journal of Economic Perspectives (1995), nm. 9, p. 63-84.DUFLO, E.; GLENNERSTER, R.; KREMER, M. Using Randomization in DevelopmentEconomics Research: A Toolkit. Londres: CEPR, 2007. (CEPR working paper, number 6059) ArtIcles sobre matching:CALIENDO, M.; KOPEINIG, S. Some Practical Guidance for the Implementation of Propensity Score Matching. Journal of Economic Surveys (2008), nm. 22, p. 31-72. IMBENS, G. Nonparametric Estimation of Average Treatment Effects Under Exogeneity: A Review. The Review of Economic and Statistics (2004), nm. 86, p. 4-29.ArtIcles sobre vArIAbles InstrumentAls:HECKMAN, H. Instrumental Variables. A Study of Implicit Behavioral Assumptions Used in Making Program Evaluations. Journal of Human Resources (1997), nm. 32, p. 441-462.ArtIcles sobre regressI DIscontnuA:LEE, D.; LEMIEUX, T. Regression Discontinuity Designs in Economics. Boston: NBER, 2009. (Working Paper Series, nm. 14723)enllAos DIntersNetwork of Networks on Impact Evaluation (NONIE) http://www.worldbank.org/ieg/nonie/index.htmlBanc de Desenvolupament Iberoamerichttp://www.iadb.org/ove/DefaultNoCache.aspx?Action=WUCPublications@ImpactEvaluationsAvaluacions dimpacte a Colmbiahttp://www.dnp.gov.co/PortalWeb/Programas/Sinergia/EvaluacionesEstrat%C3%A9gicas/tabid/215/Default.aspxAvaluacions dimpacte a Xilehttp://www.dipres.cl/572/propertyvalue-15223.htmlBase de dades del Banc Mundial sobre avaluacions dimpactehttp://web.worldbank.org/WBSITE/EXTERNAL/TOPICS/EXTPOVERTY/EXTISPMA/0,,contentMDK:21534261~menuPK:412159~pagePK:210058~piPK:210062~theSitePK:384329,00.htmlT. +34 93 554 53 00 info@ivalua.cat www.ivalua.catGran Via de les Corts Catalanes, 680, 3r08010 BarcelonaExemplar imprs: 12 Versi electrnica: www.ivalua.cat