Requisiti di qualsiasi predittore industriale: validità e affidabilità

I due requisiti fondamentali per qualsiasi predittore sono la validità e l'affidabilità. Nel contesto industriale esistono diversi tipi o tipi di validità, sebbene quello che viene maggiormente preferito è chiamato validità predittiva. Esistono anche diversi tipi di misure di affidabilità. La preoccupazione con affidabilità e validità non è limitata ai predittori, ma si applica anche ai criteri.

Validità:

La validità di un predittore può essere generalmente definita come la misura in cui il predittore raggiunge determinati obiettivi dell'utente misurando ciò che si suppone debba essere misurato. Il tipo specifico di validità in questione dipende quindi dallo scopo particolare dell'utente in qualsiasi situazione.

Validità predittiva:

Lo scopo dell'utente è di utilizzare il suo strumento di misura per prevedere le prestazioni future dei dipendenti su alcune altre variabili (criterio). La validità predittiva è stabilita statisticamente attraverso la correlazione e la regressione. L'importante distinzione della validità predittiva è uno di quei tempi. I punteggi dei predittori sono ottenuti su individui in un determinato momento (ad esempio, il tempo di assunzione) e i punteggi dei criteri sono ottenuti in una data successiva (ad esempio, alla fine di sei mesi).

La relazione risultante rappresenta quindi veramente il potere "predittivo" dello strumento. La validità predittiva è il tipo più importante di validità nella selezione poiché è l'unico tipo che duplica veramente la situazione di selezione. Un altro nome che a volte viene utilizzato per la validità predittiva è la validità del follow-up.

Validità concorrente:

L'obiettivo qui, almeno in teoria, dovrebbe essere quello di stimare la performance attuale dei dipendenti in base a qualche criterio rispetto ai punteggi sul predittore. La validità concorrente viene anche stabilita usando tecniche di correlazione e regressione, ma senza un intervallo di tempo tra l'ottenimento del predittore e il punteggio dei criteri. Un campione di dipendenti attuali viene utilizzato per accertare la relazione tra predittore e criterio, e quindi la regressione risultante può essere applicata ottenendo punteggi predittivi sui restanti titolari di posti di lavoro.

In altre parole, siamo interessati a prevedere lo stato attuale delle persone, non il loro stato in un momento futuro. È estremamente importante sottolineare che un'alta validità concomitante non garantisce un'elevata validità predittiva. Sfortunatamente, la validità concorrente è troppo spesso utilizzata nell'industria come sostituto della validità predittiva.

A volte il management non è disposto ad attendere il tempo richiesto dal metodo predittivo e potrebbe non rendersi conto che i dipendenti attuali possono rappresentare una popolazione di lavoratori sostanzialmente diversa dai candidati al lavoro. I lavoratori che sono attualmente impiegati sono sopravvissuti allo screening sia nelle assunzioni che nella continuità, e i lavoratori più poveri che sono stati assunti possono aver lasciato volontariamente o su richiesta. Ciò rende molto difficile giustificare la generalizzazione delle validità concorrenti a una situazione di validità predittiva.

La validità dei contenuti:

Quando il validatore assume che il suo predittore è rappresentativo di una determinata classe di situazioni, è coinvolto nella validità del contenuto. Ha una nozione specifica sul tipo di conoscenza, abilità, atteggiamento o prestazione che dovrebbe essere sfruttata dallo strumento di misurazione, e considera lo strumento valido nella misura in cui il suo contenuto è rappresentativo di ciò che vuole toccare. La validità del contenuto non è generalmente misurabile in alcun senso statistico o quantitativo.

Si trova il più grande uso della validità del contenuto tra gli utenti dei test di profitto, come gli esami finali in un corso universitario. Un esame finale può essere considerato di avere validità del contenuto solo se adeguatamente rappresentato (campionato), in termini di elementi, il contenuto del corso. Se non rappresentasse una copertura del materiale del corso, non poteva certo essere considerato un test appropriato da utilizzare per un esame finale, cioè non avrebbe validità del contenuto.

Costruisci validità:

Con questo tipo di validità l'utente desidera inferire il grado in cui le persone valutate possiedono qualche tratto o qualità (costrutto) che si presume rifletteranno nelle prestazioni del test. La procedura generale prevede la somministrazione di diversi strumenti di test che sembrano logicamente misurare lo stesso costrutto e quindi osservare le relazioni tra queste misure. La validità della costruzione non è stata utilizzata in misura considerevole dallo psicologo industriale; tende ad essere più spesso usato in situazioni teoriche piuttosto che pragmatiche.

Validità sintetica:

Si potrebbe considerare la validità sintetica come "predittiva" della validità predittiva. Supponiamo di avere una prova che in un certo numero di situazioni ha dimostrato un'alta relazione predittiva con vari criteri di rendimento dei capisquadra industriali. Supponiamo inoltre che un piccolo stabilimento manifatturiero voglia utilizzare un test per selezionare i capisquadra, ma troppo pochi capisquadra lavorano nell'impianto per effettuare anche uno studio di validità concorrente. Questa pianta potrebbe decidere di utilizzare il test senza alcuna valutazione statistica formale sul presupposto che fosse stato dimostrato di avere successo in altri impianti più grandi.

Questa procedura può essere considerata valida solo se:

(1) Il lavoro del caposquadra in questo impianto è simile ai lavori dei capisquadra coinvolti nella valutazione statistica del test, e

(2) I richiedenti del caposquadra in questo impianto sono tipici (provengono dalla stessa popolazione) dei candidati per i lavori dei capomastri negli impianti più grandi. La validità sintetica dovrebbe essere sostituita alla validità predittiva solo con la piena consapevolezza dei suoi possibili limiti.

Validità viso:

Un altro tipo di validità spesso usato per descrivere un test riguarda il grado in cui un utente è interessato ad avere il suo test "look right" per l'esaminatore. I candidati al lavoro spesso si arrabbiano se gli strumenti di predizione che gli viene richiesto sembrano avere poca o nessuna relazione con il lavoro per il quale stanno facendo domanda. Ad esempio, se si selezionano le persone per una posizione di macchinista e un test di abilità aritmetica viene utilizzato come predittore, gli elementi di prova dovrebbero trattare numeri applicati a problemi meccanici piuttosto che essere formulati in termini più generali come l'acquisto di mele o arance.

Se il richiedente non riesce a vedere la rilevanza del predittore per il lavoro per il quale si sta candidando, come spesso accade sui test di personalità, può subire una grave perdita di motivazione nella situazione del test, diventare derisorio, o, d'altra parte, sentirsi insicuri. Ciò non solo danneggia il programma di selezione ma può anche danneggiare l'immagine dell'azienda e danneggiare l'immagine dei test in qualsiasi ambiente industriale. Gli autori azzarderebbero l'ipotesi che una parte della cattiva pubblicità ricevuta dagli utenti dei dispositivi di selezione nell'industria possa essere dovuta all'utente che trascura la necessità che i suoi test abbiano validità.

Age Tenure e esperienza lavorativa e loro effetto sulla validità:

L'esame delle prestazioni dei lavoratori in ogni particolare lavoro mostra spesso una relazione definita tra variabili quali l'età e l'esperienza e il criterio. Più il lavoro è complesso, più è probabile che esistano questi tipi di relazioni. Per molti lavori è necessaria una notevole quantità di esperienza prima che i dipendenti diventino abili nel loro lavoro. La correlazione tra questi tipi di variabili e i criteri di successo del lavoro presenta un serio problema nella selezione. È necessaria cautela, in particolare se si utilizza la procedura di validità simultanea come mezzo per stabilire l'utilità di qualsiasi dispositivo di previsione.

Se, ad esempio, esiste un'elevata correlazione tra il criterio e la durata del lavoro, come deve essere interpretato un coefficiente di validità concorrente elevato? Questo significa che il predittore riflette davvero le differenze di abilità tra i lavoratori come misurato dal criterio "", o le differenze tra i lavoratori sono principalmente dovute all'esperienza sul lavoro? Se è quest'ultimo, allora tutto ciò che il predittore sta per realizzare è differenziare quei lavoratori con un lungo mandato da quelli che sono stati assunti più recentemente.

La validità osservata è generalmente sovrastima dell'efficienza predittiva dello strumento di selezione. Infatti, a meno che non si possa dimostrare chiaramente che il predittore non è correlato a tratti quali l'età e il possesso che possono essere essi stessi determinanti delle prestazioni lavorative, tutte le validità concomitanti ottenute con tale predittore devono essere altamente sospette.

Per illustrare il punto, considerare la situazione in cui si ha un criterio, un predittore e una variabile correlata al criterio come la permanenza in carica del lavoro, che è in gran parte responsabile delle differenze di abilità mostrate sul criterio dai dipendenti, come segue:

C + D = Validità concorrente osservata del predittore

D = quantità di varianza del criterio "senza impegno" rappresentata dal predittore

C = Ammontare della varianza del criterio "determinata in base alla durata" rappresentata dal predittore

La validità osservata è generalmente, ma non sempre, una sopravvalutazione della validità vera, poiché:

La validità concomitante vera o imparziale, che rappresenta la correlazione tra predittore e criterio che è completamente privo dell'influenza del possesso del lavoro, è data dall'equazione-

La correlazione (r _true ) come mostrato nel diagramma rappresenta in realtà, in modo pittorico, ciò che è noto in statistica come un coefficiente di correlazione "parziale". Riporta la correlazione tra predittore e criterio dopo che gli effetti della permanenza sul lavoro sono stati rimossi dai punteggi dei predittori e dai punteggi dei criteri degli attuali dipendenti. È importante che gli effetti di possesso vengano rimossi dal criterio e dal predittore nella situazione concomitante.

Se questi effetti non vengono statisticamente rimossi dal criterio, finiremo per predire l'influenza del possesso piuttosto che delle prestazioni lavorative, con poca o nessuna rilevanza per la validità predittiva. Se gli effetti sulla permanenza nel lavoro non vengono rimossi dal predittore, possiamo anche ottenere un coefficiente di validità che non può essere considerato rilevante per qualsiasi situazione di validità realmente predittiva.

Certamente i problemi delle variabili correlate a criterio e predittore nella configurazione concorrente illustrano alcuni dei limiti seri implicati in questo metodo di validazione. Si può tranquillamente affermare che non esiste assolutamente un sostituto uguale per il tipo di validità noto come validità predittiva quando si costruisce e si utilizza uno strumento di selezione.

Affidabilità:

In termini generali, il concetto di validità riguarda ciò che viene misurato da un dispositivo di misurazione. Una seconda e forse altrettanto importante caratteristica dei predittori è la necessità di conoscere la coerenza della misura, indipendentemente da ciò che viene misurato. Detto in altro modo, dobbiamo stabilire il grado di stabilità di qualsiasi dispositivo di misurazione; la misura ottenuta da un predittore deve essere coerente. Il grado in cui qualsiasi strumento di misura è consistente o stabile e darebbe sempre gli stessi punteggi ripetuti se necessario è definito come l'affidabilità di tale strumento di prova.

Come la validità, l'affidabilità viene solitamente misurata mediante il coefficiente di correlazione. Poiché la misurazione affidabile implica stabilità da una situazione all'altra, uno strumento affidabile dovrebbe produrre gli stessi punteggi o almeno classifiche simili di individui in due situazioni. Calcolando la correlazione otteniamo un'espressione matematica della misura in cui ciò si verifica.

Quindi uno strumento di misura affidabile è uno su cui gli individui ricevono lo stesso punteggio (o quasi lo stesso) in misurazioni ripetute. Quando il coefficiente di correlazione viene utilizzato per misurare la somiglianza dei punteggi per un gruppo di persone su due applicazioni della stessa misura, è chiamato coefficiente di affidabilità.

Il processo effettivo mediante il quale si può valutare l'affidabilità di una misura dipende da numerosi fattori. Esistono tre principali "generi" alternativi di affidabilità, ognuno dei quali presenta vantaggi e svantaggi separati. Sono sufficientemente diversi nella loro logica sottostante per giustificare l'esame di ciascuno in dettaglio.

Le tre tecniche per ottenere l'affidabilità dello strumento sono:

(1) Misure ripetute sulle stesse persone con lo stesso test o strumento,

(2) Misurazione sulle stesse persone con due forme "equivalenti" dello strumento di misura, e

(3) Separazione del dispositivo di misurazione in due o più parti equivalenti e correlazione tra questi punteggi "parziali".

Prima di considerare ciascun metodo, dovremmo esaminare in modo più specifico certi tipi di affidabilità o stabilità delle misure a cui potremmo essere potenzialmente interessati in circostanze diverse.

Supponiamo che ogni volta che usiamo uno strumento di misura per ottenere il punteggio di una persona, il punteggio ricevuto è una funzione di diversi fattori, come segue:

X _i = X _vero + X _errore

Dove

X _i = punteggio osservato per persona i in prova

X _true = Vero punteggio per persona i in prova: questa è la quantità effettiva di qualità misurata dal test che la persona in realtà possiede.

_Errore X = Punteggio errore per persona i in prova: questo è l'importo che il punteggio della persona è stato influenzato dall'utilizzo di vari fattori di opportunità o di tempo.

Se tutti gli strumenti di misurazione e i metodi di misurazione fossero "privi di errori", otterremmo sempre i veri punteggi delle persone e la correlazione tra due misurazioni sullo stesso gruppo di persone sarebbe sempre + 1, 00 o affidabilità perfetta (supponendo che non vi sia i veri punteggi sono da aspettarsi). Sfortunatamente, tale misurazione senza errori non è mai completamente disponibile, dal momento che una grande varietà di cose? Contribuire alle prestazioni in qualsiasi momento specifico.

Quindi, x _i può essere maggiore o minore di X _vero per qualsiasi misura particolare, e le correlazioni calcolate tra le misure sono sempre inferiori all'unità. In termini di rappresentazione pittorica della varianza delle prestazioni tra le persone su qualsiasi dispositivo di misurazione, sia che si tratti di test o colloquio, predittore o criterio, questa varianza totale può essere suddivisa nelle due componenti principali della varianza reale e della varianza dell'errore.

Dove varianza totale = variabilità totale dei punteggi dei test osservati

Vero varianza = variabilità delle persone in termini di quantità reali della caratteristica misurata

Errore varianza = variabilità dei punteggi di errore delle persone

L'affidabilità può essere definita come un rapporto tra la vera varianza e la varianza totale, o

Maggiore è la proporzione della varianza del punteggio vero o, viceversa, minore è la quantità di varianza dell'errore presente nel processo di misurazione, maggiore è l'affidabilità della misurazione. Il fattore critico che differenzia le tre principali procedure per determinare l'attendibilità è nel processo di decidere quale deve essere considerata la varianza dell'errore e quale deve essere considerata la varianza vera o sistematica. Non esiste un'unica affidabilità per qualsiasi test. Piuttosto, l'affidabilità dipenderà dalle esigenze del momento.

Ad esempio, lo psicologo potrebbe chiedere uno dei seguenti tipi di domande sul processo di misurazione:

1. Con quale precisione posso misurare le persone con questo test in un dato momento?

2. Con quale precisione le misure adottate con questo test oggi saranno rappresentative di queste stesse persone in un momento futuro?

3. Con quale precisione i punteggi di questo test rappresentano la reale capacità di queste persone sul tratto che viene campionato dal test?

Tutte e tre sono domande di affidabilità legittime. Tuttavia, ognuno pone un'enfasi leggermente diversa su varie fonti di variazione dell'errore nei punteggi dei test.

Queste fonti di variazione dell'errore sono state espresse da Thorndike e Hagen (1963) come:

1. Variazione dovuta al test in un determinato momento

2. Variazione dell'individuo da un periodo di tempo a un periodo di tempo

3. Variazione dovuta al particolare campione di compiti scelti per rappresentare la qualità da misurare

Cerchiamo ora di esaminare ogni metodo di affidabilità, tenendo presente le fonti di errore in modo da poter determinare come ciascun metodo tratti ogni origine.

Metodo test-retest:

Un metodo ovvio per valutare la stabilità consiste nel misurare due volte la stessa prestazione individuale con lo stesso strumento di misura. Questo tipo di affidabilità include le fonti di variazione 1 e 2 come errore. Quindi l'affidabilità risultante è quella che misura la stabilità del punteggio reale nel tempo. Esistono numerosi problemi con il metodo test-retest che vengono creati facendo misurare gli individui sullo stesso test due volte.

Ad esempio, a meno che il periodo di tempo sia abbastanza lungo tra le amministrazioni, è probabile che la variabile di un fattore di memoria influenzi le risposte delle persone nella seconda amministrazione. Un'altra difficoltà è che la variazione dovuta al particolare campione di compiti o elementi scelti viene considerata come una varianza sistematica che si aggiunge all'affidabilità.

Quindi qualsiasi persona che per caso è capitata di conoscere più risposte semplicemente perché alcuni degli elementi di prova toccati, per esempio, su un hobby di quella persona, sarebbe anche favorita nella seconda amministrazione perché gli stessi articoli, piuttosto che un nuovo campione, è Usato. Dovrebbe quindi ottenere un punteggio elevato in entrambi i test a causa della variazione della sorgente 3 che viene trattata come una vera varianza.

Metodo di prove parallele:

Un modo per evitare di avere la sorgente di errore 3 come vera varianza è usare due forme completamente equivalenti o "equivalenti" dello strumento di misura. Queste due forme dovrebbero essere il più identiche possibile, ad eccezione del fatto che elementi specifici o domande su ciascun modulo non sarebbero gli stessi, sebbene rappresenterebbero ciascuno un campione simile di elementi scelti. Una forma può essere somministrata immediatamente dopo l'altra oppure possono essere somministrate a intervalli distanziati, a seconda che si tratti di avere la variazione 2 inclusa come varianza dell'errore.

Questo tipo di affidabilità, quando viene utilizzato il test distanziato, rappresenta la valutazione più rigorosa della stabilità che può essere fatta. Tuttavia, è spesso impossibile o nel migliore dei casi estremamente difficile costruire forme alternative di uno strumento di misura.

Come si costruiscono due forme alternative ma equivalenti di una misura della prestazione lavorativa o due forme alternative di una storia personale? In molti casi non senza notevole difficoltà. Questa mancanza di un dispositivo di misurazione veramente comparabile ha indotto gli psicologi a cercare ulteriori metodi di valutazione dell'affidabilità oltre alle procedure di test-test e parallela.

Metodo di test suddiviso:

Il terzo metodo di affidabilità maggiore viene spesso definito come una misura della coerenza interna di un dispositivo di misurazione. Fornisce un'indicazione della misura in cui le persone ottengono lo stesso punteggio, l'una rispetto all'altra, su diverse suddivisioni dello strumento generale. Questo metodo è probabilmente il metodo più utilizzato per misurare l'affidabilità poiché richiede che venga creata una sola forma e che tuttavia non richieda amministrazioni ripetute di quella forma.

Le sue meccaniche sono molto semplici. Nella sua forma più elementare, il metodo di coerenza interna è la procedura di forme parallele in cui le forme parallele sono due metà dello stesso test. Questi semi-test sono selezionati in modo da essere il più equivalenti possibile, anche se spesso il test viene semplicemente diviso in due metà mettendo tutti gli elementi dispari in una metà e tutti gli oggetti pari nell'altra metà. Questa è chiamata la versione pari-dispari della tecnica divisa a metà.

È importante ricordare che la separazione del test totale in metà equivalenti si verifica solo quando si effettua il test del punteggio, non quando lo si somministra. Poiché i due sottotest hanno una lunghezza pari alla metà dell'originale, ognuno di essi rappresenta un esempio di comportamento solo la metà di quello del test totale. Quindi la correlazione (affidabilità) tra le metà è probabilmente una sottostima dell'affidabilità dei punteggi basata sull'intero test.

Per ottenere una stima dell'affidabilità del test completo, la formula di Spearman-Brown Prophecy può essere applicata come segue:

r _tt = 2r _½½ / 1 + r _½½

dove r _tt = affidabilità del test totale (stimato)

r _1/2 _1/2 = correlazione osservata tra le due metà del test.

Ad esempio, se la correlazione osservata tra le metà fosse 0, 40, la formula della profezia stimerebbe l'affidabilità del test completo come:

r _tt = 2 (0, 40) / 1 + 0. 40 = 0, 80 / 1, 40 = 0, 57

Il metodo della metà diviso fornisce quindi un metodo per stimare l'affidabilità con un singolo test e una singola amministrazione. Vi sono, tuttavia, alcuni inconvenienti al suo utilizzo. Quando si ha un test che coinvolge principalmente i fattori di velocità (come alcuni semplici test clericali), la procedura di metà percorso fornisce un risultato spurio alto.

Poiché i test di velocità di solito comportano articoli facili, è solo una questione se a loro è stata data risposta che determina se erano corretti o errati. Pertanto, suddividere il test su una base pari-dispari, per esempio, darebbe risultati virtualmente identici per entrambe le metà, quindi una correlazione altamente positiva.

Metodo Kuder-Richardson:

Un'altra versione del metodo metà divisa viene spesso utilizzata per misurare l'affidabilità. In relazione a una tecnica statistica nota come analisi della varianza, la sua forma più frequente è nota come procedura Kuder-Richardson. Il metodo Kuder-Richardson (KR) è anche un'affidabilità di coerenza interna che tratta essenzialmente ogni elemento di test come una sottotest, in modo che invece di avere due metà ci siano n sottotest, dove n è il numero totale di elementi sullo strumento di misura. La tecnica KR equivale a calcolare tutte le possibili correlazioni tra coppie di item di test (ci saranno n [n - l] / 2 di tali coppie), prendendo la media di questi e aggiustando il risultato usando la formula della profezia di Spearman-Brown

Dove

r _tt = affidabilità stimata del test totale

r _ii = correlazione media tra gli articoli

K = numero di coppie di articoli

Come la procedura di forme a metà divisa, la procedura di Kuder-Richardson ignora la sorgente di variazione 2 e non è appropriata per i test di velocità.

Un confronto riassuntivo è riportato nella Tabella 2.4. Questa tabella mostra i vari metodi di affidabilità e li confronta in termini di tipi di variazione che includono come varianza dell'errore.