Le prime 4 caratteristiche di una buona prova

Questo articolo mette in luce le quattro caratteristiche importanti di un buon test. Le quattro caratteristiche sono: 1. Affidabilità 2. Validità 3. Obiettività 4. Usabilità.

Affidabilità caratteristica 1.:

Il significato del dizionario di affidabilità è consistenza, dipendenza o fiducia. Quindi, nell'affidabilità della misurazione è la coerenza con cui un test produce lo stesso risultato nella misurazione di qualsiasi misura. Un punteggio di prova è definito affidabile quando abbiamo motivo di credere che il punteggio sia stabile e degno di fiducia. Stabilità e affidabilità dipendono dal grado in cui il punteggio è un indice di affidabilità temporale 'è esente da errori casuali. Quindi l'affidabilità può essere definita come il grado di coerenza tra due misure della stessa cosa.

Ad esempio, abbiamo somministrato un test di successo sul gruppo A e abbiamo trovato un punteggio medio di 55. Ancora una volta dopo 3 giorni abbiamo somministrato lo stesso test sul gruppo A e abbiamo trovato un punteggio medio di 55. Indica che lo strumento di misura (test di successo) sta fornendo un risultato stabile o affidabile. D'altra parte se nella seconda misura il test fornisce un punteggio medio intorno a 77, allora possiamo dire che i punteggi del test non sono coerenti.

Nelle parole di Gronlund e Linn (1995) "l'affidabilità si riferisce alla consistenza della misurazione - cioè, come i punteggi dei test coerenti o altri risultati di valutazione siano da una misurazione all'altra".

CV Good (1973) ha definito l'affidabilità come la "dignità con cui un dispositivo di misurazione misura qualcosa; il grado in cui un test o un altro strumento di valutazione misura in modo coerente qualunque cosa faccia effettivamente misurare ".

Secondo Ebel e Frisbie (1991) "il termine affidabilità significa la coerenza con la quale un insieme di punteggi dei test misura tutto ciò che misura".

Teoricamente, l'affidabilità è definita come il rapporto tra il punteggio reale e la varianza del punteggio osservato.

Secondo Davis (1946) "il grado di precisione relativa della misurazione di un insieme di punteggi del test è definito come affidabilità".

In questo modo l'affidabilità risponde alle seguenti domande:

Gronlund and Linn (1995)

Quanto sono simili i punteggi dei test se la perdita viene somministrata due volte?

Quanto sono simili i punteggi dei test se vengono somministrate due forme equivalenti di test?

In che misura i punteggi di qualsiasi test di prova. Differisce quando viene segnato da diversi insegnanti?

Non è sempre possibile ottenere risultati perfettamente coerenti. Perché ci sono diversi fattori come la salute fisica, la memoria, l'indovinare, la fatica, la dimenticanza, ecc. Che possono influenzare i risultati da una misurazione ad un'altra. Queste variabili estranee possono introdurre qualche errore nei nostri punteggi dei test. Questo errore è chiamato errore di misura. Quindi, mentre determiniamo l'affidabilità di un test, dobbiamo prendere in considerazione la quantità di errore presente nella misurazione.

Natura dell'affidabilità:

1. L'affidabilità si riferisce alla coerenza dei risultati ottenuti con uno strumento ma non lo strumento stesso

2. L'affidabilità si riferisce a una particolare interpretazione dei punteggi dei test. Ad esempio, un punteggio di prova che è affidabile per un certo periodo di tempo potrebbe non essere affidabile da un test a un altro test equivalente. In modo che l'affidabilità non può essere trattata come caratteristiche generali.

3. L'affidabilità è un concetto statistico per determinare l'affidabilità che amministriamo un test a un gruppo una o più volte. Quindi la coerenza è determinata in termini di spostamenti nella posizione relativa di una persona nel gruppo o nella quantità di variazione prevista nel punteggio di un individuo. Lo spostamento della posizione relativa di un individuo è correlato per mezzo di un coefficiente di correlazione chiamato "Coefficiente di affidabilità" e la quantità di variazione è riportata da "errore standard di misurazione". Entrambi questi processi sono statistici.

4. L'affidabilità è necessaria ma non una condizione sufficiente per la validità. Un test che non è affidabile non può essere valido. Ma non è che un test con alta affidabilità possieda un'alta validità. Perché un test altamente coerente può misurare qualcosa di diverso da quello che intendiamo misurare.

Metodi di determinazione dell'affidabilità:

Per la maggior parte dei test educativi, il coefficiente di affidabilità fornisce l'indice statistico più rivelatore di qualità che è normalmente disponibile. Le stime sull'affidabilità del test forniscono informazioni essenziali per giudicare la loro qualità tecnica e motivare gli sforzi per migliorarle. La consistenza di un punteggio di prova è espressa sia in termini di spostamenti della posizione relativa di un individuo nel gruppo o in termini di quantità di variazione nel punteggio di un individuo.

Sulla base di questa stima di affidabilità rientrano in due classificazioni generali:

(io) Reliability Reliability o Reliability Coefficient:

In questo metodo l'affidabilità è espressa in termini di un coefficiente di correlazione noto come coefficiente di affidabilità. Quindi determiniamo lo spostamento della posizione relativa del punteggio di un individuo per coefficiente di correlazione.

(ii) Affidabilità assoluta o errore standard di misurazione:

In questo metodo, l'affidabilità è espressa in termini di errore standard di misurazione. Indica la quantità di variazione del punteggio di un individuo.

Metodi di determinazione dell'affidabilità relativa o del coefficiente di affidabilità:

Per determinare il coefficiente di affidabilità dobbiamo ottenere due serie di misure in condizioni identiche e quindi confrontare i due gruppi. Ma è solo una condizione teorica, perché da parte nostra è impossibile ottenere due misurazioni esattamente su due condizioni identiche. In modo che diversi metodi sono stati sviluppati per determinare l'affidabilità relativa.

Sono come segue (Gronlund e Linn-1995):

(i) La stessa forma di test può essere somministrata due volte allo stesso gruppo di individui.

(Ii) Due forme separate ma equivalenti del test possono essere somministrate agli stessi individui.

(iii) Gli elementi di prova di un singolo test sono divisi in due set separati e i punteggi di due set sono correlati.

I metodi sono simili in quanto tutti implicano la correlazione di due serie di dati, ottenuti dallo stesso strumento di valutazione o da forme equivalenti della stessa procedura. Questo coefficiente di affidabilità deve essere interpretato in termini dei tipi di coerenza oggetto di indagine.

Diversi tipi di consistenza sono determinati con metodi diversi. Questi sono i seguenti:

1. Consistenza per un periodo di tempo.

2. Coerenza rispetto a diverse forme di strumento.

3. Coerenza all'interno dello strumento stesso

Esistono quattro metodi per determinare il coefficiente di affidabilità, ad esempio:

(a) Metodo Test-Retest.

(b) Metodo di forme equivalenti / forme parallele.

(c) Metodo metà diviso.

(D) Metodo Rational Equivalence / Kuder-Richardson.

(a) Metodo Test-Retest:

Questo è il metodo più semplice per determinare l'affidabilità del test. Per determinare l'affidabilità in questo metodo, il test viene dato e ripetuto sullo stesso gruppo. Quindi si ottiene la correlazione tra la prima serie di punteggi e la seconda serie di punteggi.

Un alto coefficiente di correlazione indica un'alta stabilità dei punteggi dei test. Nelle parole di Gronlund, le misure di stabilità negli anni 80 e 90 vengono comunemente riportate per test standardizzati in più occasioni nello stesso anno. Ma questo metodo soffre di alcuni seri inconvenienti. Prima di tutto quale dovrebbe essere l'intervallo tra due amministrazioni.

Se viene somministrato entro un breve intervallo di tempo, diciamo un giorno o due, allora l'alunno ricorderà le loro prime risposte e passerà il tempo su un nuovo materiale. Tenderà ad aumentare il loro punteggio nelle seconde amministrazioni. Se l'intervallo è troppo lungo, diciamo un anno, quindi l'effetto di maturazione influenzerà i punteggi di retest e tenderà ad aumentare i punteggi di retest.

In entrambi i casi tenderà ad abbassare l'affidabilità. Quindi, quale dovrebbe essere il divario temporale tra due amministrazioni dipende in gran parte dall'uso e dall'interpretazione dei punteggi dei test. A causa delle sue difficoltà nel controllo delle condizioni che influenzano i punteggi del test, riduce l'uso del metodo test-retest nella stima del coefficiente di affidabilità.

(b) Metodo di forme equivalenti / forme parallele:

L'affidabilità dei punteggi dei test può essere stimata con il metodo di forme equivalenti. È anche noto come metodo di forme alternative o forme parallele. Quando si possono costruire due forme equivalenti di test, la correlazione tra i due può essere presa come misura dell'autocorrelazione del test. In questo processo due forme parallele di test vengono somministrate allo stesso gruppo di alunni in un breve intervallo di tempo, quindi i punteggi di entrambi i test sono correlati. Questa correlazione fornisce l'indice di equivalenza. Solitamente in caso di test psicologici e di conseguimento standardizzati sono disponibili le forme equivalenti.

Entrambi i test selezionati per l'amministrazione dovrebbero essere paralleli in termini di contenuto, difficoltà, formato e lunghezza. Quando viene fornito il divario temporale tra le amministrazioni di due tipi di test, il coefficiente dei punteggi del test fornisce una misura di affidabilità ed equivalenza. Ma il principale svantaggio di questo metodo è ottenere due forme parallele di test. Quando i test non sono esattamente uguali in termini di contenuto, difficoltà, lunghezza e confronto tra i punteggi ottenuti da questi test possono portare a decisioni errate.

(c) Metodo metà scissione:

Esistono anche metodi con cui l'affidabilità può essere determinata da una singola amministrazione di un singolo test. Uno di questi metodi è il metodo metà diviso. In questo metodo un test viene somministrato a un gruppo di alunni nel modo usuale. Quindi il test è diviso in due valori equivalenti e la correlazione per questi semi-test è stata trovata.

La procedura comune per dividere il test consiste nel prendere tutti gli elementi con numero dispari, ad esempio 1, 3, 5, ecc. A metà e tutti gli elementi pari, ad esempio 2, 4, 6, 8, ecc. Nell'altra metà. Poi i punteggi di entrambi le metà sono correlate usando la formula di Spearman-Brown.

Ad esempio correlando entrambe le metà abbiamo trovato un coefficiente di 0, 70.

Usando la formula (5.1) possiamo ottenere il coefficiente di affidabilità sul test completo come:

Il coefficiente di affidabilità .82 quando il coefficiente di correlazione tra mezzo test è 0, 70. Indica fino a che punto il campione di elementi di prova è un campione affidabile del contenuto da misurare: la coerenza interna.

Gronlund (1995) è dell'opinione che "la metà parziale della passività tende ad essere superiore a quella della forma equivalente, poiché il metodo della metà scissione si basa sulla somministrazione di un singolo modulo di test." Questo metodo supera il problema del metodo delle forme equivalenti introdotto a causa delle differenze tra forma e forma, attenzione, velocità di lavoro, sforzo, fatica e contenuto del test, ecc.

(d) Metodo Rational Equivalent / Kuder Richardson:

L'equivalenza razionale è un altro metodo per determinare l'affidabilità utilizzando la formula sviluppata da Kuder e Richardson. Come il metodo metà diviso, questo metodo fornisce anche una misura della coerenza interna. Non richiede né l'amministrazione di due forme equivalenti di test, né richiede dividere i test in due parti uguali. Il coefficiente di affidabilità è determinato usando la formula 20 di Kuder-Richardson che si legge in questo modo.

Questo metodo fornisce informazioni sul grado in cui gli elementi nel test misurano caratteristiche simili. Sebbene la semplicità dell'applicazione di questo metodo l'abbia resa ancora più diffusa, presenta alcune limitazioni.

1. Il metodo Kuder-Richardson e il metodo metà diviso non sono appropriati per i test di velocità.

2. Sia il metodo Kuder-Richardson che quello parziale non misurano la coerenza della risposta dell'alunno da un giorno all'altro.

3. Il metodo di Kuder-Richardson è complicato da calcolare a meno che non siano già disponibili informazioni relative alla percentuale di passaggio.

Metodi di determinazione dell'affidabilità assoluta o errori standard di misurazione:

Se dovessimo somministrare un test ripetutamente, troveremo qualche variazione nei punteggi. Perché il punteggio ottenuto è un indice del vero punteggio del candidato più: errori di misurazione. HE Garrett (1985) ha definito un punteggio vero come "una misura che si otterrebbe prendendo la media di un numero infinito di misure di un dato individuo su test simili in condizioni simili. Un vero punteggio non può, ovviamente, essere determinato sperimentalmente " .

Se il punteggio del test include un grande componente di errore, la sua affidabilità è bassa e se include un po 'di errori la sua affidabilità è alta. Pertanto, l'entità del superamento di un punteggio vero, l'errore nei punteggi ottenuti può essere indicato dal coefficiente di affidabilità.

Questa relazione tra punteggio vero, punteggi ottenuti e l'errore può essere espressa matematicamente come segue:

Possiamo scoprire l'errore standard di misura (SE) quando viene indicato il coefficiente di affidabilità e la deviazione standard della distribuzione.

La formula (Garrett-1985) per calcolare l'errore standard di misurazione è la seguente:

Ad esempio, in un gruppo di 200 studenti delle scuole superiori, il coefficiente di affidabilità di un test di rendimento in matematica è 70, Media = 65 e o = 20. Lipu raggiunge un punteggio di 60. Qual è la SE di questo punteggio.

Inserendo il valore nella formula (5.3):

Quindi il punteggio reale di Lipu è 60 ± 10.95, ovvero 70.50 - 49.05.

Nessun punteggio ottenuto ci dice quale sia il vero punteggio, ma la conoscenza del SE indica la differenza tra il punteggio ottenuto e il punteggio vero. Quando la SE è piccola, indica che il punteggio reale è più vicino al punteggio ottenuto e indica anche se la differenza tra i punteggi di due individui è la differenza reale o la differenza a causa di errori di misurazione.

Fattori che influenzano l'affidabilità:

Ci sono una serie di fattori che influenzano le misure di affidabilità. In questo modo, quando interpretiamo e usiamo i punteggi, dobbiamo essere cauti e manipolare questi fattori attraverso la preparazione e l'amministrazione dei test.

I principali fattori che influenzano l'affidabilità del test, i punteggi possono essere classificati in tre sezioni:

1. Fattori relativi al test.

2. Fattori relativi al testee.

3. Fattori relativi alla procedura di test.

1. Fattori relativi al test:

(a) Durata del test:

La formula di Spearman Brown indica che più lungo è il test, maggiore sarà l'affidabilità. Perché un test più lungo fornirà un campione adeguato del comportamento. Un'altra causa è che il fattore di induzione è suscettibile di essere neutralizzato in un test più lungo.

Per esempio se dovremo dare un calcolo per misurare l'abilità numerica degli studenti. Coloro che hanno calcolato correttamente sono perfetti nella capacità numerica quelli che hanno fallito sono fallimenti completi. Se il calcolo è difficile, la maggior parte degli studenti fallirà. Se è facile, la maggior parte degli studenti calcolerà correttamente. In questo modo, il singolo elemento non dà mai un risultato affidabile.

(b) Contenuto del test:

Secondo Guilford, l'omogeneità del contenuto dei test aumenta anche l'affidabilità dei punteggi dei test. Un test di 50 item su Vedic Civilization fornirà punteggi più affidabili di un test di 50 item sulla storia indiana. Secondo Ebel (1991) "l'argomento in alcuni corsi, come la matematica e la lingua straniera, è più strettamente organizzato, con maggiore interdipendenza di fatti, abilità e risultati dei principi, che nella letteratura o nella storia della materia." Quindi questa omogeneità del contenuto è anche un fattore che risulta essere altamente affidabile.

(c) Caratteristiche degli articoli:

Il livello di difficoltà e la chiarezza di espressione di un elemento di prova influiscono anche sull'affidabilità dei punteggi dei test. Se gli elementi del test sono troppo facili o difficili per i membri del gruppo, tenderà a produrre punteggi di scarsa affidabilità. Poiché entrambi i test hanno una diffusione limitata dei punteggi.

(d) Spread of Scores:

Secondo Gronlund e Minn (1995) "a parità di altre condizioni, maggiore è la diffusione dei punteggi più alta sarà la stima di affidabilità." Quando la diffusione dei punteggi è ampia, c'è una maggiore possibilità per un individuo di rimanere nello stesso posizione relativa in un gruppo da una prova all'altra. Possiamo dire che gli errori di misura influiscono meno sulla posizione relativa dell'individuo quando la diffusione dei punteggi è ampia.

Ad esempio, nel gruppo A gli studenti hanno ottenuto voti che vanno da 30 a 80 e nello studente del gruppo B hanno voti garantiti che vanno da 65 a 75. Se dovessimo somministrare i test per la seconda volta nel gruppo A, i punteggi dei test individuali potrebbero variare di diversi punti, con pochissimo spostamento nella posizione relativa dei membri del gruppo. È perché la diffusione dei punteggi nel gruppo A è grande.

D'altro canto, i punteggi nel gruppo B hanno maggiori probabilità di spostare le posizioni su una seconda somministrazione del test. Poiché la diffusione dei punteggi è di soli 10 punti dal punteggio più alto al punteggio più basso, quindi il cambiamento di pochi punti può portare cambiamenti radicali nella posizione relativa degli individui. Quindi maggiore è la diffusione è l'affidabilità.

2. Fattori relativi al testee:

Anche la variabilità del rendimento, la saggezza degli individui e la motivazione degli studenti influenzano l'affidabilità dei punteggi dei test.

Di seguito sono riportati alcuni dei fattori importanti con il paziente che influiscono sull'affidabilità del test:

(a) Eterogeneità del gruppo:

Quando il gruppo è un gruppo omogeneo, è probabile che la diffusione dei punteggi del test sia inferiore e quando il gruppo sottoposto a test è un gruppo eterogeneo, è probabile che la diffusione dei punteggi sia maggiore. Pertanto il coefficiente di affidabilità per un gruppo eterogeneo sarà più che un gruppo omogeneo.

(b) Test di saggezza degli studenti:

L'esperienza nell'assunzione del test influisce anche sull'affidabilità dei punteggi dei test. La pratica degli studenti nell'effettuare test sofisticati aumenta l'affidabilità del test. Ma quando in un gruppo tutti gli studenti non hanno lo stesso livello di saggezza del test, ciò porta a maggiori errori di misurazione.

(c) Motivazione degli studenti:

Quando gli studenti non sono motivati ​​a fare il test, non rappresenteranno il loro miglior risultato. Questo deprime i punteggi del test.

3. Fattori relativi alla procedura di prova:

Poiché i fattori relativi ai test e i fattori relativi ai testee influiscono sull'affidabilità dei punteggi dei test, anche i fattori relativi alla procedura di test influenzano anche i punteggi dei test. Se gli utenti del test possono controllare questi fattori, possono aumentare la coerenza dei punteggi del test.

(a) Limite di tempo del test:

Secondo Ebel e Frisbie (1991) "i punteggi di un test dato in condizioni molto veloci mostreranno di solito un coefficiente di affidabilità di consistenza interna più elevato di quello che si otterrebbe per i punteggi dello stesso test dati allo stesso gruppo sotto limiti di tempo più generosi." quando gli studenti hanno più tempo per fare il test possono fare più ipotesi, il che potrebbe aumentare i punteggi dei test. Pertanto accelerando un test possiamo aumentare l'affidabilità del test.

(b) opportunità barare data agli studenti:

Imbrogliare dagli studenti durante l'amministrazione del test porta a errori di misurazione. Alcuni studenti possono fornire una risposta corretta copiandoli da fogli di trucchi o ascoltando da altri studenti senza conoscere la risposta corretta. Ciò causerà un punteggio più alto di quegli studenti rispetto a quello che effettivamente meritano. Questo renderà il punteggio osservato degli imbroglioni più alto del loro vero punteggio.

Quanto più alta dovrebbe essere l'affidabilità?

Ovviamente i dispositivi di valutazione non sono mai perfettamente affidabili. Quanto possa essere inaffidabile un test e comunque utile dipende principalmente dalla finezza della discriminazione desiderata dai punteggi del test. (Remers 1967) Il grado di coefficiente di affidabilità dipende dalla natura del test, dalle dimensioni e dalla variabilità del gruppo, dallo scopo per il quale è stato somministrato il test e dal metodo utilizzato per la stima dell'affidabilità. Un test con bassa affidabilità può avere una validità maggiore e quindi può essere utilizzato. Ma nelle parole di Remmers (1967) "la maggior parte dei test standardizzati pubblicati per uso scolastico hanno coefficienti di affidabilità di almeno .80 nella popolazione per la quale sono progettati.

Quando si sceglie un test standardizzato sull'interpretazione dei suoi risultati, non è sufficiente guardare solo il valore numerico della stima dell'affidabilità, bisogna anche tener conto di come è stata ottenuta tale stima. Gronlund (1976) ha sottolineato l'importanza dei metodi di stima dell'affidabilità.

Secondo lui "il metodo metà diviso dà i più grandi valori numerici al coefficiente di affidabilità. Il metodo delle forme equivalenti e il test di retest tendono a dare un valore numerico inferiore al coefficiente di affidabilità. In genere questi due metodi forniscono un coefficiente di affidabilità medio-grande. Il metodo delle forme equivalenti in genere fornisce il coefficiente di affidabilità più piccolo per un dato test. "

Pertanto si può affermare che l'insegnante dovrebbe cercare un test standardizzato la cui affidabilità sia la più elevata possibile. Ma deve interpretare questo coefficiente di affidabilità alla luce dei gruppi di alunni su cui si basa, della variabilità di questo gruppo e dei metodi di stima dell'affidabilità.

Caratteristica # 2. Validità:

"Nella selezione o nella costruzione di uno strumento di valutazione, la domanda più importante è; In che misura i risultati serviranno agli usi particolari per i quali sono destinati? Questa è l'essenza della validità. " -GRONLUND

La validità è la caratteristica più importante di un programma di valutazione, perché a meno che un test sia valido non serve alcuna funzione utile. Psicologi, educatori, consulenti di orientamento utilizzano i risultati dei test per una varietà di scopi. Ovviamente, nessuna finalità può essere soddisfatta, anche parzialmente, se i test non hanno un grado di validità sufficientemente elevato. Validità significa verità-pienezza di un test. Significa in che misura il test misura ciò che, ciò che il test maker intende misurare.

Comprende due aspetti:

Cosa viene misurato e come viene misurato in modo coerente. Non è una caratteristica del test, ma si riferisce al significato dei punteggi del test e al modo in cui utilizziamo i punteggi per prendere decisioni. A seguito delle definizioni fornite dagli esperti fornirà un quadro chiaro di validità.

Gronlund e Linn (1995) - "La validità si riferisce all'adeguatezza dell'interpretazione fatta dai punteggi dei test e altri risultati di valutazione in relazione a un uso particolare."

Ebel e Frisbie (1991) - "Il termine validità, quando applicato a un insieme di punteggi di test, si riferisce alla coerenza (accuratezza) con cui i punteggi misurano una particolare capacità cognitiva di interesse."

CV Good (1973) -Nel dizionario dell'istruzione definisce la validità come "la misura in cui un test o un altro strumento di misura soddisfa lo scopo per cui viene utilizzato".

Anne Anastasi (1969) scrive "la validità di un test riguarda ciò che il test misura e quanto bene lo fa".

Secondo Davis (1964) la validità è la misura in cui l'ordine di rango dei punteggi degli esaminati per i quali un test è appropriato è lo stesso dell'ordine di rango degli stessi esaminati nella proprietà o caratteristica che il test viene utilizzato per misurare . Questa proprietà o caratteristica è chiamata il criterio. Poiché qualsiasi test può essere usato per molti scopi diversi, ne consegue che può avere molte validità uno corrispondente a ciascun criterio. "

Freeman (1962) definisce "un indice di validità indica il grado in cui un test misura ciò che intende misurare, se confrontato con i criteri accettati".

Lindquist (1942) ha affermato che "la validità di un test può essere definita come l'accuratezza con cui misura ciò che è destinato a misurare, o il grado in cui si avvicina all'infallibilità nel misurare ciò che intende misurare".

Dalle definizioni di cui sopra è chiaro che la validità di un dispositivo di valutazione è il grado in cui misura ciò che si intende misurare. La validità riguarda sempre l'uso specifico dei risultati e la solidità della nostra interpretazione proposta.

Inoltre, non è necessario che un test affidabile sia valido. Ad esempio supponiamo che un orologio sia impostato in avanti di dieci minuti. Se l'orologio è un buon pezzo, il tempo che ci dice sarà affidabile. Perché dà un risultato costante. Ma non sarà valido come giudicato dal 'tempo standard'. Questo indica "il concetto che l'affidabilità è una condizione necessaria ma non sufficiente per la validità".

Natura della validità:

1. La validità si riferisce all'adeguatezza dei risultati del test ma non allo strumento stesso.

2. La validità non esiste su base tutto o niente, ma è una questione di grado.

3. I test non sono validi per tutti gli scopi. La validità è sempre specifica per l'interpretazione particolare. Ad esempio, i risultati di un test di vocabolario possono essere molto validi per testare il vocabolario, ma potrebbero non essere così validi per testare la capacità di composizione dello studente.

4. La validità non è di tipi diversi. È un concetto unitario. Si basa su vari tipi di prove.

Fattori che influenzano la validità:

Come l'affidabilità ci sono anche diversi fattori che influenzano la validità dei punteggi dei test. Ci sono alcuni fattori sui quali siamo attenti e possiamo evitare facilmente. Ma ci sono alcuni fattori sui quali siamo ignoranti e rende i risultati del test non validi, per l'uso previsto.

Alcuni di questi fattori sono i seguenti:

1. Fattori nel test:

(i) Indicazioni poco chiare agli studenti per rispondere al test.

(ii) Difficoltà nel leggere il vocabolario e la struttura della frase.

(iii) Oggetti di prova troppo facili o troppo difficili.

(iv) Dichiarazioni ambigue negli articoli del test.

(v) Elementi di test non appropriati per misurare un risultato particolare.

(Vi) Tempo insufficiente fornito per sostenere il test.

(vii) La durata del test è troppo breve.

(viii) Elementi di prova non disposti in ordine di difficoltà.

(ix) Schema identificativo di risposte.

Fattori in Test Administration and Scoring:

(i) Aiuti ingiusti a singoli studenti, che chiedono aiuto,

(ii) Barare dagli studenti durante i test.

(iii) Punteggio non attendibile delle risposte del tipo di saggio.

(iv) Tempo insufficiente per completare il test.

(v) Condizioni fisiche e psicologiche avverse al momento del test.

Fattori relativi a Testee:

(i) Prova l'ansia degli studenti.

(ii) stato fisico e psicologico dell'alunno,

(iii) Set di risposta: una tendenza costante a seguire un certo schema nel rispondere agli elementi.

3. Obiettività caratteristica:

L'oggettività è una caratteristica importante di un buon test. Colpisce sia la validità che l'affidabilità dei punteggi dei test. L'oggettività di uno strumento di misura è il grado in cui diverse persone che classificano la ricevuta della risposta arrivano allo stesso risultato. CV Good (1973) definisce l'oggettività nel test "la misura in cui lo strumento è privo di errori personali (pregiudizi personali), cioè soggettività da parte del segnapunti".

Gronlund e Linn (1995) affermano che "l'obiettività di un test si riferisce al grado in cui i punteggi altrettanto competenti ottengono gli stessi risultati. Quindi un test è considerato obiettivo quando si effettua l'eliminazione dell'opinione personale del segnapunti e il giudizio di bias. In questo contesto ci sono due aspetti dell'oggettività che dovrebbero essere tenuti presenti durante la costruzione di un test. "

(i) Obiettività nel punteggio.

(ii) Obiettività nell'interpretazione degli elementi di prova da parte del paziente.

(i) Obiettività del punteggio:

L'obiettività del punteggio indica che la stessa persona o persone diverse che hanno effettuato il test in qualsiasi momento arrivano allo stesso risultato senza il rischio di errore. Un test per essere oggettivo deve necessariamente così formulato che può essere data solo una risposta corretta. In altre parole, il giudizio personale dell'individuo che ha segnato lo script di risposta non dovrebbe essere un fattore che influenza i punteggi del test. In modo che il risultato di un test può essere ottenuto in modo semplice e preciso se la procedura di punteggio è oggettiva. La procedura di punteggio dovrebbe essere tale che non ci dovrebbero essere dubbi sul fatto che un articolo sia giusto o sbagliato o in parte giusto o parzialmente sbagliato.

(ii) Obiettività degli elementi di prova:

Per oggettività dell'oggetto intendiamo che l'oggetto deve richiedere una risposta unica definita. Gli articoli di prova ben strutturati dovrebbero condurre a una sola interpretazione degli studenti che conoscono il materiale coinvolto. Significa che gli elementi di prova dovrebbero essere liberi da ambiguità. Un determinato item di test dovrebbe significare la stessa cosa per tutti gli studenti che il test maker intende chiedere. Le frasi a doppio significato, gli articoli con più di una risposta corretta non dovrebbero essere inclusi nel test in quanto rende soggettivo il test.

Caratteristica # 4. Usabilità:

L'usabilità è un'altra caratteristica importante degli strumenti di misura. Perché non si possono trascurare considerazioni pratiche sugli strumenti di valutazione. Il test deve avere valore pratico dal punto di vista del tempo, dell'economia e dell'amministrazione. Questo può essere definito come usabilità.

Quindi mentre costruisci o selezioni un test, i seguenti aspetti pratici devono essere presi in considerazione:

(i) Facilità di amministrazione:

Significa che il test dovrebbe essere facile da amministrare in modo che gli insegnanti di classe generale possano usarlo. Pertanto dovrebbero essere fornite indicazioni semplici e chiare. Il test dovrebbe avere pochissimi sottotest. I tempi del test non dovrebbero essere troppo difficili.

(ii) Tempo richiesto per la somministrazione:

Dovrebbe essere fornito il limite di tempo appropriato per sostenere il test. Se per avere un tempo sufficiente per sostenere il test, il test sarà più breve dell'affidabilità del test. Gronlund e Linn (1995) sono del parere che "Da qualche parte tra 20 e 60 minuti di tempo di test per ogni singolo punteggio prodotto da un test pubblicato è probabilmente una guida abbastanza buona".

(iii) facilità di interpretazione e applicazione:

Un altro aspetto importante dei punteggi dei test è l'interpretazione dei punteggi dei test e l'applicazione dei risultati dei test. Se i risultati vengono interpretati erroneamente, è invece dannoso se non viene applicato, quindi è inutile.

(iv) Disponibilità di moduli equivalenti:

I test di forme equivalenti aiutano a verificare i punteggi dei test discutibili. Aiuta anche a eliminare il fattore di memoria mentre ritenta gli alunni sullo stesso dominio di apprendimento. Pertanto dovrebbero essere disponibili forme equivalenti della stessa prova in termini di contenuto, livello di difficoltà e altre caratteristiche.

(v) Costo del test:

Un test dovrebbe essere economico dal punto di vista della preparazione, dell'amministrazione e del punteggio.