Đánh Giá Chất Lượng Ngân Hàng Câu Hỏi

Tổng Quan Lý Thuyết Đánh Giá Câu Hỏi

Hai phương pháp tiêu chuẩn quốc tế được SmartTest tích hợp để phân tích chất lượng ngân hàng câu hỏi toàn diện.

📐 CTT – Classical Test Theory (Lý thuyết Khảo thí Cổ điển)

CTT phân tích câu hỏi dựa trên điểm số quan sát của toàn nhóm thí sinh. Các chỉ số mang tính phụ thuộc mẫu – thay đổi khi nhóm thí sinh thay đổi.

🎯

Độ khó (p – Difficulty Index) Tỉ lệ thí sinh trả lời đúng. p = 0,3–0,7 là lý tưởng

⚖️

Độ phân biệt (D – Discrimination Index) Chênh lệch tỉ lệ đúng nhóm cao–thấp. D ≥ 0,30 là tốt

🔗

Tương quan biserial điểm (r_pbis) Tương quan câu–tổng điểm. r ≥ 0,25 là chấp nhận được

🔀

Phân tích phương án nhiễu (Distractor Analysis) Đánh giá tính hấp dẫn của các phương án sai

p = n_đúng / N_tổng

D = p_cao − p_thấp

α = (n/n−1) × (1 − Σσᵢ²/σ²_X)

📈 IRT – Item Response Theory (Lý thuyết Đáp ứng Câu hỏi)

IRT mô hình hóa xác suất trả lời đúng theo năng lực (θ) của thí sinh. Tham số câu hỏi bất biến mẫu – ổn định hơn CTT khi so sánh nhóm.

🏔️

Tham số độ khó (b) Mức năng lực θ mà thí sinh có 50% cơ hội đúng. b ∈ [−3, 3]

📐

Tham số phân biệt (a) Độ dốc của đường ICC. a ≥ 0,8 là chấp nhận được

🎲

Tham số đoán mò (c – Guessing) Xác suất đúng ngẫu nhiên. c ≤ 0,25 với trắc nghiệm 4 phương án

ℹ️

Hàm thông tin câu (IIF) & bài thi (TIF) Đo lường độ chính xác ước lượng năng lực theo từng mức θ

P(θ) = c + (1−c) × 1/(1 + e^−a(θ−b))

I(θ) = a² × P(θ)(1−P(θ)) / (P(θ)−c)² × (1−c)²

So sánh CTT và IRT

Tiêu chí	CTT	IRT (1PL/2PL/3PL)
Phụ thuộc mẫu	✗ Phụ thuộc cao	✓ Bất biến mẫu
Yêu cầu cỡ mẫu	✓ N ≥ 30–50	✗ N ≥ 200–500
Độ phức tạp tính toán	✓ Đơn giản	✗ Phức tạp (MLE/Bayesian)
Đo lường năng lực cá nhân	~ Gián tiếp qua tổng điểm	✓ Trực tiếp (θ estimation)
Thiết kế đề thi thích nghi (CAT)	✗ Không hỗ trợ	✓ Nền tảng của CAT
Phân tích phương án nhiễu	✓ Dễ thực hiện	~ Cần Nominal Response Model
Phù hợp với SmartTest	✓ Phân tích nhanh, báo cáo GV	✓ Chuẩn hóa NH câu hỏi, IRT-CAT

Tiêu chí đánh giá câu hỏi – Ngưỡng khuyến nghị (SmartTest)

📐 Tiêu chí CTT

Chỉ số	Tốt	Chấp nhận	Loại bỏ
Độ khó (p)	0,30 – 0,70	0,20–0,30 \| 0,70–0,80	<0,20 \| >0,80
Phân biệt (D)	≥ 0,30	0,20–0,29	<0,20
r_pbis	≥ 0,30	0,20–0,29	<0,20
Cronbach's α	≥ 0,80	0,70–0,79	<0,70

📈 Tiêu chí IRT (3PL)

Tham số	Tốt	Chấp nhận	Xem xét lại
Độ khó (b)	−1,5 đến 1,5	±1,5–2,5	\|b\| > 2,5
Phân biệt (a)	0,8 – 2,5	0,5–0,8	< 0,5
Đoán mò (c)	≤ 0,20	0,20–0,25	> 0,25
Infit/Outfit MNSQ	0,7 – 1,3	1,3–1,5	> 1,5

Kết Quả Phân Tích CTT – Classical Test Theory

Phân tích 20 câu hỏi trắc nghiệm với N = 200 sinh viên. Dữ liệu được xử lý bởi module SmartTest Analytics.

0.782

Cronbach's Alpha

Độ tin cậy bài thi

0.487

Độ khó trung bình

Mean p = 0.487

0.342

Phân biệt trung bình

Mean D = 0.342

14/20

Câu đạt chuẩn

70% câu hỏi chất lượng tốt

Bảng Phân Tích CTT – 20 Câu Hỏi

Tốt (Đạt chuẩn)

Cần xem xét

Cần chỉnh sửa/loại

Câu	Nội dung tóm tắt	Độ khó (p)	Phân biệt (D)	r_pbis	α if Deleted	Nhiễu A	Nhiễu B	Nhiễu C	Đánh giá

Phân tích Phương án Nhiễu (Distractor Analysis) – Câu Q06 (Cần chỉnh sửa)

Câu Q06 có độ phân biệt thấp (D = 0.14). Phân tích phương án cho thấy phương án nhiễu C* (đáp án đúng) thu hút ít hơn phương án B ở nhóm năng lực cao – dấu hiệu câu hỏi có vấn đề về nội dung hoặc cách diễn đạt.

Nhóm	PA A	PA B	PA C* ✓	PA D	Bỏ qua
Cao (n=50)	18%	32%	36%	12%	2%
TB (n=100)	22%	28%	30%	18%	2%
Thấp (n=50)	26%	20%	22%	30%	2%

⚠️ Phát hiện

🔴

Phương án B có sức thu hút cao hơn đáp án đúng ở nhóm năng lực cao (32% vs 36%)Phương án B có thể quá gần với đáp án đúng hoặc có lỗi nội dung khiến sinh viên giỏi bị phân tâm.

🟡

Phương án A và D không có sức nhiễu tốtTỉ lệ chọn tương đồng ở các nhóm, không phân biệt được năng lực.

✅

Khuyến nghị: Chỉnh sửa diễn đạt PA B và xem lại PA đáp án C*Tham khảo hội đồng chuyên môn, có thể cần đổi đáp án hoặc viết lại câu.

Kết Quả Phân Tích IRT – Item Response Theory (3PL)

Ước lượng tham số IRT bằng phương pháp MLE (Maximum Likelihood Estimation) – mô hình 3 tham số (3PL). Sử dụng engine phân tích tích hợp SmartTest.

−0.12

Mean θ thí sinh

Gần 0 = phù hợp khó

1.24

Mean a (phân biệt)

Phân biệt tốt

0.063

Mean c (đoán mò)

Thấp – ổn định

12/20

Câu Fit Model

Infit MNSQ ≤ 1.30

Bảng Tham Số IRT – Mô hình 3PL

■ a = Discrimination ■ b = Difficulty (logit) ■ c = Guessing

Fit tốt (MNSQ ≤ 1.30)

Misfit (MNSQ > 1.30)

Câu	a (Discrimination)	b (Difficulty)	c (Guessing)	SE(b)	Infit MNSQ	Outfit MNSQ	IIF Peak	θ at Peak	Model Fit

Giải thích đường đặc trưng câu (ICC) – Câu Q01 vs Q06 vs Q14

Q01 – Câu đạt chuẩn tốt ✓ Fit

a=1.42, b=−0.31, c=0.05 → Đường S-dốc rõ ràng, phân biệt năng lực tốt từ θ = −0.5 đến 0.5

Q06 – Câu cần chỉnh sửa ✗ Misfit

a=0.41, b=0.12, c=0.22 → Đường gần phẳng, c cao → Khả năng đoán mò lớn, không phân biệt

Q14 – Câu khó, phân biệt tốt ✓ Fit

a=1.87, b=1.52, c=0.04 → Câu khó, dành cho năng lực cao (θ > 0.8), IIF peak ở θ = 1.5

Biểu Đồ Phân Tích Chất Lượng

Trực quan hóa toàn diện các chỉ số CTT và IRT giúp giảng viên và cán bộ khảo thí nhanh chóng nhận diện câu hỏi cần cải thiện.

Phân phối Độ khó (p) – CTT Mục tiêu: 0.3–0.7

Phân phối Độ phân biệt (D) – CTT Mục tiêu: D ≥ 0.30

Scatter: Độ khó vs Phân biệt (CTT) Vùng lý tưởng: p∈[0.3,0.7], D≥0.30

Scatter: b (IRT) vs a (IRT) Mapping tham số 3PL

Phân phối điểm thi (N=200) Đường chuẩn tắc chồng phủ

Test Information Function (TIF) – IRT Mức thông tin theo năng lực θ

Hệ số Cronbach's Alpha nếu Xóa từng Câu (Alpha-if-Item-Deleted) Đường ngang = α hiện tại = 0.782

Tỉ lệ đánh giá chất lượng câu hỏi (CTT) Phân loại theo tiêu chuẩn

r_pbis từng câu (Tương quan câu-tổng) Ngưỡng: 0.25 (vàng), 0.30 (xanh)

🎓

SmartTest Analytics TEX Vietnam Technology JSC – Hệ thống Quản lý Đánh giá Thông minh

BÁO CÁO ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI & NGÂN HÀNG CÂU HỎI

📚 Môn học: Toán ứng dụng (MATH201)

📅 Kỳ thi: HK1 – 2024–2025

👥 Số thí sinh: 200

📋 Số câu hỏi: 20

⏱️ Phương thức: Trắc nghiệm 4 phương án

📊 Phương pháp: CTT + IRT 3PL

I. KẾT QUẢ TỔNG QUAN

62.4%

Điểm trung bình

SD = 14.3%

0.782

Cronbach's α

Độ tin cậy chấp nhận

0.487

Độ khó TB

Vừa phải

0.342

Phân biệt TB

Tốt

II. ĐÁNH GIÁ PHÂN LOẠI CÂU HỎI

12

✅ Câu hỏi ĐẠT CHUẨN

60% – Cả CTT lẫn IRT đều tốt

5

⚠️ Cần XEM XÉT LẠI

25% – Một tiêu chí chưa đạt

3

🔴 Cần CHỈNH SỬA

15% – Nhiều tiêu chí không đạt

III. PHÂN TÍCH CHI TIẾT THEO NHÓM VẤN ĐỀ

Câu hỏi cần loại bỏ hoặc viết lại (Q06, Q11, Q17)

Câu	Vấn đề CTT	Vấn đề IRT	Khuyến nghị
Q06	p=0.71, D=0.14, r=0.18 – Quá dễ, phân biệt kém	a=0.41, c=0.22 – Phân biệt thấp, đoán mò cao	Viết lại toàn bộ
Q11	p=0.81, D=0.10, r=0.12 – Quá dễ	b=−2.41, Outfit=1.67 – Không phù hợp model	Điều chỉnh độ khó
Q17	p=0.19, D=0.18 – Quá khó	b=2.61, SE=0.42 – Ước lượng không ổn định	Đơn giản hóa câu

Câu hỏi cần xem xét (Q02, Q08, Q13, Q15, Q19)

Các câu này đạt một số tiêu chí nhưng có 1–2 chỉ số nằm vùng biên. Nên giữ lại với điều chỉnh nhỏ:

Q02: D = 0.24 (cận ngưỡng) Q08: c = 0.23 (đoán mò hơi cao) Q13: Infit = 1.38 (cận misfit) Q15: r = 0.22 (cần cải thiện nhiễu) Q19: p = 0.28 (hơi khó)

IV. ĐÁNH GIÁ ĐỘ TIN CẬY ĐỀ THI

Hệ số Cronbach's α = 0.782 cho thấy bài thi có độ tin cậy chấp nhận được (ngưỡng khuyến nghị ≥ 0.70 cho thi thành tích, ≥ 0.80 cho thi quan trọng). Để đạt α ≥ 0.80, cần:

✅

Thay thế 3 câu kém chất lượng bằng câu mớiƯớc tính α tăng lên ~0.81–0.83

🟡

Tăng số câu lên 25–30 câuTheo Spearman-Brown, α ước tính đạt 0.85+

📊 Chỉ số độ tin cậy

Cronbach's Alpha0.782

KR-20 (Kuder-Richardson)0.779

Split-half (Spearman-Brown)0.764

Standard Error of MeasurementSE = 4.82 điểm

Khoảng tin cậy 95%± 9.5 điểm

V. KHUYẾN NGHỊ VÀ LỘ TRÌNH CẢI THIỆN

🔴

Ngắn hạn (trước HK tiếp theo)Viết lại hoặc thay thế Q06, Q11, Q17. Xem xét lại phương án nhiễu Q02, Q08, Q15. Tổ chức hội đồng chuyên môn review 8 câu trên.

🟡

Trung hạn (trong năm học)Bổ sung ngân hàng câu hỏi ở vùng khó trung bình (p = 0.35–0.55). Tăng tỉ lệ câu hỏi có D ≥ 0.35. Calibrate lại IRT với pool mới.

🟢

Dài hạn (chiến lược)Triển khai thi thích nghi (CAT) dựa trên IRT. Xây dựng ngân hàng câu hỏi ≥ 200 câu có tham số IRT chuẩn. Liên kết chuẩn đầu ra CLO/PLO.

🤖 SmartTest AI Insight

Dựa trên phân tích 3 kỳ thi gần nhất, SmartTest phát hiện: câu hỏi thuộc chủ đề "Tích phân" có xu hướng độ khó cao bất thường (p trung bình = 0.31). Đề xuất tăng cường tài nguyên học tập cho chương này.

Kết quả IRT cho thấy ngân hàng câu hỏi hiện tại cung cấp thông tin tốt nhất ở mức năng lực θ ∈ [−0.5, 1.0], thiếu câu hỏi ở vùng θ > 1.5 (sinh viên xuất sắc).

→ Khuyến nghị bổ sung 5–8 câu khó (b ∈ [1.5, 2.5]) cho kỳ thi tiếp theo.

SmartTest Analytics Module · TEX Vietnam Technology JSC · Báo cáo được tạo tự động · Mã báo cáo: RPT-MATH201-HK1-2425 · Phiên bản: SmartTest v3.2

Đánh Giá Chất Lượng Ngân Hàng Câu Hỏi
Lý Thuyết CTT & IRT

Tổng Quan Lý Thuyết Đánh Giá Câu Hỏi

Kết Quả Phân Tích CTT – Classical Test Theory

Kết Quả Phân Tích IRT – Item Response Theory (3PL)

Biểu Đồ Phân Tích Chất Lượng

Contact

Frequently asked questions

Schools

Training centers

Business & use-cases

Đánh Giá Chất Lượng Ngân Hàng Câu HỏiLý Thuyết CTT & IRT

Tổng Quan Lý Thuyết Đánh Giá Câu Hỏi

Kết Quả Phân Tích CTT – Classical Test Theory

Kết Quả Phân Tích IRT – Item Response Theory (3PL)

Biểu Đồ Phân Tích Chất Lượng

Contact

Frequently asked questions

Đánh Giá Chất Lượng Ngân Hàng Câu Hỏi
Lý Thuyết CTT & IRT