Tôi có làm một demo để giúp mọi người có thể hiểu hơn task này khó như thế nào. Demo có thể truy cập ở đây: http://satoh-lab.ex.nii.ac.jp/users/ledduy/nii-trecvid/nii-secode/ViewTVResult.php?UseTop (dùng username 'trecvid', password 'niitrec'). Với demo này, các bạn có thể view kết quả của các nhóm đã submit, đồng thời so sánh kết quả của các nhóm với nhau. Cũng với demo này, các bạn sẽ có thể hiểu hơn rằng concept detection thực sự là một bài toán rất khó. Tốt nhất như Tsinghua University cũng chỉ có InfAP khoảng 13% mà thôi.
Tôi cũng khá ngạc nhiên khi thấy system của mình được hạng cao như vậy. Điều này cần được giải thích và phân tích một cách cặn kẽ. Với demo trên, cộng với report của NIST (xem trong tập tin đính kèm), tôi phần nào lí giải được lí do.
1. Nhìn chung, kết quả của NII trên 20 concepts là khá tốt. Có một số concepts, system của NII đạt rất cao ví dụ như 28 (US-Flag), 38 (Maps), 10 (Dessert), 27 (Computer-TV-screen), 26(Animal). Tuy nhiên có lẽ nguyên nhân chính làm cho thứ hạng của NII trở nên cao "bất ngờ" nằm ở chỗ kết quả ở concept 28 (US-Flag). Ở concept này, chỉ có tổng cộng 6 hits; theo kết quả đánh giá, NII đạt được 3 hits ở ngay 10 kết quả đầu tiên làm cho InfAP rất cao, khoảng 0.4 (lưu ý kết quả InfAP trung bình trên toàn bộ 20 concepts chỉ có khoảng 0.1); trong khi đó, các nhóm còn lại hầu như không tìm được hit nào. Với việc kết quả đạt được cao ở concept 28 và cách rất rất xa so với các nhóm còn lại, đồng thời có kết quả khá ở các concept còn lại (các concept này, max ko cao và khoảng cách giữa các nhóm top cũng ko quá lớn), thứ hạng của NII đã được cải thiện đáng kể so với năm trước (chỉ đứng gần ở giữa bảng xếp hạng). Cái này có thể ví như cuộc đua xe đạp đường dài, người có kết quả chung cuộc tốt không nhất thiết phải thắng tất cả các chặng, chỉ cần duy trì kết quả tốt ở tất cả các chặng và có một số đột phá ở một số chặng, vậy là đủ.
2. Nhìn kĩ vào kết quả gây bất ngờ ở concept 28 (US-Flag), với các kết quả của NII được các evaluators tại NIST đánh giá là hits, tôi không nghĩ nó là US-Flag, có lẽ là Holland-Flag thì đúng hơn. Tuy nhiên nếu nhìn kĩ kết quả của các nhóm khác, system của NII dù sao cũng trả về các shot giống giống Flag, trong khi các nhóm kia thì không. Ngoài ra, nếu nhìn kĩ vào groundtruth, tôi vẫn thấy hình như các evaluators cũng ko hẳn đúng khi đánh giá. Có nhiều shot rõ ràng mình thấy đúng là hit, nhưng họ lại cho là không và ngược lại. Tuy nhiên, cuộc chơi nào có cái không hoàn hảo và các nhóm tham gia phải chấp nhận điều đó. He he, may nhờ rủi chịu.
3. Kết quả năm nay cũng đánh dấu sự kết thúc sau nhiều năm thống trị của IBM group. CMU năm nay không có fund nên không tham gia. Columbia University vẫn rất mạnh như ngày nào. Đồng thời năm nay cũng đánh dấu những tiến bộ của các nhóm như NII và City University of HongKong.
4. Hôm trước ngồi nói chuyện với Prof. về các generative models được dùng trong object/scene categorization hiện nay, Prof. tôi nhận định rằng, các model kiểu này có vẻ như overfitting. Nói một cách rõ hơn, các model này có thể sẽ cho kết quả rất cao cho dữ liệu được dùng thí nghiệm trong paper (thông thường train và test share chung distribution), tuy nhiên kết quả sẽ rất thấp nếu gặp bộ dữ liệu test khác lạ (wild test). Tôi nghĩ điều này cũng đúng cho bài toán concept detection. Khi dữ liệu test năm nay (dùng video của Hà Lan) hoàn toàn khác các năm trước (dùng video của US và China), các hệ thống đã từng thống trị các năm trước (ví dụ IBM) có thể sẽ tệ hơn.
5. Một điều thú vị là system của NII tuy chỉ dùng các feature rất đơn giản, training và fusing cũng vậy, nhưng lại cho kết quả khá tốt. Lần này dự TRECVID, tôi sẽ check độ phức tạp của các hệ thống top khác và nếu độ phức tạp của các hệ thống top đó cao (ví dụ năm ngoái hệ thống top của Tsinghua dùng khoảng 20 loại features khác nhau, train trên một máy đơn có thể mất 2 năm, dùng đủ kiểu learning SVM, boosting, etc), lúc đó system của NII lại có lợi thế nhất vì nó easy to reproduce.
6. Bảng thống kê kết quả của các nhóm tính theo InfAP (Infrared Average Precision). Lưu ý rằng, số lượng shot đúng trả về nhiều chưa hẳn sẽ có InfAP cao. Các shot đúng phải được trả về ở top result thì mới có InfAP cao.
B_tsi-icrc_5 (Tsinghua University) | 0.1316 |
A_TsiICRC_1 (Tsinghua University) | 0.1313 |
A_tsi-icrc_2 (Tsinghua University) | 0.1253 |
A_NI1_1 (NII) | 0.1014 |
A_Cit2_2 (City University of HongKong) | 0.0985 |
A_Cit1_1 (City University of HongKong) | 0.0983 |
A_tsi-icrc_6 (Tsinghua University) | 0.09775 |
A_Cit3_3 (City University of HongKong) | 0.09755 |
A_MSR_1 (Microsoft Research Asia) | 0.09595 |
A_Cit4_4 (City University of HongKong) | 0.09345 |
A_MSR_2 (Microsoft Research Asia) | 0.0926 |
A_MSR_4 (Microsoft Research Asia) | 0.09085 |
A_CObcrf_base4_T7_4 (Columbia University) | 0.0904 |
A_MSR_3 (Microsoft Research Asia) | 0.09025 |
A_CObcrf_xd_base3_T14_3 (Columbia University) | 0.09025 |
A_IC1 (ICT, Chinese Academic Sci.) | 0.0901 |
Như vậy, trong năm thứ 2 tham gia TRECVID, chúng tôi có kết quả khá khả quan: BBC Rushes Summarization Task được xếp hạng nhì về mặt recall, và High Level Feature Extraction Task xếp hạng 4 và chỉ sau Tsinghua University.
Lê Đình Duy
Xem đầy đủ bài viết tại http://ledduy.blogspot.com/2009/07/trecvid-2007-concept-detection-task_13.html
No comments:
Post a Comment