Monday, July 13, 2009

TRECVID 2007 - Concept Detection Task Result

Kết quả của TRECVID - HLFE Task năm nay đã có. Rất rất bất ngờ là NII có một run được xếp hạng 4 (hạng 4 chung cuộc, hạng 3 của các system type A - dùng chung training set) trong số 163 runs tham dự của 31 groups. Với việc 3 runs đầu tiên toàn của Tsinghua University, NII xem như đứng thứ nhì nếu xét về hạng của nhóm. Bất ngờ vì mặc dầu có nhiều thời gian chuẩn bị hơn năm ngoái, nhưng do quá ôm đồm làm cả BBC Rushes Summarization và VideOlympics nên cho đến deadline tôi chỉ mới làm được hệ thống sử dụng các baseline features rất đơn giản như color moments, local binary patterns và edge orientation histogram.
Tôi có làm một demo để giúp mọi người có thể hiểu hơn task này khó như thế nào. Demo có thể truy cập ở đây: http://satoh-lab.ex.nii.ac.jp/users/ledduy/nii-trecvid/nii-secode/ViewTVResult.php?UseTop (dùng username 'trecvid', password 'niitrec'). Với demo này, các bạn có thể view kết quả của các nhóm đã submit, đồng thời so sánh kết quả của các nhóm với nhau. Cũng với demo này, các bạn sẽ có thể hiểu hơn rằng concept detection thực sự là một bài toán rất khó. Tốt nhất như Tsinghua University cũng chỉ có InfAP khoảng 13% mà thôi.
Tôi cũng khá ngạc nhiên khi thấy system của mình được hạng cao như vậy. Điều này cần được giải thích và phân tích một cách cặn kẽ. Với demo trên, cộng với report của NIST (xem trong tập tin đính kèm), tôi phần nào lí giải được lí do.
1. Nhìn chung, kết quả của NII trên 20 concepts là khá tốt. Có một số concepts, system của NII đạt rất cao ví dụ như 28 (US-Flag), 38 (Maps), 10 (Dessert), 27 (Computer-TV-screen), 26(Animal). Tuy nhiên có lẽ nguyên nhân chính làm cho thứ hạng của NII trở nên cao "bất ngờ" nằm ở chỗ kết quả ở concept 28 (US-Flag). Ở concept này, chỉ có tổng cộng 6 hits; theo kết quả đánh giá, NII đạt được 3 hits ở ngay 10 kết quả đầu tiên làm cho InfAP rất cao, khoảng 0.4 (lưu ý kết quả InfAP trung bình trên toàn bộ 20 concepts chỉ có khoảng 0.1); trong khi đó, các nhóm còn lại hầu như không tìm được hit nào. Với việc kết quả đạt được cao ở concept 28 và cách rất rất xa so với các nhóm còn lại, đồng thời có kết quả khá ở các concept còn lại (các concept này, max ko cao và khoảng cách giữa các nhóm top cũng ko quá lớn), thứ hạng của NII đã được cải thiện đáng kể so với năm trước (chỉ đứng gần ở giữa bảng xếp hạng). Cái này có thể ví như cuộc đua xe đạp đường dài, người có kết quả chung cuộc tốt không nhất thiết phải thắng tất cả các chặng, chỉ cần duy trì kết quả tốt ở tất cả các chặng và có một số đột phá ở một số chặng, vậy là đủ.
2. Nhìn kĩ vào kết quả gây bất ngờ ở concept 28 (US-Flag), với các kết quả của NII được các evaluators tại NIST đánh giá là hits, tôi không nghĩ nó là US-Flag, có lẽ là Holland-Flag thì đúng hơn. Tuy nhiên nếu nhìn kĩ kết quả của các nhóm khác, system của NII dù sao cũng trả về các shot giống giống Flag, trong khi các nhóm kia thì không. Ngoài ra, nếu nhìn kĩ vào groundtruth, tôi vẫn thấy hình như các evaluators cũng ko hẳn đúng khi đánh giá. Có nhiều shot rõ ràng mình thấy đúng là hit, nhưng họ lại cho là không và ngược lại. Tuy nhiên, cuộc chơi nào có cái không hoàn hảo và các nhóm tham gia phải chấp nhận điều đó. He he, may nhờ rủi chịu.
3. Kết quả năm nay cũng đánh dấu sự kết thúc sau nhiều năm thống trị của IBM group. CMU năm nay không có fund nên không tham gia. Columbia University vẫn rất mạnh như ngày nào. Đồng thời năm nay cũng đánh dấu những tiến bộ của các nhóm như NII và City University of HongKong.
4. Hôm trước ngồi nói chuyện với Prof. về các generative models được dùng trong object/scene categorization hiện nay, Prof. tôi nhận định rằng, các model kiểu này có vẻ như overfitting. Nói một cách rõ hơn, các model này có thể sẽ cho kết quả rất cao cho dữ liệu được dùng thí nghiệm trong paper (thông thường train và test share chung distribution), tuy nhiên kết quả sẽ rất thấp nếu gặp bộ dữ liệu test khác lạ (wild test). Tôi nghĩ điều này cũng đúng cho bài toán concept detection. Khi dữ liệu test năm nay (dùng video của Hà Lan) hoàn toàn khác các năm trước (dùng video của US và China), các hệ thống đã từng thống trị các năm trước (ví dụ IBM) có thể sẽ tệ hơn.
5. Một điều thú vị là system của NII tuy chỉ dùng các feature rất đơn giản, training và fusing cũng vậy, nhưng lại cho kết quả khá tốt. Lần này dự TRECVID, tôi sẽ check độ phức tạp của các hệ thống top khác và nếu độ phức tạp của các hệ thống top đó cao (ví dụ năm ngoái hệ thống top của Tsinghua dùng khoảng 20 loại features khác nhau, train trên một máy đơn có thể mất 2 năm, dùng đủ kiểu learning SVM, boosting, etc), lúc đó system của NII lại có lợi thế nhất vì nó easy to reproduce.
6. Bảng thống kê kết quả của các nhóm tính theo InfAP (Infrared Average Precision). Lưu ý rằng, số lượng shot đúng trả về nhiều chưa hẳn sẽ có InfAP cao. Các shot đúng phải được trả về ở top result thì mới có InfAP cao.
B_tsi-icrc_5 (Tsinghua University)
0.1316
A_TsiICRC_1 (Tsinghua University)
0.1313
A_tsi-icrc_2 (Tsinghua University)
0.1253
A_NI1_1 (NII)
0.1014
A_Cit2_2 (City University of HongKong)
0.0985
A_Cit1_1 (City University of HongKong)
0.0983
A_tsi-icrc_6 (Tsinghua University)
0.09775
A_Cit3_3 (City University of HongKong)
0.09755
A_MSR_1 (Microsoft Research Asia)
0.09595
A_Cit4_4 (City University of HongKong)
0.09345
A_MSR_2 (Microsoft Research Asia)
0.0926
A_MSR_4 (Microsoft Research Asia)
0.09085
A_CObcrf_base4_T7_4 (Columbia University)
0.0904
A_MSR_3 (Microsoft Research Asia)
0.09025
A_CObcrf_xd_base3_T14_3 (Columbia University)
0.09025
A_IC1 (ICT, Chinese Academic Sci.)
0.0901
Như vậy, trong năm thứ 2 tham gia TRECVID, chúng tôi có kết quả khá khả quan: BBC Rushes Summarization Task được xếp hạng nhì về mặt recall, và High Level Feature Extraction Task xếp hạng 4 và chỉ sau Tsinghua University.
Lê Đình Duy

Xem đầy đủ bài viết tại http://ledduy.blogspot.com/2009/07/trecvid-2007-concept-detection-task_13.html

No comments:

Post a Comment

Popular Posts