Doximex.Com: TRECVID 2008

Monday, July 13, 2009

TRECVID 2008 - Introduction

TRECVID 2008 đã bắt đầu. Call for Participation đã được công bố trên website của TRECVID (http://www-nlpir.nist.gov/projects/tv2008/tv2008.call.html). Năm nay, bên cạnh 2 tasks chính là concept detection và search, cộng với việc tiếp tục task về rushes summarization, có một số điểm mới:
1. Shot boundary detection task đã chính thức bị bỏ (retired).
2. Bổ sung thêm hai tasks mới đó là event detection và copy detection.
3. Rút ngắn thời lượng của summary clip cho BBC rushes summarization task xuống còn 2% thay vì 4% như năm ngoái. Các tiêu chí đánh giá cũng được rút gọn.

Event Detection Task
Event detection task là pilot task và đã được thảo luận ở TRECVID workshop năm ngoái. Task này đòi hỏi "detect predefined events in 100 hours airport surveillance video". Hiện nay task này vẫn chưa được xác định hoàn toàn rõ ràng mà vẫn còn đang trong thời gian để hoàn chỉnh. Tuy nhiên có thể hình dung ra task này như sau. Dữ liệu input là surveillance video ở phi trường Gatwick-UK (video giám sát, multi-camera). Yêu cầu đặt ra là với các event được định nghĩa trước, hãy chỉ ra trong video, các event đó. DS các events được đề nghị bao gồm:

A person suddenly change his walking speed
Counting (unique) people who pass by a designated area during a specific time duration
A policemen appears (with or without a bicycle)
Taxi/limo driver waiting for passengers
Family/friends waiting for passengers
People pushing trolleys
People carrying wheeled luggage
People carrying backpacks/briefcases
Person using a laptop
Person searching for items in a purse/briefcase
Entering/exiting the scene
Reading a book/newspaper
Waving to another person

Thông thường các bài toán như thế này được cộng đồng nghiên cứu về computer vision quan tâm từ lâu, tuy nhiên đây là lần đầu tiên, bài toán này được đưa ra cho cộng đồng làm về video retrieval. Có lẽ những năm tiếp theo, TRECVID sẽ thu hút thêm các nhóm từ cộng đồng computer vision.

Content-Based Copy Detection
Task này được định nghĩa như sau:

Given 200 hours of video and a number of queries, most containing a segment of the test collection that has been transformed along with the rest of the query in one or more of a number of ways, find any occurrence of the segment in the test collection.

Đây là bài toán khá thông dụng trong lĩnh vực bảo vệ quyền sở hữu trí tuệ. Bài toán đặt ra là cho trước một query video clip, làm thế nào để có thể tìm ra segment tương tự trong test video. Không nhất thiết là segment phải giống hoàn toàn với segment trong query, mà có thể segment đã bị thay đổi qua một số phép biến đổi. Chi tiết xem thêm ở đây: http://www-rocq.inria.fr/imedia/civr-bench/ST1Query.html

Năm nay lần đầu tiên NII-Team sẽ tham gia hết tất cả các tasks của TRECVID. Tôi chủ yếu sẽ làm về 3 tasks là concept detection, video search và event detection. Task về copy detection sẽ do một anh bạn post-doc người Trung Quốc trong lab đảm nhiệm, task về summarization sẽ do một visiting researcher từ Thailand sang làm chính (tôi vẫn có thể sẽ tham gia task này nếu có thời gian).

Participants

TRECVID năm nay chứng tỏ sự vsượt bậc về nhiều mặt. Thứ nhất là số lượng tasks nhiều hơn (xem bài trước). Thứ hai là số lượng các nhóm tham gia tăng một cách đột biến lên đến hơn 100 nhóm so với gần 70 nhóm năm ngoái (khởi đầu năm 2001 chỉ khoảng 20 nhóm tham gia). Như vậy là sau khoảng 7-8 năm, TRECVID đã nhận được sự thừa nhận của cộng đồng nghiên cứu về lĩnh vực multimedia retrieval và trở thành một de-factor benchmark (chuẩn được thừa nhận một cách ko chính thức). Cũng chính vì lí do này mà TRECVID giống như một con tàu mà những người muốn nắm vững state of the art không muốn bỏ lỡ. Cách đây 2 năm khi Prof. thuyết phục tôi làm về TRECVID, ổng cũng nói một câu tương tự: TRECVID là state of the art về multimedia retrieval, do đó bằng mọi giá chúng ta phải tham gia để cập nhật và ko bị bỏ lại so với người ta.

Năm nay ở Nhật, có nhiều nhóm mới tham gia hơn. Ngoài NII, KDD, UEC, TiTech Ià đã tham gia nhiều năm trước đây, Asahi Kasei, NHK Research Lab là 2 nhóm tham gia lần đầu vào năm ngoái, còn có thể kể đến Kobe University, Chubu University, Osaka University, Toshiba, NTT CyberSolutions Lab. Trong danh sách tham gia còn xuất hiện những tên tuổi khác như Beckman Institute (UIUC), Yahoo Research Barcelona, Object Video Inc, Motorola Application and Software Research Center, INRIA-LEAR, INRIA-IMEDIA. Nói chung là toàn tên tuổi lớn của cả hai nhánh academy và industry. Chính vì vậy mà "cuộc đua" năm nay hứa hẹn rất hấp dẫn và có nhiều bất ngờ thú vị; người chiến thắng có thể tự hào và nhận được sự thừa nhận của cộng đồng thế giới.

Về lịch trình, do BBC Rushes sẽ được tổ chức trong khuôn khổ một workshop của ACM Multimedia, do đó sẽ bắt đầu sớm hơn. Dữ liệu training có từ 01 Mar, dữ liệu testing có từ 01 Apr, và 05 May là phải submit kết quả rồi. Các tasks còn lại thì muộn hơn, tháng 4 mới có dữ liệu training, tháng 6 có dữ liệu testing và tháng 8 mới submit kết quả.

Lê Đình Duy

Xem đầy đủ bài viết tại http://ledduy.blogspot.com/2009/07/trecvid-2008-introduction.html