Spring 2023 CSCI 576 多媒体项目
教师:Parag Havaldar Demo日期:2023年5月3日,4日,5日 本课程项目旨在让您深入了解多媒体技术的一些领域。由于这是一个广泛的领域,可以根据您的兴趣完成各种有趣的项目,还可以扩展到在课堂上教授的相关和补充主题。此外,我经常发现通过合作可以成功地完成更大的项目。此外,共同设计和集成代码可以是一项有益的练习,并且当您开始在行业中工作时,您经常需要团队合作。因此,请组建三个最多四个学生的小组。 我们已经开始了一个讨论板,以帮助您组建小组,在那里您可以张贴实施首选语言,可用性等。一旦决定了您的小组,请发送电子邮件给TA,以便我们可以分配演示日期的时间。远程DEN学生可以与课堂内学生组成小组。如果您是远程学生并且找不到合作伙伴,请发送电子邮件至TA,我们将尝试促进小组形成。演示将在线进行,使用zoom进行。某些情况下,您将被要求提交代码以进行进一步评估。 本学期,我们提出了一个项目,旨在从媒体元素(如视频/音频)中提取结构,并随着构建交互式媒体播放器,使您可以探索媒体。 从视频中提取索引以及交互式的探索 当您打开一本书时,通常会有一个由作者、讲故事者、作家等创建的索引。索引提供了关于书籍如何组织以及指向各个章节页码的指针的良好描述。在在线设置中,此索引可以与不同文档或文档内的超链接相关联,允许交互式探索。对于诸如视频之类的更复杂媒体,提供具有索引和交互式探索功能的能力也是可能的,但目前仅限于经过很好的编写或预先编制的内容,例如DVD电影或BlueRay电影,或在像Netflix这样的平台上观看电影时,可以选择剧集。但是,除非手动创建,否则不会直接提供此类设置,然后才能交互式消费。 在为索引应用(例如与MPEG-7相关的应用程序)进行视频分析的框架中,视频序列的表示是一个重要问题。仅仅描述视频的内容是不够的,还需要开发能够自动创建这些描述的技术。当它们具有映射到视频序列的索引映射时,这些描述对于交互式探索是有用的,这也是作为该过程的一部分生成的。您的解决方案应依赖于输入视频文件中的视觉和听觉信息。课堂讲座中学到的分析为您提供了实现解决方案的框架,并且您也可以使用外部库、研究等。 具体而言,在此项目中,您被要求开发解决方案,以便:
- 在自动化方式下提取给定视频/音频作为输入的逻辑索引或目录。
- 一旦提取了索引或目录,您希望在交互式播放器设置中显示它,以便可以跳转到任何索引以浏览视频/音频并进行交互式探索。 您的项目将被称为:“MyProject.exe InputVideo.rgb InputAudio.wav” InputVideo.rgb文件和InputAudio.wav文件是同步的。此外,视频的宽度、高度和fps将固定,音频的采样率也将固定。但是,视频的长度可能会有所不同。 评估您的项目将受到以下几个指南的影响: •针对新输入正确性您的目录(table of content)。这应该尽可能层次分明。请参阅交互式播放器说明中的示例插图。 •您的播放器的交互式探索。我们的期望是,跳转到不同的索引会以交互式和同步的方式更新播放器(音频-视频)。 交互式A/V播放器和界面 设计一个简单的功能界面,其中显示提取的目录列表以及在右侧播放的视频。您应该支持播放、暂停和停止。 期望和评估: 我们希望您分析问题空间并产生解决方案。答案可能是主观的,但我们期望清晰数据集上有明确的层次结构。当涉及到播放音频和视频时,我们希望它们同步。附加期望: • 您应该能够播放、暂停、停止视频(及相应的音频)。暂停和播放从暂停时间恢复视频。停止和播放从当前选择的镜头的开头重新开始视频。 • 应该有一个区域显示分层视频目录。这是您的处理输出。没有必要使用花哨的UI(如树形层次结构),但是所有镜头都应该通过滚动条(如有必要)显示,并且元素应该是“可选的”。场景/镜头不需要具有语境名称,数字索引应该足够-如上图所示(左侧)。 Movie: Matrix Revolutions Scene 1 Shot 1 Shot 2 Shot 3 Shot 4 Scene 2 Shot 1 Shot 2 Shot 3 Subshot 1 Subshot 2 Shot 4 Scene 3 Shot 1 Shot 2 Shot 3 Shot 4 Subshot 1 PLAY PAUSE STOP 显示视频结构的接口。 当前正在播放Scene2,Shot3 交互式按钮 播放,暂停,停止 Shot3 • 分层目录应显示各个级别的视频分解:
- 序列/场景级别
- 单个镜头级别
- 如果镜头具有不同属性,则在子镜头级别。 • 视频的解剖结构如下图所示。在电影背景下,场景(序列)表示具有上下文的一组镜头,例如“公寓”房间中的所有镜头或“花园”场景中的所有镜头。场景(序列)中的所有镜头都是连续的,并具有共同元素-背景环境、演员。当场景更改时,背景环境、声音级别的属性都会发生变化。在一个场景内,镜头由一个突然的不连续变化标志着。如果镜头具有感兴趣的不同属性(运动、噪音级别),则应将镜头分为子镜头。例如,一个镜头可能包含运动缓慢或无运动的时间以及运动强度高的时间-这些可以作为单独的子镜头。 • 交互式选择一个片段应该突出显示该片段。如果播放器停止,那么在播放视频时应从该片段的开头开始播放。如果播放器正在播放另一个片段,则选择新选择的片段后,播放器应进行更新。通过选择不同的镜头,可以以此方式在内容之间跳转 • 当视频连续播放时,突出显示的片段选择(场景、序列、镜头)应相应更新。 视频的解剖结构可能有助于更好地了解如何建立层次结构。 • 帧:来自视频的单个静态图像,例如NTSC-每秒30帧,电影-每秒24帧 • 镜头:在单个摄像机操作中记录的帧序列 • 序列或场景:形成语义单位的一组镜头,概念上可以在单个时间和地点拍摄




