BV1AL 之無所不記

2021-05-30

閱讀youtube字幕

 Youtube的影片非常多,如果每個影片都要從頭到尾看,相當花時間,當然我們可以
跳著看,但這也是花時間的事。有一個能偷時間的方法,就是「只看字幕」!

可以透過 youtube-dl 這個工具,就能下載影片或以及影片裡的字幕
https://github.com/ytdl-org/youtube-dl

基本上,字幕大都是以影片的原始語言存在的,例如日語影片會有日文字幕,然而
大部份影片會有英文字幕,所以我們可以指定要下載的字幕語文
youtube-dl --write-sub --sub-lang en https://www.youtube.com/watch?v=xxyyzz123

如果不想下載完整的影片,可以在下載完字幕(xxxx.vtt)之後按 Ctrl-C 中斷。

下載來的字幕至少會有兩種格式,都需要人工處理一下才適合閱讀

  1. 最簡單處理的是只要濾掉時間那一行,也就是以00開頭(或影片超過一小時就會有01開頭的)
  2. 比較複雜的字幕除了時間之外,內容也會重複兩次,這個要處理
    • 有這個關鍵字 :start position: 的一行不要
    • 有兩個減號 -- 的一行不要
    • 再來用python寫個小工具把重複的行刪除
 fout = open(argv[1]+'.out', 'w')
Line_old = ''
for line in f:
    if line == Line_old:
       pass
    else:
       print(line)
       Line_old = line
       fout.write(line)

f.close()
fout.close() 
當然只看字幕有時也會有些問題,例如字幕是不會分別主持人跟受訪者的對話內容,
所以不知道這段話是受訪者或主時人說的。

但是先看看字幕,覺得值得花時間看影片時,再去看吧! 

標籤: , ,