Youtube的影片非常多,如果每個影片都要從頭到尾看,相當花時間,當然我們可以
跳著看,但這也是花時間的事。有一個能偷時間的方法,就是「只看字幕」!
可以透過 youtube-dl 這個工具,就能下載影片或以及影片裡的字幕
https://github.com/ytdl-org/youtube-dl
基本上,字幕大都是以影片的原始語言存在的,例如日語影片會有日文字幕,然而
大部份影片會有英文字幕,所以我們可以指定要下載的字幕語文
youtube-dl --write-sub --sub-lang en https://www.youtube.com/watch?v=xxyyzz123
如果不想下載完整的影片,可以在下載完字幕(xxxx.vtt)之後按 Ctrl-C 中斷。
下載來的字幕至少會有兩種格式,都需要人工處理一下才適合閱讀
- 最簡單處理的是只要濾掉時間那一行,也就是以00開頭(或影片超過一小時就會有01開頭的)
- 比較複雜的字幕除了時間之外,內容也會重複兩次,這個要處理
- 有這個關鍵字 :start position: 的一行不要
- 有兩個減號 -- 的一行不要
- 再來用python寫個小工具把重複的行刪除
Line_old = '' for line in f: if line == Line_old: pass else: print(line) Line_old = line fout.write(line) f.close() fout.close()
當然只看字幕有時也會有些問題,例如字幕是不會分別主持人跟受訪者的對話內容,
所以不知道這段話是受訪者或主時人說的。
但是先看看字幕,覺得值得花時間看影片時,再去看吧!
沒有留言:
張貼留言