Spaces:

httpdaniel
/

YouTubeTranscriber

Sleeping

App Files Files Community

httpdaniel commited on Oct 6, 2024

Commit

2e56c11

1 Parent(s): 2b04643

cleaning project

Browse files

Files changed (2) hide show

app.py +7 -42
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -1,33 +1,18 @@
-from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled
 from urllib.parse import urlparse, parse_qs
 from pytube import YouTube
 from huggingface_hub import InferenceClient
 import gradio as gr
-from langchain_community.document_loaders import YoutubeLoader
-from typing import Any, Dict, List
 model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"
 client = InferenceClient(model=model_name)
-def langhchain_summary(link):
-    loader = YoutubeLoader.from_youtube_url(link, add_video_info=False)
-    documents = loader.load()
-    transcription = " ".join([doc.page_content for doc in documents])
-    print(f"Transcription: {transcription}")
-    return transcription
 def transcribe_video(url):
-    print(f"YouTube URL: {url}")
     video_id = parse_youtube_url(url)
     if video_id:
         video_metadata = get_video_metadata(video_id)
-        # transcript_content = get_transcript_content(video_id)
-        transcript_content = langhchain_summary(url)
-        print(f"Transcript Content: {transcript_content}")
         transcript_summary = summarise_transcript(transcript_content)
         return (
             f"Title: {video_metadata['title']}\nAuthor: {video_metadata['author']}",
@@ -57,32 +42,12 @@ def get_video_metadata(video_id):
 def get_transcript_content(video_id):
-    # try:
-    #     transcript = YouTubeTranscriptApi.get_transcript(video_id)
-    #     transcript_content = parse_transcript(transcript)
-    #     return transcript_content
-    # except Exception as e:
-    #     raise e
     try:
-        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
-    except TranscriptsDisabled:
-        return []
-    transcript = transcript_list.find_transcript(["en"])
-    print(f"Transcript: {transcript}")
-    transcript_pieces: List[Dict[str, Any]] = transcript.fetch()
-    transcript = " ".join(
-        map(
-            lambda transcript_piece: transcript_piece["text"].strip(" "),
-            transcript_pieces,
-        )
-    )
-    print(f"Transcript: {transcript}")
-    return transcript
 def parse_transcript(transcript):

+from youtube_transcript_api import YouTubeTranscriptApi
 from urllib.parse import urlparse, parse_qs
 from pytube import YouTube
 from huggingface_hub import InferenceClient
 import gradio as gr
 model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"
 client = InferenceClient(model=model_name)
 def transcribe_video(url):
     video_id = parse_youtube_url(url)
     if video_id:
         video_metadata = get_video_metadata(video_id)
+        transcript_content = get_transcript_content(video_id)
         transcript_summary = summarise_transcript(transcript_content)
         return (
             f"Title: {video_metadata['title']}\nAuthor: {video_metadata['author']}",
 def get_transcript_content(video_id):
     try:
+        transcript = YouTubeTranscriptApi.get_transcript(video_id)
+        transcript_content = parse_transcript(transcript)
+        return transcript_content
+    except Exception as e:
+        raise e
 def parse_transcript(transcript):

requirements.txt CHANGED Viewed

@@ -4,4 +4,3 @@ huggingface-hub
 pytube
 urllib3
 youtube-transcript-api
-langchain-community

 pytube
 urllib3
 youtube-transcript-api