Qwen
/

Qwen2-Audio-7B

Audio-Text-to-Text

text2text-generation

Model card Files Files and versions Community

faychu commited on Aug 2, 2024

Commit

e8a0b79

·

verified ·

1 Parent(s): cd5e25c

Update README.md

Files changed (1) hide show

README.md +4 -6

README.md CHANGED Viewed

@@ -35,24 +35,22 @@ Here provides offers a code snippet illustrating the process of loading both the
 ```python
-import requests
 from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
-from transformers.pipelines.audio_utils import ffmpeg_read
 model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
 prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
 url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
-audio = ffmpeg_read(requests.get(url).content, sampling_rate=processor.feature_extractor.sampling_rate)
 inputs = processor(text=prompt, audios=audio, return_tensors="pt")
-# Generate
 generated_ids = model.generate(**inputs, max_length=256)
 generated_ids = generated_ids[:, inputs.input_ids.size(1):]
 response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
-# Glass is breaking.
 ```
 ## Citation

 ```python
+from io import BytesIO
+from urllib.request import urlopen
+import librosa
 from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
 model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
 prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
 url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
+audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
 inputs = processor(text=prompt, audios=audio, return_tensors="pt")
 generated_ids = model.generate(**inputs, max_length=256)
 generated_ids = generated_ids[:, inputs.input_ids.size(1):]
 response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
 ```
 ## Citation