Riffusion’s AI generates music from text using visual sonograms

December 16, 2022

Enlarge / An AI-generated image of musical notes exploding forth from a computer monitor.Ars Technica

On Thursday, a pair of tech hobbyists released Riffusion, an AI model that generates music from text prompts by creating a visual representation of sound and converting it to audio for playback. It uses a fine-tuned version of the Stable Diffusion 1.5 image synthesis model, applying visual latent diffusion to sound processing in a novel way.

Created as a hobby project by Seth Forsgren and Hayk Martiros, Riffusion works by generating sonograms, which store audio in a two-dimensional image. In a sonogram, the X-axis represents

→ Continue reading at Ars Technica

Comments

Chef-About-Town Sam Smith Shares His Favorite Portland Restaurants

Seattle Police intercept EBT fraud ring

Riffusion’s AI generates music from text using visual sonograms

Related articles

Comments

Share article

Latest articles

Portland’s Rinella Produce celebrates 110 years — but not without some heartbreak

Guilty pleas entered in stock fraud case involving Canadian ‘entities’

Rantz: Democrats fight to keep homeless living in unsafe housing, claim ‘science’ of drug contamination isn’t settled

Washington rescue dogs graduate as skilled K9s

Transgender Runner’s Top Performance in Oregon Girls’ Track Event Sparks Outrage

$3 slices during Portland’s Pizza Week 2024