YuE

[SOLO NVIDIA] YuEGP: una interfaz de usuario web para YuE, un modelo de base de generación de canciones completas y abiertas (se requieren 10 G de VRAM), a través de https://github.com/deepbeepmeep/YuEGP 

.4.0

Open WebUI

Interfaz web fácil de usar para LLM. Los ejecutores LLM compatibles incluyen API compatibles con Ollama y OpenAI https://github.com/open-webui/open-webui 


Hunyuan3D-2

[SOLO NVIDIA] Requiere 24 GB de VRAM (use la opción lowvram, tiene la misma calidad). Generación de activos 3D de alta resolución con modelos de difusión Hunyuan3D a gran escala. https://github.com/Tencent/Hunyuan3D-2 


Hunyuan3D-2-LowVRAM

[SOLO NVIDIA] Ejecute Hunyuan3D-2 con 6 GB de VRAM: generación de activos 3D de alta resolución con modelos de difusión Hunyuan3D a gran escala. https://github.com/deepbeepmeep/Hunyuan3D-2GP 


bolt.diy

Inicie, ejecute, edite e implemente aplicaciones web de pila completa. https://github.com/stackblitz-labs/bolt.diy 


StyleTTS2 Studio

Construye tu propia voz para StyleTTS2 


FaceFusion 3.1.1

Plataforma de manipulación facial líder en la industria 


MMAudio

Generar audio sincronizado a partir de entradas de video y/o texto https://github.com/hkchengrex/MMAudio 


PSP

Programación del sistema Pinokio: crea tu propio Pinokio personalizado 


ai-video-composer

El editor de video definitivo impulsado por lenguaje natural y FFMPEG https://huggingface.co/spaces/huggingface-projects/ai-video-composer 


echomimic2

[SOLO NVIDIA] Haz que los avatares virtuales hablen lo que quieras con una imagen y un clip de audio https://github.com/antgroup/echomimic_v2 


Comfyui

El modelo de difusión más potente y modular con interfaz gráfica de usuario, API y backend con una interfaz de gráficos/nodos. https://github.com/comfyanonymous/ComfyUI 


Clarity Refiners UI

Un puerto local mejorado de finegrain-image-enhancer desarrollado por Refiners (https://huggingface.co/spaces/finegrain/finegrain-image-enhancer), que fue adaptado de Clarity Upscaler de philz1337x (https://github.com/philz1337x/clarity-upscaler) 


pyramidflow

Inteligencia artificial para la generación de videos con Pyramd Flow (conversión de texto a video e imagen a video) https://github.com/jy0205/Pyramid-Flow 


RMBG-2-Studio

Aplicación mejorada para eliminar y reemplazar fondos basada en BRIA-RMBG-2.0 https://huggingface.co/briaai/RMBG-2.0 


InstantIR

restaurar imágenes de baja resolución, restaurar imágenes rotas, recrear una nueva versión de la imagen con un mensaje https://huggingface.co/spaces/fffiloni/InstantIR 


Hallucinator

[SOLO NVIDIA] Completa automáticamente cualquier voz, con tecnología de Hertz AI (inteligencia estándar) 


fish

Texto a voz multilingüe con clonación de voz (compatible con: inglés, japonés, coreano, chino, francés, alemán, árabe y español) https://github.com/fishaudio/fish-speech 


MFLUX-WEBUI

[SOLO MAC] Una interfaz web potente y fácil de usar para FLUX, impulsada por MLX y Gradio a través de MFLUX 


Allegro-txt2vid

[SOLO NVIDIA] Generar videos con el modelo txt2vid de Allegro https://github.com/rhymes-ai/Allegro 


omnigen

Un modelo unificado de generación de imágenes que puede utilizar para realizar diversas tareas, incluidas, entre otras, la generación de texto a imagen, la generación basada en temas, la generación que preserva la identidad y la generación condicionada por imágenes. https://huggingface.co/spaces/Shitao/OmniGen 


ditto

El agente de codificación de autoconstrucción más simple https://github.com/yoheinakajima/ditto 


e2-f5-tts

F5-TTS: Un cuento de hadas que simula un habla fluida y fiel con Flow Matching https://huggingface.co/spaces/mrfakename/E2-F5-TTS 


diamond

Difusión para modelado mundial https://diamond-wm.github.io/ 


facepoke

[Solo NVIDIA] Seleccione un retrato, haga clic para mover la cabeza https://github.com/jbilcke-hf/FacePoke 


MLX-Video-Transcription

[Solo Mac] Transcripción de video ultrarrápida con tecnología MLX https://github.com/RayFernando1337/MLX-Auto-Subtitled-Video-Generator/ por https://x.com/RayFernando1337 


Invoke

La plataforma Gen AI para estudios profesionales https://github.com/invoke-ai/InvokeAI 


diffusers-image-fill

Eliminar objetos de una imagen https://huggingface.co/spaces/OzzyGT/diffusers-image-fill 


Whisper-WebUI

Una interfaz web para subtítulos sencillos utilizando el modelo de whisper. 


CogStudio

[SOLO NVIDIA] Interfaz de usuario web avanzada para CogVideo (texto a video, imagen a video, video a video, extensión de video, etc.) - Genera videos con menos de 10 GB de VRAM 


moshi

[Solo para Mac] Un modelo básico de texto y voz para diálogos en tiempo real https://github.com/kyutai-labs/moshi 


Applio

Una herramienta de conversión de voz sencilla y de alta calidad centrada en la facilidad de uso y el rendimiento. https://github.com/IAHispano/Applio 


fluxgym

[Solo NVIDIA] Interfaz web muy simple para entrenar FLUX LoRA con compatibilidad con VRAM BAJA (a partir de 12 GB) 


cogvideo

[SOLO NVIDIA] Generar videos con menos de 10 GB de VRAM https://github.com/THUDM/CogVideo 


Forge

[SOLO NVIDIA] La forma más eficiente de ejecutar FLUX (optimizado para ejecutarse incluso en máquinas con poca memoria, tan solo 3 GB de VRAM con una resolución de 512x512) https://github.com/lllyasviel/stable-diffusion-webui-forge 


LivePortrait

¡Dale vida a tus retratos! https://github.com/KwaiVGI/LivePortrait 


flux-webui

Interfaz de usuario web minimalista de Flux con tecnología de Gradio y Diffusers (Flux Schnell + Flux Merged) 


aura-sr-upscaler

AuraSR-v2: una reproducción abierta del GigaGAN Upscaler de fal.ai https://huggingface.co/spaces/gokaygokay/AuraSR-v2 


audiocraft_plus

AudioCraft Plus es una interfaz web todo en uno para el AudioCraft original, que agrega muchas funciones de calidad además de https://github.com/GrandaddyShmax/audiocraft_plus 


artist

Artist es un método de estilización de imágenes basado en texto que no requiere entrenamiento. Usted proporciona una imagen e ingresa una instrucción que describe el estilo deseado, Artist le proporciona la imagen estilizada en ese estilo. El detalle de la imagen original y el estilo que usted proporciona se integran armónicamente https://huggingface.co/spaces/fffiloni/Artist 

script version 2.0

RC Stable Audio Tools

Interfaz de usuario avanzada de Gradio para audio estable https://github.com/RoyalCities/RC-stable-audio-tools 


PhotoMaker2

Personalización de fotografías humanas realistas mediante la incorporación de ID apiladas https://huggingface.co/spaces/TencentARC/PhotoMaker-V2 


Fooocus

Interfaz de usuario de difusión estable mínima 


autogpt

AutoGPT es una herramienta poderosa que le permite crear y ejecutar agentes inteligentes https://github.com/Significant-Gravitas/AutoGPT 


gepeto

Genera lanzadores de Pinokio al instante. https://gepeto.pinokio.computer 


Florence2

Un modelo de base de visión avanzado de Microsoft https://huggingface.co/spaces/gokaygokay/Florence-2 


hallo

[Solo NVIDIA] Síntesis visual jerárquica basada en audio para animación de imágenes de retrato https://github.com/fudan-generative-vision/hallo 


chat-with-mlx

[Solo para Mac] Una interfaz de chat LLM todo en uno para Mac con Apple Silicon que utiliza el marco MLX. https://github.com/qnguyen3/chat-with-mlx 


flashdiffusion

Aceleración de cualquier modelo de difusión condicional para la generación de imágenes en unos pocos pasos https://gojasper.github.io/flash-diffusion-project/ 


StableAudio

Un modelo de código abierto para muestras de audio y diseño de sonido https://github.com/Stability-AI/stable-audio-tools 


PCM

Modelo de consistencia por fases: genere imágenes de alta calidad en 2 pasos https://huggingface.co/spaces/radames/Phased-Consistency-Model-PCM 


SillyTavern

una interfaz de instalación local que te permite interactuar con IA de generación de texto (LLM) para chatear y jugar con personajes personalizados. https://docs.sillytavern.app/ 


AITown

Crea y personaliza tu propia versión de AI town: una ciudad virtual donde los personajes de IA viven, chatean y socializan https://github.com/a16z-infra/ai-town 


LlamaFactory

Unifique el ajuste fino eficiente de más de 100 LLM https://github.com/hiyouga/LLaMA-Factory 


openui

Describe la interfaz de usuario y obsérvala en vivo. Solicita cambios y convierte HTML a React, Svelte, Web Components, etc. Como Vercel v0, pero de código abierto https://github.com/wandb/openui 


StoryDiffusion Comics

Crea una historia generando imágenes consistentes https://github.com/HVision-NKU/StoryDiffusion 


ZeST

ZeST: transferencia de material sin disparos desde una sola imagen. Versión local de https://huggingface.co/spaces/fffiloni/ZeST (Proyecto: https://ttchengab.github.io/zest/) 


Openvoice2

Interfaz de usuario web de Openvoice 2: una interfaz de usuario web local para Openvoice2, un TTS de clonación de voz multilingüe https://x.com/myshell_ai/status/1783161876052066793 


Lobe Chat

Interfaz de usuario y marco de ChatGPT/LLMs de código abierto y diseño moderno. Admite un sistema de complementos extensible (llamada de función) multimodal y de síntesis de voz. https://github.com/lobehub/lobe-chat 


IDM-VTON

Mejora de los modelos de difusión para una prueba virtual auténtica en la naturaleza https://huggingface.co/spaces/yisol/IDM-VTON 


devika

Ingeniero de software de inteligencia artificial de Agentic https://github.com/stitionai/devika 


CosXL

Edite imágenes con solo un mensaje, una demostración no oficial de CosXL y CosXL Edit de Stability AI, https://huggingface.co/spaces/multimodalart/cosxl 


parler-tts

un modelo de texto a voz (TTS) liviano que puede generar voz de alta calidad con funciones que se pueden controlar mediante un mensaje de texto simple (por ejemplo, género, ruido de fondo, velocidad del habla, tono y reverberación). https://huggingface.co/spaces/parler-tts/parler_tts_mini 


instantstyle

Sube la imagen de una imagen y genera imágenes con ese estilo de imagen. Generación instantánea sin necesidad de LoRA https://huggingface.co/spaces/InstantX/InstantStyle 


face-to-all

Difusores InstantID + ControlNet inspirados en face-to-many de fofr (https://x.com/fofrAI): una versión localizada de https://huggingface.co/spaces/multimodalart/face-to-all 


CustomNet

Un marco unificado basado en codificadores para la personalización de objetos en modelos de difusión de texto a imagen https://huggingface.co/spaces/TencentARC/CustomNet 


spright

Generar imágenes con precisión espacial https://huggingface.co/spaces/SPRIGHT-T2I/SPRIGHT-T2I 


brushnet

Un modelo plug-and-play de pintura de imágenes con difusión descompuesta de doble rama https://huggingface.co/spaces/TencentARC/BrushNet 


Arc2Face

Un modelo básico de rostros humanos https://huggingface.co/spaces/FoivosPar/Arc2Face 


supir

[SOLO NVIDIA] Restauración inteligente basada en texto que combina tecnología de IA con creatividad para darle a cada imagen una nueva vida https://supir.xpixel.group 


moondream2

Un pequeño modelo de lenguaje de visión que funciona muy bien y en cualquier lugar https://github.com/vikhyat/moondream 


ZETA

Edición de audio basada en texto con cero disparos mediante inversión DDPM https://huggingface.co/spaces/hilamanor/audioEditing 


differential-diffusion-ui

La difusión diferencial modifica una imagen según una indicación de texto y según un mapa que especifica la cantidad de cambio en cada región https://differential-diffusion.github.io/ 


dust3r

Visión geométrica 3D simplificada https://dust3r.europe.naverlabs.com/ 


Chatbot-Ollama

Interfaz de chat de código abierto para Ollama https://github.com/ivanfioravanti/chatbot-ollama 


remove-video-bg

Herramienta para eliminar el fondo de un video https://huggingface.co/spaces/amirgame197/Remove-Video-Background 


MeloTTS

Biblioteca de conversión de texto a voz multilingüe de alta calidad de MyShell.ai. Admite inglés, español, francés, chino, japonés y coreano https://github.com/myshell-ai/MeloTTS 


gligen

Una GUI intuitiva para GLIGEN que utiliza ComfyUI en el backend https://github.com/mut-ex/gligen-gui 


Stable Cascade

Stable Cascade from StabilityAI


Bark Voice Cloning

Sube un archivo WAV limpio de 20 segundos de la personalidad vocal que quieres imitar, escribe tu mensaje de conversión de texto a voz y haz clic en Enviar. Una versión local de https://huggingface.co/spaces/fffiloni/instant-TTS-Bark-cloning 


[NVIDIA GPU ONLY] LGM

LGM: Modelo gaussiano de múltiples vistas de gran tamaño para la creación de contenido 3D de alta resolución https://huggingface.co/spaces/ashawkey/LGM 


BRIA RMBG

Modelo de eliminación de fondo desarrollado por BRIA.AI, entrenado en un conjunto de datos cuidadosamente seleccionado y está disponible como un modelo de código abierto para uso no comercial https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4 


VideoCrafter 2

[Funciona rápido en GPU NVIDIA. Funciona en Mac M1/M2/M3 pero es lento] VideoCrafter es una caja de herramientas de edición y generación de video de código abierto para crear contenido de video. Actualmente incluye los modelos Text2Video e Image2Video https://github.com/AILab-CVC/VideoCrafter 


Moondream1

moondream1 es un modelo de lenguaje de visión diminuto (1.6B de parámetros) entrenado por @vikhyatk que funciona a la par de modelos del doble de su tamaño. Se entrena en el conjunto de datos de entrenamiento LLaVa y se inicializa con SigLIP como torre de visión y Phi-1.5 como codificador de texto. https://huggingface.co/spaces/vikhyatk/moondream1 


InstantID

Método de última generación sin necesidad de ajustes para lograr la generación de preservación de identidad con una sola imagen, lo que admite varias tareas posteriores. https://instantid.github.io/ 


PhotoMaker

Personalización de fotografías humanas realistas mediante la incorporación de ID apiladas https://github.com/TencentARC/PhotoMaker 


MAGNeT

MAGNeT es un modelo de texto a música y texto a sonido capaz de generar muestras de audio de alta calidad condicionadas a descripciones de texto https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md 


vid2pose

Vídeo en Openpose y DWPose (compatible con todos los sistemas operativos) https://github.com/sdbds/vid2pose 


Moore-AnimateAnyone-Mini

[SOLO NVIDIA] Implementación eficiente de Animate Anyone (tamaño de modelo de 13 G de VRAM + 2 G) https://github.com/sdbds/Moore-AnimateAnyone-for-windows 


Moore-AnimateAnyone

[SOLO GPU NVIDIA] Implementación no oficial de Animate Anyone https://github.com/MooreThreads/Moore-AnimateAnyone 


OpenVoice

Clona instantáneamente cualquier voz de cualquier texto a cualquier discurso, en cualquier idioma https://huggingface.co/spaces/myshell-ai/OpenVoice 


IP-Adapter-FaceID

Introduzca una imagen de rostro y transfórmela en cualquier otra imagen. Demostración del modelo h94/IP-Adapter-FaceID https://huggingface.co/spaces/multimodalart/Ip-Adapter-FaceID 


StreamDiffusion

[SOLO NVIDIA] Una solución a nivel de canalización para la generación interactiva en tiempo real https://github.com/cumulo-autumn/StreamDiffusion 


dreamtalk

Cuando la generación de cabezas parlantes expresivas se encuentra con modelos probabilísticos de difusión (https://github.com/ali-vilab/dreamtalk) 


Stable Diffusion web UI

Iniciador de un solo clic para la interfaz web de Stable Diffusion (AUTOMATIC1111/stable-diffusion-webui) 


Video2Openpose

Convierte cualquier vídeo en vídeo Openpose https://huggingface.co/spaces/fffiloni/video2openpose2 


StyleAligned

Generación de imágenes alineadas con estilo mediante atención compartida https://style-aligned-gen.github.io/ 


Video2Openpose

Convierte cualquier vídeo en vídeo Openpose https://huggingface.co/spaces/fffiloni/video2openpose2 


MagicAnimate Mini

[Solo GPU NVIDIA] Una versión optimizada de MagicAnimate https://github.com/sdbds/magic-animate-for-windows 


Vid2DensePose

Convierte tus videos a densepose y úsalos en MagicAnimate https://github.com/Flode-Labs/vid2densepose 


MagicAnimate

[Solo GPU NVIDIA] Animación de imágenes humanas consistentes temporalmente mediante el modelo de difusión https://showlab.github.io/magicanimate/ 


Realtime StableDiffusion

Demostración que muestra una secuencia de modelos de consistencia latente en tiempo real con difusores y un servidor de transmisión MJPEG (https://github.com/radames/Real-Time-Latent-Consistency-Model) 


lavie

Marco de generación de texto a video (T2V) de Vchitect https://github.com/Vchitect/LaVie 


LEDITS++

Edición de imágenes sin límites mediante modelos de texto a imagen 


Diffusers SDXL Turbo

Demostración que muestra una secuencia de modelos de consistencia latente en tiempo real con difusores y un servidor de transmisión MJPEG (https://github.com/radames/Real-Time-Latent-Consistency-Model) 


sdxl turbo

Un modelo de generación de texto a imagen en tiempo real 


Stable Video Diffusion

[SOLO NVIDIA] Aplicación Streamlit de difusión de video estable. Actualmente, solo es compatible con máquinas con GPU Nvidia. 


DEUS

Un motor de creación en tiempo real 


Mirror

Un espejo potenciado por IA 


Realtime BakLLaVA

llama.cpp con el modelo BakLLaVA describe lo que ve (https://github.com/Fuzzy-Search/realtime-bakllava) 


LP-MusicCaps

Subtítulos de música pseudo basados ​​en LLM 


AudioSep

Separa todo lo que describas (https://huggingface.co/spaces/Audio-AGI/AudioSep) 


LCM

Generador de imágenes rápido que utiliza modelos de consistencia latente https://replicate.com/blog/run-latent-consistency-model-on-mac 


Text Generation WebUI

Una interfaz de usuario web de Gradio para modelos de lenguaje grandes https://github.com/oobabooga/text-generation-webui 


IllusionDiffusion

Genere impresionantes ilustraciones de ilusiones con StableDiffusion (un espacio de @angrypenguinPNGAP, creado con Monster Labs QR ControlNet). 


XTTS

Clona voces en diferentes idiomas usando solo un clip de audio rápido de 3 segundos. (una versión local de https://huggingface.co/spaces/coqui/xtts) 


RVC

Instalador de 1 clic para Retrieval-based-Voice-Conversion-WebUI (https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) 


kohya_ss

Instalador de 1 clic para kohya_ss, una interfaz web estable de difusión LoRa y Dreambooth (https://github.com/bmaltais/kohya_ss) 


Tokenflow

Edición de video consistente temporalmente. Una versión local de https://huggingface.co/spaces/weizmannscience/tokenflow 


ModelScope Image2Video (Nvidia GPU only)

¡Convierte cualquier imagen en un vídeo! (Interfaz web creada por fffiloni: https://huggingface.co/spaces/fffiloni/MS-Image2Video) 


VALL-E-X

Una implementación de código abierto del modelo TTS de disparo cero VALL-E X de Microsoft 


DenseDiffusion

Generación densa de texto a imagen con modulación de atención 


LoRA the Explorer

Zona de juegos LoRA de difusión estable (HuggingFace: https://huggingface.co/spaces/multimodalart/LoraTheExplorer) 


1 Click Control-Lora for ComfyUI

Instale los modelos y flujos de trabajo de Control-Lora en ComfyUI con un solo clic 


LDM 3D

[SOLO GPU NVIDIA] Instalador con un solo clic para ldm3d de Intel 


Audio Webui

Una interfaz web para diferentes redes neuronales relacionadas con el audio 


AudioLDM 2

[Solo GPU Nvidia] Instalador con un solo clic para AudioLDM 2 Gradio UI 


AudioGradio

Instalador de un solo clic para AudioCraft MusicGen y AudioGen Gradio UI (requiere al menos Pinokio v0.0.56) 


AnimateDiff

Instale la extensión AnimateDiff Automatic1111 y los modelos con un solo clic 


Xorbits Inference

Interfaz de usuario y API web de LLM 


llamacpp

Puerto del LLaMA de Facebook