www.josue.eu /-/ Servicios Informáticos - Pinokio

[SOLO NVIDIA] YuEGP: una interfaz de usuario web para YuE, un modelo de base de generación de canciones completas y abiertas (se requieren 10 G de VRAM), a través de https://github.com/deepbeepmeep/YuEGP

Interfaz web fácil de usar para LLM. Los ejecutores LLM compatibles incluyen API compatibles con Ollama y OpenAI https://github.com/open-webui/open-webui

[SOLO NVIDIA] Requiere 24 GB de VRAM (use la opción lowvram, tiene la misma calidad). Generación de activos 3D de alta resolución con modelos de difusión Hunyuan3D a gran escala. https://github.com/Tencent/Hunyuan3D-2

Hunyuan3D-2-LowVRAM

[SOLO NVIDIA] Ejecute Hunyuan3D-2 con 6 GB de VRAM: generación de activos 3D de alta resolución con modelos de difusión Hunyuan3D a gran escala. https://github.com/deepbeepmeep/Hunyuan3D-2GP

Inicie, ejecute, edite e implemente aplicaciones web de pila completa. https://github.com/stackblitz-labs/bolt.diy

StyleTTS2 Studio

Construye tu propia voz para StyleTTS2

FaceFusion 3.1.1

Plataforma de manipulación facial líder en la industria

Generar audio sincronizado a partir de entradas de video y/o texto https://github.com/hkchengrex/MMAudio

Programación del sistema Pinokio: crea tu propio Pinokio personalizado

ai-video-composer

El editor de video definitivo impulsado por lenguaje natural y FFMPEG https://huggingface.co/spaces/huggingface-projects/ai-video-composer

[SOLO NVIDIA] Haz que los avatares virtuales hablen lo que quieras con una imagen y un clip de audio https://github.com/antgroup/echomimic_v2

El modelo de difusión más potente y modular con interfaz gráfica de usuario, API y backend con una interfaz de gráficos/nodos. https://github.com/comfyanonymous/ComfyUI

Clarity Refiners UI

Un puerto local mejorado de finegrain-image-enhancer desarrollado por Refiners (https://huggingface.co/spaces/finegrain/finegrain-image-enhancer), que fue adaptado de Clarity Upscaler de philz1337x (https://github.com/philz1337x/clarity-upscaler)

Inteligencia artificial para la generación de videos con Pyramd Flow (conversión de texto a video e imagen a video) https://github.com/jy0205/Pyramid-Flow

Aplicación mejorada para eliminar y reemplazar fondos basada en BRIA-RMBG-2.0 https://huggingface.co/briaai/RMBG-2.0

restaurar imágenes de baja resolución, restaurar imágenes rotas, recrear una nueva versión de la imagen con un mensaje https://huggingface.co/spaces/fffiloni/InstantIR

[SOLO NVIDIA] Completa automáticamente cualquier voz, con tecnología de Hertz AI (inteligencia estándar)

Texto a voz multilingüe con clonación de voz (compatible con: inglés, japonés, coreano, chino, francés, alemán, árabe y español) https://github.com/fishaudio/fish-speech

[SOLO MAC] Una interfaz web potente y fácil de usar para FLUX, impulsada por MLX y Gradio a través de MFLUX

Allegro-txt2vid

[SOLO NVIDIA] Generar videos con el modelo txt2vid de Allegro https://github.com/rhymes-ai/Allegro

Un modelo unificado de generación de imágenes que puede utilizar para realizar diversas tareas, incluidas, entre otras, la generación de texto a imagen, la generación basada en temas, la generación que preserva la identidad y la generación condicionada por imágenes. https://huggingface.co/spaces/Shitao/OmniGen

El agente de codificación de autoconstrucción más simple https://github.com/yoheinakajima/ditto

F5-TTS: Un cuento de hadas que simula un habla fluida y fiel con Flow Matching https://huggingface.co/spaces/mrfakename/E2-F5-TTS

Difusión para modelado mundial https://diamond-wm.github.io/

[Solo NVIDIA] Seleccione un retrato, haga clic para mover la cabeza https://github.com/jbilcke-hf/FacePoke

MLX-Video-Transcription

[Solo Mac] Transcripción de video ultrarrápida con tecnología MLX https://github.com/RayFernando1337/MLX-Auto-Subtitled-Video-Generator/ por https://x.com/RayFernando1337

La plataforma Gen AI para estudios profesionales https://github.com/invoke-ai/InvokeAI

diffusers-image-fill

Eliminar objetos de una imagen https://huggingface.co/spaces/OzzyGT/diffusers-image-fill

Una interfaz web para subtítulos sencillos utilizando el modelo de whisper.

[SOLO NVIDIA] Interfaz de usuario web avanzada para CogVideo (texto a video, imagen a video, video a video, extensión de video, etc.) - Genera videos con menos de 10 GB de VRAM

[Solo para Mac] Un modelo básico de texto y voz para diálogos en tiempo real https://github.com/kyutai-labs/moshi

Una herramienta de conversión de voz sencilla y de alta calidad centrada en la facilidad de uso y el rendimiento. https://github.com/IAHispano/Applio

[Solo NVIDIA] Interfaz web muy simple para entrenar FLUX LoRA con compatibilidad con VRAM BAJA (a partir de 12 GB)

[SOLO NVIDIA] Generar videos con menos de 10 GB de VRAM https://github.com/THUDM/CogVideo

[SOLO NVIDIA] La forma más eficiente de ejecutar FLUX (optimizado para ejecutarse incluso en máquinas con poca memoria, tan solo 3 GB de VRAM con una resolución de 512x512) https://github.com/lllyasviel/stable-diffusion-webui-forge

¡Dale vida a tus retratos! https://github.com/KwaiVGI/LivePortrait

Interfaz de usuario web minimalista de Flux con tecnología de Gradio y Diffusers (Flux Schnell + Flux Merged)

aura-sr-upscaler

AuraSR-v2: una reproducción abierta del GigaGAN Upscaler de fal.ai https://huggingface.co/spaces/gokaygokay/AuraSR-v2

audiocraft_plus

AudioCraft Plus es una interfaz web todo en uno para el AudioCraft original, que agrega muchas funciones de calidad además de https://github.com/GrandaddyShmax/audiocraft_plus

Artist es un método de estilización de imágenes basado en texto que no requiere entrenamiento. Usted proporciona una imagen e ingresa una instrucción que describe el estilo deseado, Artist le proporciona la imagen estilizada en ese estilo. El detalle de la imagen original y el estilo que usted proporciona se integran armónicamente https://huggingface.co/spaces/fffiloni/Artist

script version 2.0

RC Stable Audio Tools

Interfaz de usuario avanzada de Gradio para audio estable https://github.com/RoyalCities/RC-stable-audio-tools

Personalización de fotografías humanas realistas mediante la incorporación de ID apiladas https://huggingface.co/spaces/TencentARC/PhotoMaker-V2

Interfaz de usuario de difusión estable mínima

AutoGPT es una herramienta poderosa que le permite crear y ejecutar agentes inteligentes https://github.com/Significant-Gravitas/AutoGPT

Genera lanzadores de Pinokio al instante. https://gepeto.pinokio.computer

Un modelo de base de visión avanzado de Microsoft https://huggingface.co/spaces/gokaygokay/Florence-2

[Solo NVIDIA] Síntesis visual jerárquica basada en audio para animación de imágenes de retrato https://github.com/fudan-generative-vision/hallo

[Solo para Mac] Una interfaz de chat LLM todo en uno para Mac con Apple Silicon que utiliza el marco MLX. https://github.com/qnguyen3/chat-with-mlx

Aceleración de cualquier modelo de difusión condicional para la generación de imágenes en unos pocos pasos https://gojasper.github.io/flash-diffusion-project/

Un modelo de código abierto para muestras de audio y diseño de sonido https://github.com/Stability-AI/stable-audio-tools

Modelo de consistencia por fases: genere imágenes de alta calidad en 2 pasos https://huggingface.co/spaces/radames/Phased-Consistency-Model-PCM

una interfaz de instalación local que te permite interactuar con IA de generación de texto (LLM) para chatear y jugar con personajes personalizados. https://docs.sillytavern.app/

Crea y personaliza tu propia versión de AI town: una ciudad virtual donde los personajes de IA viven, chatean y socializan https://github.com/a16z-infra/ai-town

Unifique el ajuste fino eficiente de más de 100 LLM https://github.com/hiyouga/LLaMA-Factory

Describe la interfaz de usuario y obsérvala en vivo. Solicita cambios y convierte HTML a React, Svelte, Web Components, etc. Como Vercel v0, pero de código abierto https://github.com/wandb/openui

StoryDiffusion Comics

Crea una historia generando imágenes consistentes https://github.com/HVision-NKU/StoryDiffusion

ZeST: transferencia de material sin disparos desde una sola imagen. Versión local de https://huggingface.co/spaces/fffiloni/ZeST (Proyecto: https://ttchengab.github.io/zest/)

Interfaz de usuario web de Openvoice 2: una interfaz de usuario web local para Openvoice2, un TTS de clonación de voz multilingüe https://x.com/myshell_ai/status/1783161876052066793

Interfaz de usuario y marco de ChatGPT/LLMs de código abierto y diseño moderno. Admite un sistema de complementos extensible (llamada de función) multimodal y de síntesis de voz. https://github.com/lobehub/lobe-chat

Mejora de los modelos de difusión para una prueba virtual auténtica en la naturaleza https://huggingface.co/spaces/yisol/IDM-VTON

Ingeniero de software de inteligencia artificial de Agentic https://github.com/stitionai/devika

Edite imágenes con solo un mensaje, una demostración no oficial de CosXL y CosXL Edit de Stability AI, https://huggingface.co/spaces/multimodalart/cosxl

un modelo de texto a voz (TTS) liviano que puede generar voz de alta calidad con funciones que se pueden controlar mediante un mensaje de texto simple (por ejemplo, género, ruido de fondo, velocidad del habla, tono y reverberación). https://huggingface.co/spaces/parler-tts/parler_tts_mini

Sube la imagen de una imagen y genera imágenes con ese estilo de imagen. Generación instantánea sin necesidad de LoRA https://huggingface.co/spaces/InstantX/InstantStyle

Difusores InstantID + ControlNet inspirados en face-to-many de fofr (https://x.com/fofrAI): una versión localizada de https://huggingface.co/spaces/multimodalart/face-to-all

Un marco unificado basado en codificadores para la personalización de objetos en modelos de difusión de texto a imagen https://huggingface.co/spaces/TencentARC/CustomNet

Generar imágenes con precisión espacial https://huggingface.co/spaces/SPRIGHT-T2I/SPRIGHT-T2I

Un modelo plug-and-play de pintura de imágenes con difusión descompuesta de doble rama https://huggingface.co/spaces/TencentARC/BrushNet

Un modelo básico de rostros humanos https://huggingface.co/spaces/FoivosPar/Arc2Face

[SOLO NVIDIA] Restauración inteligente basada en texto que combina tecnología de IA con creatividad para darle a cada imagen una nueva vida https://supir.xpixel.group

Un pequeño modelo de lenguaje de visión que funciona muy bien y en cualquier lugar https://github.com/vikhyat/moondream

Edición de audio basada en texto con cero disparos mediante inversión DDPM https://huggingface.co/spaces/hilamanor/audioEditing

differential-diffusion-ui

La difusión diferencial modifica una imagen según una indicación de texto y según un mapa que especifica la cantidad de cambio en cada región https://differential-diffusion.github.io/

Visión geométrica 3D simplificada https://dust3r.europe.naverlabs.com/

Interfaz de chat de código abierto para Ollama https://github.com/ivanfioravanti/chatbot-ollama

remove-video-bg

Herramienta para eliminar el fondo de un video https://huggingface.co/spaces/amirgame197/Remove-Video-Background

Biblioteca de conversión de texto a voz multilingüe de alta calidad de MyShell.ai. Admite inglés, español, francés, chino, japonés y coreano https://github.com/myshell-ai/MeloTTS

Una GUI intuitiva para GLIGEN que utiliza ComfyUI en el backend https://github.com/mut-ex/gligen-gui

Stable Cascade from StabilityAI

Bark Voice Cloning

Sube un archivo WAV limpio de 20 segundos de la personalidad vocal que quieres imitar, escribe tu mensaje de conversión de texto a voz y haz clic en Enviar. Una versión local de https://huggingface.co/spaces/fffiloni/instant-TTS-Bark-cloning

[NVIDIA GPU ONLY] LGM

LGM: Modelo gaussiano de múltiples vistas de gran tamaño para la creación de contenido 3D de alta resolución https://huggingface.co/spaces/ashawkey/LGM

Modelo de eliminación de fondo desarrollado por BRIA.AI, entrenado en un conjunto de datos cuidadosamente seleccionado y está disponible como un modelo de código abierto para uso no comercial https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4

[Funciona rápido en GPU NVIDIA. Funciona en Mac M1/M2/M3 pero es lento] VideoCrafter es una caja de herramientas de edición y generación de video de código abierto para crear contenido de video. Actualmente incluye los modelos Text2Video e Image2Video https://github.com/AILab-CVC/VideoCrafter

moondream1 es un modelo de lenguaje de visión diminuto (1.6B de parámetros) entrenado por @vikhyatk que funciona a la par de modelos del doble de su tamaño. Se entrena en el conjunto de datos de entrenamiento LLaVa y se inicializa con SigLIP como torre de visión y Phi-1.5 como codificador de texto. https://huggingface.co/spaces/vikhyatk/moondream1

Método de última generación sin necesidad de ajustes para lograr la generación de preservación de identidad con una sola imagen, lo que admite varias tareas posteriores. https://instantid.github.io/

Personalización de fotografías humanas realistas mediante la incorporación de ID apiladas https://github.com/TencentARC/PhotoMaker

MAGNeT es un modelo de texto a música y texto a sonido capaz de generar muestras de audio de alta calidad condicionadas a descripciones de texto https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

Vídeo en Openpose y DWPose (compatible con todos los sistemas operativos) https://github.com/sdbds/vid2pose

Moore-AnimateAnyone-Mini

[SOLO NVIDIA] Implementación eficiente de Animate Anyone (tamaño de modelo de 13 G de VRAM + 2 G) https://github.com/sdbds/Moore-AnimateAnyone-for-windows

Moore-AnimateAnyone

[SOLO GPU NVIDIA] Implementación no oficial de Animate Anyone https://github.com/MooreThreads/Moore-AnimateAnyone

Clona instantáneamente cualquier voz de cualquier texto a cualquier discurso, en cualquier idioma https://huggingface.co/spaces/myshell-ai/OpenVoice

IP-Adapter-FaceID

Introduzca una imagen de rostro y transfórmela en cualquier otra imagen. Demostración del modelo h94/IP-Adapter-FaceID https://huggingface.co/spaces/multimodalart/Ip-Adapter-FaceID

StreamDiffusion

[SOLO NVIDIA] Una solución a nivel de canalización para la generación interactiva en tiempo real https://github.com/cumulo-autumn/StreamDiffusion

Cuando la generación de cabezas parlantes expresivas se encuentra con modelos probabilísticos de difusión (https://github.com/ali-vilab/dreamtalk)

Stable Diffusion web UI

Iniciador de un solo clic para la interfaz web de Stable Diffusion (AUTOMATIC1111/stable-diffusion-webui)

Convierte cualquier vídeo en vídeo Openpose https://huggingface.co/spaces/fffiloni/video2openpose2

Generación de imágenes alineadas con estilo mediante atención compartida https://style-aligned-gen.github.io/

Convierte cualquier vídeo en vídeo Openpose https://huggingface.co/spaces/fffiloni/video2openpose2

MagicAnimate Mini

[Solo GPU NVIDIA] Una versión optimizada de MagicAnimate https://github.com/sdbds/magic-animate-for-windows

Convierte tus videos a densepose y úsalos en MagicAnimate https://github.com/Flode-Labs/vid2densepose

[Solo GPU NVIDIA] Animación de imágenes humanas consistentes temporalmente mediante el modelo de difusión https://showlab.github.io/magicanimate/

Realtime StableDiffusion

Demostración que muestra una secuencia de modelos de consistencia latente en tiempo real con difusores y un servidor de transmisión MJPEG (https://github.com/radames/Real-Time-Latent-Consistency-Model)

Marco de generación de texto a video (T2V) de Vchitect https://github.com/Vchitect/LaVie

Edición de imágenes sin límites mediante modelos de texto a imagen

Diffusers SDXL Turbo

Demostración que muestra una secuencia de modelos de consistencia latente en tiempo real con difusores y un servidor de transmisión MJPEG (https://github.com/radames/Real-Time-Latent-Consistency-Model)

Un modelo de generación de texto a imagen en tiempo real

Stable Video Diffusion

[SOLO NVIDIA] Aplicación Streamlit de difusión de video estable. Actualmente, solo es compatible con máquinas con GPU Nvidia.

Un motor de creación en tiempo real

Un espejo potenciado por IA

Realtime BakLLaVA

llama.cpp con el modelo BakLLaVA describe lo que ve (https://github.com/Fuzzy-Search/realtime-bakllava)

Subtítulos de música pseudo basados en LLM

Separa todo lo que describas (https://huggingface.co/spaces/Audio-AGI/AudioSep)

Generador de imágenes rápido que utiliza modelos de consistencia latente https://replicate.com/blog/run-latent-consistency-model-on-mac

Text Generation WebUI

Una interfaz de usuario web de Gradio para modelos de lenguaje grandes https://github.com/oobabooga/text-generation-webui

IllusionDiffusion

Genere impresionantes ilustraciones de ilusiones con StableDiffusion (un espacio de @angrypenguinPNGAP, creado con Monster Labs QR ControlNet).

Clona voces en diferentes idiomas usando solo un clip de audio rápido de 3 segundos. (una versión local de https://huggingface.co/spaces/coqui/xtts)

Instalador de 1 clic para Retrieval-based-Voice-Conversion-WebUI (https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)

Instalador de 1 clic para kohya_ss, una interfaz web estable de difusión LoRa y Dreambooth (https://github.com/bmaltais/kohya_ss)

Edición de video consistente temporalmente. Una versión local de https://huggingface.co/spaces/weizmannscience/tokenflow

ModelScope Image2Video (Nvidia GPU only)

¡Convierte cualquier imagen en un vídeo! (Interfaz web creada por fffiloni: https://huggingface.co/spaces/fffiloni/MS-Image2Video)

Una implementación de código abierto del modelo TTS de disparo cero VALL-E X de Microsoft

Generación densa de texto a imagen con modulación de atención

LoRA the Explorer

Zona de juegos LoRA de difusión estable (HuggingFace: https://huggingface.co/spaces/multimodalart/LoraTheExplorer)

1 Click Control-Lora for ComfyUI

Instale los modelos y flujos de trabajo de Control-Lora en ComfyUI con un solo clic

[SOLO GPU NVIDIA] Instalador con un solo clic para ldm3d de Intel

Una interfaz web para diferentes redes neuronales relacionadas con el audio

[Solo GPU Nvidia] Instalador con un solo clic para AudioLDM 2 Gradio UI

Instalador de un solo clic para AudioCraft MusicGen y AudioGen Gradio UI (requiere al menos Pinokio v0.0.56)

Instale la extensión AnimateDiff Automatic1111 y los modelos con un solo clic

Xorbits Inference

Interfaz de usuario y API web de LLM

Puerto del LLaMA de Facebook

Page updated

Google Sites

Report abuse