llama3 local

Semanas atrás Meta lanzó su esperado modelo Llama3 el cual, no solo viene en diversas versiones o tamaños, si no que lo ha dispuesto para su uso gratuito o abierto.
En iMlabs nos encontramos trabajando con Llama2, no quisimos perder la oportunidad de ponerle manos encima y para lo cual te presentamos esta guía de instalación, la cual creo que es la que menos conocimientos de desarrollador requiere. por lo que.. Comencemos!

Breve Introducción.

En primer lugar contextualicemos qué es Llama3 es un LLM(Gran modelo de lenguaje) creado por Meta, el cual nos permite tener rendimientos muy cercanos a GPT4 con la libertad de uso e instalación. Aqui les dejo la comparativa más conocida:

llama3-gpt-comparativa

Las principales ventajas de correr LLMs de manera local son:

  • No compromete la privacidad de tus datos.
  • No requiere internet.
  • No tiene un costo mensual (aparte de electricididad y que tu pc cumpla requerimientos).

Qué necesitaremos?

  • Un PC (mac o windows) con idealmente 16 gb en ram, nos centraremos en Llama3:8b
  • Descargar Ollama en tu PC
  • Descargar una interfaz de usuario (UI) para facilitar el uso.

El caso de esta guía y sus imágenes es para un PC basado en Windows.

Comencemos con los pasos

1. Instalar Ollama y el modelo Llama3 en tu PC

En primer lugar debemos instalar Ollama, es una herramienta que nos permite gestionar LLMs de manera local, es decir, la descarga y uso del LLM en nuestro PC, pudiendo usar varios modelos, el que nos importa en esta oportunidad es Llama3, sin impedir que puedas probar otro como Mistral.

Descargar Ollama

Con la aplicación corriendo en tu PC debes saber ejecutar comandos de terminal de windows, básicos. No te preocupes para eso te ayudaremos.

Ejecuta una terminal en windows presionando tecla Windows y luego

terminal windows11

En ella podremos ejecutar el comando para descargar el modelo que queramos de la lista:
Listado de modelos Ollama
Como bien podrás suponer, descargaremos el modelo Llama3 con el siguiente comando:

Plaintext
Ollama pull llama3
Plaintext

Lo cual inicia una descarga de la ultima version publicada para el modelo Llama3:8b, actualmente pesa 4,7 gb. Llama3:80b queda fuera de contexto dado que la cantidad de ram sugerida es de 64gb.
Una vez terminada la descarga podemos comprobar el listado de modelos descargados con el siguiente comando:

Plaintext
Ollama list
Plaintext

Lo cual deberíamos ver de este modo:

ollama list

Con esto ya seremos capaces de usar el modelo a través de la terminal, pero no es lo que queremos dado que nos dificultaría su uso, para ello continuaremos la paso 2.

¿Necesitas integrar AI a tu proceso de ventas?

2. Instalar una Interfaz gráfica.

Para simplificar este paso dado que hay muchas variantes a usar, como usar LLMStudio, en esta guía nos enfocaremos en usar Anything LLM, el cual pueden descargar aqui.

Windows 11, levanta una alerta de seguiridad, la cual debes pasar.

Con Anything LLM instalado y sin dejar de tener Ollama corriendo en segundo plano, no vamos a generar los enlaces necesarios. Para ello nos vamos a settings dentro de Anything LLM y configuramos el LLM de preferncia, el cual debe verse así:

Ollama preferences
  • En LLM provider buscamos Ollama, el cual lógicamente estamos usando de manera local
  • En la Base URL, vamos a ver Ollama que ya ha levantado el modelo localmente, el comando es:
Plaintext
Ollama serve
Plaintext
  • Aqui podremos extraer la IP local y el puerto, no olvidar agregar http:// a la URL.
Ollama serve
  • La seleccion del modelo dentro de los descargados es evidente y usar la ventana de tokens por defecto (en otra oportunidad entraremos en estos detalles).

Luego toca revisar el Transcription Model, dejamemos por ahora el integrado por AnythingLLM (AnythingLLM Built-in).
Igual para el Embedder Preferences, el por defecto de AnythingLLM.
Vector Database, por defecto, LanceDB. Esto se hace relevante a futuro para sumar datos para personalizar el modelo.

Con todo funcionando ya deberíamos poder interactuar en una ventana de Chat, simiar a como se realiza con GPT.

AnythingLLM Chat

La primera interacción con el modelo suele ser lenta, dado que se inicializa con ella, podemos ver como ocurre con la memoria ram de tu GPU (administrador de tareas de windows)

Y una ventaja es que podemos asignar contexto al espacio de trabajo, para ello iremos al ícono de subir archivo:

Donde podemos entregar variados archivos, incluso webs para trabajar en esa base con el chat, aquí un ejemplo:

Alternativamente podemos usar la pestaña de data conector (en la imange anterior) para cargar un repositorio completo de github o la transcripción de un video en youtube. Alguien se acuerda de ChatRTX? muy similar en este apartado.

Con ello ya estamos listos para operar sin límite de promts por tiempo o con consumo de tokens según tu uso habitual.

Tambien es posible que configures tus propios asistentes para pulir mucho mas tu interacción para usos acotados. Lo cual abordaremos en futuras entradas

Agregar un comentario

Tu dirección de correo electrónico no será publicada. Los campos requeridos están marcados *