Bygg din egen generative AI-app: 13 populære modeller å utforske


Utforsk Generative AI-modeller: En Guide for Applikasjonsutvikling

Ønsker du å skape dine egne generative kunstig intelligens-applikasjoner? Her presenteres en oversikt over AI-modeller som kan hjelpe deg i gang.

AI-modeller representerer komplekse nevrale nettverk som utmerker seg i spesifikke oppgaver. Dette inkluderer arkitekturer som konvolusjonelle nevrale nettverk for bildeanalyse, store pre-trenede språkmodeller for tekstgenerering, og diffusjonsmodeller for bildegenerering.

I det siste har AI-modeller for generative applikasjoner – for bilder, lyd, tekst og mer – opplevd en enorm økning i popularitet. Dette skyldes både betydelige fremskritt innen forskning og forbedret tilgang til databehandlingskraft.

Nedenfor følger en kort oppsummering av de mest brukte AI-modellene som vil bli beskrevet mer detaljert i denne artikkelen.

Modell Nøkkelfunksjoner
GPT-4 En kraftig språkmodell som kan anvendes til å utvikle LLM-drevne applikasjoner.
LLaMA Velegnet for en rekke NLP-applikasjoner, fra chatbots til kodeassistenter.
Falcon En åpen kildekode språkmodell som kan brukes til å bygge LLM-drevne applikasjoner.
Stabil diffusjon Kan brukes til tekst-til-bilde generering, bildeendring og oppskalering.
DALL-E 2 Genererer bilder fra tekstbeskrivelser.
Whisper For talegjenkjenning, språkoversettelse og identifisering av språk.
StableLM En lett, åpen kildekode språkmodell.
CLIP Kan brukes i flere NLP-oppgaver, slik som spørsmålsbesvarelse og tekstgenerering.
InternLM En stor åpen kildekode språkmodell, anvendbar for LLM-applikasjoner.
Segment Anything Model Generaliserer på tvers av ulike bildesegmenteringsoppgaver uten ekstra trening.
WaveGAN Generering av lyd.
CycleGAN og pix2pix For bilde-til-bilde oversettelse.
BioGPT For generering av biomedisinsk tekst og datautvinning.

Enten du ønsker å skape AI-kunst eller utvikle en personlig kodeassistent, finnes det et bredt spekter av generative AI-applikasjoner du kan utforske. Her presenterer vi et utvalg spennende modeller, sammen med deres viktigste funksjoner.

La oss sette i gang!

GPT-4

Fra å planlegge reiseruter til å utforme jobbsøknader, har ChatGPT blitt en del av manges hverdag. GPT-4, som er etterfølgeren, er en enda mer avansert språkmodell.

GPT-4 er OpenAIs mest kapable AI-system, med forbedrede resonneringsevner og ytelse sammenlignet med ChatGPT.

Her er en teknisk gjennomgang av hvordan GPT-4 fungerer og hvordan du kan bygge applikasjoner basert på den.

Du kan få tilgang til ChatGPT via en gratis OpenAI-konto. For å få tilgang til GPT-4 kreves imidlertid et ChatGPT Plus-abonnement.

Eksempler på applikasjoner som kan utvikles med disse språkmodellene:

  • Skreddersydde chatbots
  • Forbedrede CRM-systemer
  • Spørsmålsbesvarelse basert på tilpasset datagrunnlag
  • Andre oppgaver som oppsummering og tekstgenerering

Nå skal vi se nærmere på noen store åpen kildekode språkmodeller.

LLaMA

Meta AI lanserte i februar 2023 LLaMA, en fundamental språkmodell med 65 milliarder parametere. Deretter ble Llama 2 lansert med betydelige forbedringer. Du får tilgang til:

  • Llama Chat: Finjustert versjon av Llama 2.
  • Code Llama: Basert på Llama 2, trent på over 500 milliarder kode-tokens. Støtter kodegenerering i de mest populære programmeringsspråkene.

Du kan laste ned Llama-modellene etter å ha bedt om tilgang. Se denne veiledningen for å lære å bruke Llama 2 i dine Python-applikasjoner:

Falcon

Falcon er enda en åpen kildekode språkmodell, utviklet av Technology Innovation Institute (UAE). Alle modellene i Falcon LLM-pakken er fritt tilgjengelige og kan brukes til å utvikle LLM-drevne applikasjoner.

Det finnes for tiden fire modellstørrelser: 1.3B, 7.5B, 40B og 180B. 180B-modellen er trent på et datasett med 3.5T tokens for å oppnå bedre resultater på ulike benchmarks. Falcon LLM yter på nivå med andre ledende åpen kildekode LLM-er.

Falcon 180B oppnår ytelse som er sammenlignbar med GPT-4. Sjekk ut denne veiledningen som dekker Falcon 180B, hvordan du bruker den, maskinvarekrav og hvordan den sammenlignes med GPT-4:

Stabil diffusjon

Stabil diffusjon er en tekst-til-bilde modell for bildegenerering og andre kreative AI-applikasjoner. Den kan også brukes til bildeoppskalering og endring.

Stabil diffusjon XL, lansert i juli 2023, tilbyr flere forbedringer, inkludert:

  • Generering av detaljerte bilder fra korte ledetekster.
  • Mulighet for å inkludere tekst i bilder.
  • Bildeendrings- og utfyllingsoppgaver.
  • Interaksjon med et eksisterende bilde for å skape variasjoner.

Hvis du vil lære mer om hvordan diffusjonsmodeller fungerer, kan du ta en titt på Hvordan diffusjonsmodeller fungerer, et gratis kurs fra DeepLearning.AI.

DALL-E 2

DALL-E 2 fra Open AI er en annen populær modell for bildegenerering fra tekst. Du kan bruke den til å lage realistiske bilder og kunst fra tekstbeskrivelser.

Den kan brukes til følgende oppgaver:

  • Bildegenerering fra tekstbeskrivelser.
  • Bildeendring og utfylling.
  • Generering av variasjoner av et bilde.

Du kan få tilgang til DALL-E 2 via OpenAI API eller OpenAI labs webgrensesnitt.

Whisper

Open AI sin Whisper er en talegjenkjenningsmodell som kan brukes til en rekke applikasjoner, inkludert:

  • Språkidentifikasjon.
  • Talegjenkjenningsoppgaver, som transkribering av lydfiler.
  • Taleoversettelse.

Her er en veiledning for hvordan du konverterer tale til tekst ved hjelp av OpenAI Whisper API:

For å teste modellen kan du installere Whisper (openai-whisper) ved hjelp av pip, og få tilgang til API-et fra et Python-skript for å transkribere lydfiler. Du kan også bruke andre store språkmodeller til å oppsummere transkripsjonen og bygge en lydfil → oppsummeringspipeline.

StableLM

StableLM er en åpen kildekode LLM-suite fra Stability AI. Modellene på 3B og 7B parametere er tilgjengelige nå. Større modeller med 15-65 milliarder parametere vil bli lansert senere.

Hvis du ønsker å eksperimentere med lette, åpne LLM-er i dine applikasjoner, kan StableLM være verdt å prøve.

CLIP

CLIP står for Contrastive Language-Image Pre-training. Det er et nevralt nettverk, en multimodal modell, trent på et stort datasett med (tekst, bilde)-par. Modellen analyserer språklige data for å lære semantikken i bilder. CLIP kan forutsi hvilken tekst som er mest relevant for et gitt bilde.

Med CLIP kan du utføre null-shot bildeklassifisering uten omfattende forhåndstrening. Du kan også utnytte CLIP og vektordatabaser til å skape interessante applikasjoner i:

  • Tekst-til-bilde og bilde-til-bilde søk
  • Omvendt bildesøk

Segment Anything Model

Bildesegmentering er prosessen med å identifisere piksler som tilhører et spesifikt objekt i et bilde. Meta AI lanserte Segment Anything Model (SAM), som kan brukes til å segmentere ethvert bilde og isolere objekter i det.

Bildekilde: Segment Anything

Du kan bruke ledetekster for å angi hva som skal segmenteres i et bilde. SAM støtter ledetekster som grensefelt, masker og forgrunns- og bakgrunnspunkter. Modellen har også utmerket null-shot generaliseringsevne på tidligere usette bilder, så det kreves ingen ekstra trening.

Prøv ut SAM-modellen i nettleseren din!

InternLM

InternLM er en åpen kildekode språkmodell. Du kan prøve ut 7B-basismodellen og den åpne chat-modellen. Modellen støtter et kontekstvindu på 8K. InternLM støtter også kodefortolkere og funksjonsanropsmuligheter.

InternLM er også tilgjengelig i HuggingFace transformatorbiblioteket. Du kan utnytte det lette rammeverket før trening. Den støtter også bygging og distribusjon av applikasjoner med LMDeploy. Derfor kan du utvikle ende-til-ende generative NLP-applikasjoner med InternLM.

WaveGAN

WaveGAN er en modell for lydgenerering. Den hjelper til med å syntetisere rå lyd fra prøver av ekte lyddata.

Du kan trene WaveGAN på et datasett med valgfrie lydfiler og syntetisere lyd uten omfattende forbehandling.

CycleGAN og Pix2Pix

Vi har nå sett på tale-til-tekst, tekst-til-bilde og andre modeller for ulike oppgaver innen naturlig språkbehandling. Men hva hvis du ønsker å utføre bilde-til-bilde oversettelse? Her kan du bruke CycleGAN for å lære en mapping fra kildedomenet til måldomenet og utføre bilde-til-bilde oversettelse.

For eksempel, hvis du har et bilde av en innsjø om vinteren, kan du ønske å oversette det samme bildet til sommer. Eller du har et bilde av en hest og ønsker å bytte hesten ut med en sebra, mens bakgrunnen forblir den samme. CycleGAN er godt egnet for slike oppgaver.

Pix2pix-modellen kan også brukes til bilde-til-bilde oversettelse; hovedfunksjonene inkluderer:

  • Gjenskape objekter fra kantkart
  • Fargelegging av bilder

Du kan finne PyTorch-implementeringene av CycleGAN og pix2pix på GitHub.

BioGPT

BioGPT fra Microsoft er en transformatormodell som kan brukes for biomedisinsk datautvinning og tekstgenereringsapplikasjoner. Den benytter sekvens-til-sekvens modellimplementeringer levert av fairseq.

Fairseq fra Facebook research (nå Meta AI) er et verktøysett som gir implementeringer av sekvens-til-sekvens modeller for oppgaver som:

  • Språkmodellering
  • Oversettelse
  • Oppsummering

Både forhåndstrente modeller og finjusterte modellsjekkpunkter er tilgjengelige. Du kan laste ned modellen enten fra URL-en eller fra HuggingFace-huben.

BioGPT-modellene er også en del av HuggingFace transformatorbiblioteket. Hvis du arbeider innen biomedisin, kan du bruke BioGPT til å utvikle applikasjoner som er spesifikke for dette domenet.

Avslutning

Jeg håper du har funnet noen nyttige modeller som du kan bruke til å utvikle generative AI-applikasjoner. Selv om denne listen ikke er fullstendig, har vi dekket noen av de mest populære modellene du kan bruke til å bygge apper for tekst- og lydgenerering, tale-til-tekst transkripsjon, bildesøk og mer.

Når du bygger applikasjoner med store språkmodeller, bør du være oppmerksom på vanlige fallgruver, som feilinformasjon og hallusinasjoner. Du kan også støte på begrensninger når du finjusterer modeller, ettersom finjusteringsprosessen ofte er ressurskrevende.

Hvis du er en utvikler, er det på tide å bli med i AI-revolusjonen og begynne å bygge spennende AI-applikasjoner! Du kan prøve ut disse modellene i Google Colab eller andre skybaserte notatbøker for datavitenskap.