Hva er forsterkende læring?

Innenfor moderne kunstig intelligens (AI) er forsterkningslæring (RL) et av de kuleste forskningstemaene. AI- og maskinlæringsutviklere (ML) fokuserer også på RL-praksis for å improvisere intelligente apper eller verktøy de utvikler.

Maskinlæring er prinsippet bak alle AI-produkter. Menneskelige utviklere bruker ulike ML-metoder for å trene sine intelligente apper, spill osv. ML er et svært variert felt, og forskjellige utviklingsteam kommer med nye metoder for å trene en maskin.

En slik lukrativ metode for ML er dyp forsterkningslæring. Her straffer du uønsket maskinadferd og belønner ønskede handlinger fra den intelligente maskinen. Eksperter mener at denne metoden for ML er bundet til å presse AI til å lære av sine egne erfaringer.

Fortsett å lese denne ultimate veiledningen om forsterkende læringsmetoder for intelligente apper og maskiner hvis du vurderer en karriere innen kunstig intelligens og maskinlæring.

Hva er forsterkende læring i maskinlæring?

RL er undervisning av maskinlæringsmodeller til dataprogrammer. Deretter kan applikasjonen ta en rekke avgjørelser basert på læringsmodellene. Programvaren lærer å nå et mål i et potensielt komplekst og usikkert miljø. I denne typen maskinlæringsmodell står en AI overfor et spilllignende scenario.

AI-appen bruker prøving og feiling for å finne opp en kreativ løsning på problemet. Når AI-appen lærer riktige ML-modeller, instruerer den maskinen den kontrollerer om å gjøre noen oppgaver som programmereren ønsker.

Basert på riktig avgjørelse og oppgavefullføring, får AI en belønning. Men hvis AI gjør feil valg, står den overfor straffer, som å miste belønningspoeng. Det endelige målet for AI-applikasjonen er å samle maksimalt antall belønningspoeng for å vinne spillet.

Programmereren av AI-appen setter spillereglene eller belønningspolitikken. Programmereren gir også problemet som AI trenger for å løse. I motsetning til andre ML-modeller mottar ikke AI-programmet noe hint fra programvareprogrammereren.

AI-en må finne ut hvordan den skal løse spillutfordringene for å tjene maksimale belønninger. Appen kan bruke prøving og feiling, tilfeldige forsøk, superdatamaskinferdigheter og sofistikert tankeprosesstaktikk for å finne en løsning.

Du må utstyre AI-programmet med kraftig datainfrastruktur og koble tankesystemet til ulike parallelle og historiske spill. Da kan AI demonstrere kritisk kreativitet på høyt nivå som mennesker ikke kan forestille seg.

#1. Beseire den beste Human Go-spilleren

AlphaGo AI fra DeepMind Technologies, et datterselskap av Google, er et av de ledende eksemplene på RL-basert maskinlæring. AI spiller et kinesisk brettspill kalt Go. Det er et 3000 år gammelt spill som fokuserer på taktikk og strategier.

  Hvordan lage kolonner i nyhetsbrevstil i Word

Programmererne brukte RL-metoden for undervisning for AlphaGo. Den spilte tusenvis av Go-spilløkter med mennesker og seg selv. Så, i 2016, beseiret den verdens beste Go-spiller Lee Se-dol i en en-mot-en-kamp.

#2. Real-World Robotics

Mennesker har brukt robotikk lenge i produksjonslinjer der oppgavene er forhåndsplanlagte og repeterende. Men hvis du trenger å lage en generell robot for den virkelige verden der handlinger ikke er forhåndsplanlagt, så er det en stor utfordring.

Men forsterkningslæringsaktivert AI kan oppdage en jevn, navigerbar og kort rute mellom to steder.

#3. Selvkjørende kjøretøy

Autonome kjøretøyforskere bruker mye RL-metoden for å lære AI-ene sine for:

  • Dynamisk bane
  • Baneoptimalisering
  • Bevegelsesplanlegging som parkering og filskifte
  • Optimalisering av kontrollere, (elektronisk kontrollenhet) ECUer, (mikrokontrollere) MCUer, etc.
  • Scenariobasert læring på motorveier

#4. Automatiserte kjølesystemer

RL-baserte AI-er kan bidra til å minimere energiforbruket til kjølesystemer i gigantiske kontorbygg, forretningssentre, kjøpesentre og, viktigst av alt, datasentre. AI samler inn data fra tusenvis av varmesensorer.

Den samler også inn data om menneskelige og maskineri aktiviteter. Fra disse dataene kan AI forutse det fremtidige varmegenereringspotensialet og slår på og av kjølesystemer på passende måte for å spare energi.

Hvordan sette opp en forsterkningslæringsmodell

Du kan sette opp en RL-modell basert på følgende metoder:

#1. Politikkbasert

Denne tilnærmingen gjør det mulig for AI-programmereren å finne den ideelle policyen for maksimale belønninger. Her bruker ikke programmereren verdifunksjonen. Når du har angitt den policybaserte metoden, prøver forsterkningslæringsagenten å bruke policyen slik at handlingene den utfører i hvert trinn gjør det mulig for AI å maksimere belønningspoengene.

Det er først og fremst to typer retningslinjer:

#1. Deterministisk: Politikken kan produsere de samme handlingene i enhver gitt stat.

#2. Stokastisk: De produserte handlingene bestemmes av sannsynligheten for forekomst.

#2. Verdibasert

Den verdibaserte tilnærmingen hjelper tvert imot programmereren til å finne den optimale verdifunksjonen, som er maksimalverdien under en policy i en gitt stat. Når den er brukt, forventer RL-agenten langsiktig avkastning i en eller flere stater under nevnte policy.

#3. Modellbasert

I den modellbaserte RL-tilnærmingen lager AI-programmereren en virtuell modell for miljøet. Deretter beveger RL-agenten seg rundt i miljøet og lærer av det.

Typer forsterkende læring

#1. Positiv forsterkende læring (PRL)

Positiv læring betyr å legge til noen elementer for å øke sannsynligheten for at den forventede atferden vil skje igjen. Denne læringsmetoden påvirker oppførselen til RL-agenten positivt. PRL forbedrer også styrken til visse atferder til AI-en din.

PRL-type læringsforsterkning bør forberede AI til å tilpasse seg endringer i lang tid. Men å injisere for mye positiv læring kan føre til en overbelastning av stater som kan redusere AIs effektivitet.

  Hvordan fungerer laser- og lampeprojektorer, og hvilke passer for deg?

#2. Negativ forsterkende læring (NRL)

Når RL-algoritmen hjelper AI med å unngå eller stoppe en negativ atferd, lærer den av den og forbedrer fremtidige handlinger. Det er kjent som negativ læring. Det gir kun AI en begrenset intelligens bare for å oppfylle visse atferdskrav.

Real-Life Use Cases of Reinforcement Learning

#1. Utviklere av e-handelsløsninger har bygget personlig tilpassede verktøy for forslag til produkter eller tjenester. Du kan koble verktøyets API til din nettbutikkside. Deretter vil AI lære av individuelle brukere og foreslå tilpassede varer og tjenester.

#2. Åpen verden videospill kommer med uendelige muligheter. Det er imidlertid et AI-program bak spillprogrammet som lærer av spillernes input og modifiserer videospillkoden for å tilpasse seg en ukjent situasjon.

#3. AI-baserte aksjehandels- og investeringsplattformer bruker RL-modellen for å lære av bevegelsene til aksjer og globale indekser. Følgelig formulerer de en sannsynlighetsmodell for å foreslå aksjer for investering eller handel.

#4. Online videobiblioteker som YouTube, Metacafe, Dailymotion, etc., bruker AI-roboter som er trent på RL-modellen for å foreslå personlig tilpassede videoer til brukerne sine.

Forsterkende læring vs. Veiledet læring

Forsterkende læring tar sikte på å trene AI-agenten til å ta avgjørelser sekvensielt. I et nøtteskall kan du vurdere at utgangen til AI avhenger av tilstanden til den nåværende inngangen. På samme måte vil neste inngang til RL-algoritmen avhenge av utdataene fra tidligere innganger.

En AI-basert robotmaskin som spiller et parti sjakk mot en menneskelig sjakkspiller er et eksempel på RL-maskinlæringsmodellen.

Tvert imot, i overvåket læring, trener programmereren AI-agenten til å ta avgjørelser basert på inngangene gitt ved starten eller andre innledende input. Autonom bilkjøring AI-er som gjenkjenner miljøobjekter er et utmerket eksempel på overvåket læring.

Forsterkende læring vs. Uovervåket læring

Så langt har du forstått at RL-metoden presser AI-agenten til å lære av retningslinjer for maskinlæringsmodeller. Hovedsakelig vil AI bare gjøre de trinnene som den får maksimale belønningspoeng for. RL hjelper en AI med å improvisere seg selv gjennom prøving og feiling.

På den annen side, i uovervåket læring, introduserer AI-programmereren AI-programvaren med umerkede data. ML-instruktøren forteller heller ikke AI-en noe om datastrukturen eller hva de skal se etter i dataene. Algoritmen lærer forskjellige beslutninger ved å katalogisere sine egne observasjoner på de gitte ukjente datasettene.

Forsterkende læringskurs

Nå som du har lært det grunnleggende, her er noen nettkurs for å lære avansert forsterkende læring. Du får også et sertifikat som du kan vise frem på LinkedIn eller andre sosiale plattformer:

Forsterkende læringsspesialisering: Coursera

Ønsker du å mestre kjernekonseptene for forsterkende læring med ML-kontekst? Du kan prøve dette Coursera RL kurs som er tilgjengelig på nettet og kommer med læring og sertifiseringsalternativer i eget tempo. Kurset vil passe for deg dersom du tar med følgende som bakgrunnskompetanse:

  Hvordan fikse CPU-viftehastighetsfeilen

  • Programmeringskunnskap i Python
  • Grunnleggende statistiske begreper
  • Du kan konvertere pseudokoder og algoritmer til Python-koder
  • Erfaring med programvareutvikling på to til tre år
  • Andreårs studenter i informatikkdisiplin er også kvalifisert

Kurset har en rangering på 4,8 stjerner, og over 36 000 studenter har allerede meldt seg på kurset i forskjellige tidskurs. Videre kommer kurset med økonomisk støtte forutsatt at kandidaten oppfyller visse kvalifikasjonskriterier for Coursera.

Til slutt tilbyr Alberta Machine Intelligence Institute ved University of Alberta dette kurset (ingen kreditt tildelt). Anerkjente professorer innen informatikk vil fungere som kursinstruktører. Du får et Coursera-sertifikat ved fullført kurs.

AI Reinforcement Learning i Python: Udemy

Hvis du er i finansmarkedet eller digital markedsføring og ønsker å utvikle intelligente programvarepakker for de nevnte feltene, må du sjekke ut denne Udemy-kurs på RL. Bortsett fra kjerneprinsippene til RL, vil opplæringsinnholdet også veilede deg om hvordan du kan utvikle RL-løsninger for nettbasert annonsering og aksjehandel.

Noen bemerkelsesverdige emner som kurset dekker er:

  • En oversikt over RL på høyt nivå
  • Dynamisk programmering
  • Monet Carlo
  • Tilnærmingsmetoder
  • Aksjehandelsprosjekt med RL

Over 42 000 studenter har deltatt på kurset så langt. Den elektroniske læringsressursen har for øyeblikket en 4,6-stjerners rangering, noe som er ganske imponerende. Videre tar kurset sikte på å imøtekomme et globalt studentsamfunn siden læringsinnholdet er tilgjengelig på fransk, engelsk, spansk, tysk, italiensk og portugisisk.

Deep Reinforcement Learning i Python: Udemy

Hvis du har nysgjerrighet og grunnleggende kunnskap om dyp læring og kunstig intelligens, kan du prøve denne avanserte RL-kurs i Python fra Udemy. Med en vurdering på 4,6 stjerner fra studenter, er det nok et populært kurs for å lære RL i sammenheng med AI/ML.

Kurset har 12 seksjoner og dekker følgende viktige emner:

  • OpenAI Gym og grunnleggende RL-teknikker
  • TD Lambda
  • A3C
  • Grunnleggende om Theano
  • Grunnleggende om tensorflow
  • Python-koding til å begynne med

Hele kurset vil kreve en forpliktet investering på 10 timer og 40 minutter. Bortsett fra tekster, kommer det også med 79 ekspertforelesninger.

Deep Reinforcement Learning Expert: Udacity

Vil du lære avansert maskinlæring fra verdenslederne innen AI/ML som Nvidia Deep Learning Institute og Unity? Udacity lar deg oppfylle drømmen din. Sjekk ut dette Dyp forsterkende læring kurs for å bli en ML-ekspert.

Du må imidlertid komme fra en bakgrunn med avansert Python, mellomstatistikk, sannsynlighetsteori, TensorFlow, PyTorch og Keras.

Det vil ta flittig læring på opptil 4 måneder å fullføre kurset. Gjennom hele kurset vil du lære viktige RL-algoritmer som Deep Deterministic Policy Gradients (DDPG), Deep Q-Networks (DQN), etc.

Siste ord

Forsterkende læring er neste trinn i AI-utvikling. AI-utviklingsbyråer og IT-selskaper driver med investeringer i denne sektoren for å skape pålitelige og pålitelige AI-opplæringsmetoder.

Selv om RL har avansert mye, er det flere utviklingsområder. For eksempel deler ikke separate RL-agenter kunnskap mellom seg. Derfor, hvis du trener en app til å kjøre bil, vil læreprosessen bli treg. Fordi RL-agenter som objektdeteksjon, veireferanser osv. ikke vil dele data.

Det er muligheter for å investere din kreativitet og ML-ekspertise i slike utfordringer. Å registrere deg for nettkurs vil hjelpe deg med å øke kunnskapen din om avanserte RL-metoder og deres applikasjoner i virkelige prosjekter.

En annen relatert læring for deg er forskjellene mellom AI, Machine Learning og Deep Learning.