Posted in Artikuj & Tutoriale, Përmbledhje, Shkencë kompjuterike, Tekste, Video, Zhvillim i softuerit

Arritjet në Deep Learning gjatë vitit të fundit

Zhvillime të mëdha në teknologjitë e tekstit, zërit dhe të pamurit kompjuterik

Nga: Ed Tyantov, data scientist (artikull i përkthyer nga Ridvan Bunjaku)

Përshëndetje. Në këtë artikull, do t’ju tregoj se çka ka ndodhur në botën e Machine Learning gjatë vitit të kaluar (kryesisht në Deep Learning). Dhe ka pasur shumë gjëra, prandaj u ndala më së shumti, sipas mendimit tim, në arritjet spektakulare dhe/ose domethënëse. Në artikull nuk janë dhënë aspektet teknike të përmirësimit të arkitekturave të rrjetit. T’i zgjerojmë horizontet tona!

 

1. Teksti

1.1. Neural Machine Translation në Google

Pothuajse një vit më parë, Google njoftoi nisjen e një modeli të ri për Google Translate . Kompania e përshkroi në detaje arkitekturën e rrjetit — Rrjeti rekurent neural (Rrjeti nervor i përsëritur) (RNN) — në artikullin e vet.

 

Rezultati kryesor: afrimi i saktësisë me njerëzit në saktësinë e përkthimit nga 55-85% (e vlerësuar nga njerëzit në një shkallë 6-pikëshe). Është e vështirë të riprodhohen rezultate të mira me këtë model pa datasetin e madh të të dhënave që e ka Google.

imazh

 

1.2. Negociatat. A do të ketë marrëveshje?

Me gjasë e keni dëgjuar lajmin budallaq që Facebook e fiku chatbotin e vet, i cili doli jashtë kontrollit dhe e shpiki gjuhën e vet. Ky chatbot u krijua nga kompania për negociata. Qëllimi i tij është të bëjë negociata tekstuale me një agjent tjetër dhe ta arrijë një marrëveshje: si të ndahen artikujt (libra, kapele, etj.) nga dy agjentët. Çdo agjent e ka qëllimin e vet në negociata, të cilin nuk e di agjenti tjetër. Është e pamundur të braktisen negociatat pa marrëveshje.

Për trajnim, ata e mblodhën një dataset (grup të dhënash) të negociatave njerëzore dhe e trajnuan një rrjet rekurent (të përsëritur) të mbikëqyrur. Pastaj, e morën një agjent të trajnuar me mësim të përforcuar dhe e trajnuan atë që të flasë me veten, duke e caktuar një kufi — ngjashmërinë e gjuhës me të njeriut.

Bot-i e ka mësuar një nga strategjitë reale të negocimit — të tregosh interesim të rrejshëm në aspekte të caktuara të marrëveshjes, vetëm për të hequr dorë më vonë nga to dhe për të përfituar nga qëllimet reale të saj. Kjo ka qenë përpjekja e parë për ta krijuar një bot të tillë interaktiv, dhe ishte goxha e suksesshme.

imazh

Storja e plotë është në këtë artikull dhe kodi është i disponueshëm publikisht.

Sigurisht, lajmi që kinse bot-i e ka shpikur një gjuhë ishte fryrë që nga fillimi. Gjatë trajnimit (në negociata agjentin e njëjtë) ata e çaktivizuan kufizimin e ngjashmërisë së tekstit me të njeriut dhe algoritmi e modifikoi gjuhën e ndërveprimit. Asgjë e pazakonshme.

Gjatë vitit të kaluar, rrjetet rekurente janë zhvilluar në mënyrë aktive dhe janë përdorur në shumë detyra dhe aplikacione. Arkitektura e RNN-ve është bërë shumë më e komplikuar, por në disa fusha janë arritur rezultate të ngjashme me rrjete të thjeshta feedforward — DSSM. Për shembull, Google e ka arritur të njëjtën cilësi, si me LSTM më parë, për funksionalitetin e vet të postës Smart Reply. Pos kësaj, Yandex e lansoi një motor të ri të kërkimit të bazuar në rrjete të tilla.

 

2. Zëri

2.1. WaveNet: Model gjenerues për audio të papërpunuara

Punonjësit e DeepMind (kompani e njohur për botën e saj të izoluar, tani në pronësi të Google-it) raportuan në artikullin e tyre rreth gjenerimit të audios. Thënë shkurt, hulumtuesit e bënë një model WaveNet auto-regresiv plotësisht konvolutiv të bazuar në qasjet e mëparshme të gjenerimit të imazheve (PixelRNN dhe PixelCNN).

Rrjeti u trajnua fillim-e-mbarim: tekst për hyrjen, audio për daljen. Hulumtimet dhanë rezultat të shkëlqyeshëm pasi ndryshimi në krahasim me njerëzit u zvogëlua për 50%.

imazh

Disavantazhi kryesor i rrjetit është produktiviteti i ulët, pasi, për shkak të autoregresionit, tingujt gjenerohen në mënyrë sekuenciale dhe zgjat rreth 1-2 minuta për ta krijuar një sekondë audio.

Shikojeni… më falni, dëgjojeni këtë shembull.

Nëse e heqni varësinë e rrjetit nga teksti hyrës dhe e lini vetëm varësinë nga fonema e gjeneruar paraprakisht, atëherë rrjeti do të gjenerojë fonema të ngjashme me gjuhën njerëzore, por ato do të jenë të pakuptimta.

Dëgjojeni shembullin e zërit të gjeneruar.

Ky model i njëjtë mund të aplikohet jo vetëm në të folur, por po ashtu, për shembull, në krijimin e muzikës. Paramendoni audio të gjeneruar nga modeli, që është mësuar duke e përdorur datasetin e një loje me piano (përsëri pa ndonjë varësi nga të dhënat hyrëse).

Shembull: një lojë me piano.

Lexojeni versionin e plotë të hulumtimit të DeepMind nëse jeni të interesuar.

 

2.2. Leximi i buzëve

Leximi i buzëve është edhe një arritje dhe fitore e Deep Learning ndaj njerëzve.

Google Deepmind, në bashkëpunim me Universitetin e Oksfordit, raportoi në punimin “Lip Reading Sentences in the Wild” se si modeli i tyre, i cili ishte trajnuar në një dataset televiziv, ishte në gjendje t’ia kalojë lexuesit profesional të buzëve nga kanali i BBC-së.

imazh

Në dataset janë 100,000 fjali me audio dhe video. Modeli: LSTM në audio dhe CNN + LSTM në video. Këta dy vektorë të gjendjes ushqehen me LSTM final, që e gjeneron rezultatin (karakteret).

imazh

Gjatë trajnimit janë përdorur lloje të ndryshme të të dhënave hyrëse: audio, video dhe audio + video. Me fjalë të tjera, është model “omnichannel”.

imazh

 

2.3. Sintetizimi i Obamës: sinkronizimi i lëvizjes së buzëve nga audio

imazh

Universiteti i Uashingtonit e ka bërë një punë serioze të gjenerimit të lëvizjeve të buzëve të ish-Presidentit të SHBA, Obama. Ai u zgjodh për shkak të numrit të madh të regjistrimeve të tij të performancës në internet (17 orë video HD).

Ata nuk mundën t’ia dilnin vetëm me rrjetin pasi morën shumë artifakte. Prandaj, autorët e artikullit i kanë bërë disa mbështetëse (ose truqe, nëse ju pëlqen) për ta përmirësuar kombinimin pamor dhe koordinimin kohor.

imazh

Mund ta shihni se rezultatet janë të mahnitshme. Shumë shpejt, nuk mund do të mund t’i besonit as videos me presidentin 😉

 

3. Të pamurit kompjuterik

3.1. OCR: Google Maps dhe Street View

blogun dhe punimin e tyre, ekipi i Google Brain raportoi se si ata e futën një motor të ri OCR (Optical Character Recognition) në Hartat e veta, përmes të cilit njihen shenjat (tabelat) e rrugëve dhe shenjat e dyqaneve.

imazh

imazh

Në procesin e zhvillimit të teknologjisë, kompania përpiloi një FSNS të re (French Signs Name Signs), e cila përmban shumë raste komplekse.

Për ta njohur secilën shenjë, rrjeti përdor deri në katër fotografi të saj. Veçoritë nxirren me CNN, të shkallëzuara me ndihmën e attention hapësinor (merren në konsideratë koordinatat e pikëve) dhe rezultati i jepet LSTM-së.

imazh

E njëjta qasje zbatohet edhe për detyrën e njohjes së emrave të dyqaneve në tabela (mund të ketë shumë të dhëna “zhurmë” dhe vetë rrjeti duhet të “fokusohet” në vendet e duhura). Ky algoritëm u aplikua në 80 miliardë foto.

 

3.2. Rezonimi Pamor (Visual Reasoning)

Është një lloj detyre që quhet rezonim pamor, ku një rrjeti neural i kërkohet të përgjigjet në një pyetje duke e përdorur një foto. Për shembull: “A ka në foto një gjë të gomës me madhësi të barabartë me një cilindër të verdhë metalik?” Pyetja është vërtet jotriviale, dhe deri vonë, problemi u zgjidh me saktësi prej vetëm 68.5%.

imazh

Dhe përsëri përparimi u arrit nga ekipi i Deepmind: në datasetin CLEVR ata arritën saktësi mbi-njerëzore prej 95.5% .

Arkitektura e rrjetit është shumë interesante:

  1. Duke përdorur LSTM-në e paratrajnuar në pyetjen e tekstit, marrim embedding-un e pyetjes.
  2. Nga pamja që përdor CNN (vetëm katër shtresa) marrim feature maps (harta me veçori që e karakterizojnë figurën).
  3. Pastaj, formojmë kombinime çift të prerjeve sipas koordinatave në hartat e veçorive (feature maps) (e verdha, e kaltra, e kuqja ne figurën e mëposhtme), duke i shtuar koordinatat dhe embedding-un e tekstit për secilën prej tyre.
  4. I kalojmë të gjitha këto treshe nëpër një rrjet tjetër dhe e bëjmë përmbledhjen.
  5. Prezantimi rezultues kalohet nëpër një rrjet tjetër feedforward, i cili e ofron përgjigjen në softmax.

imazh

 

3.3. Pix2Code

Një aplikacion interesant i rrjeteve neurale u shpik nga kompania Uizard: gjenerimi i një kodi layout sipas një screenshot-i nga dizajneri i ndërfaqes.

imazh

Ky është një aplikim jashtëzakonisht i dobishëm i rrjeteve neurale, që mund ta bëjnë jetën më të lehtë gjatë zhvillimit të softuerit. Autorët pohojnë se kanë arritur saktësi 77%. Megjithatë, kjo ende është nën hulumtim dhe ende nuk është folur për përdorim të vërtetë. Nuk ka kod apo dataset në kod të hapur, por ata premtojnë ta upload-ojnë atë.

 

3.4. SketchRNN: ta mësosh një makinë për të vizatuar

Ndoshta e keni parë Quick, Draw! nga Google, ku qëllimi është që të vizatojë skica të objekteve të ndryshme për 20 sekonda. Korporata e mblodhi këtë dataset që ta mësonte rrjetin neural të vizatojë, siç e përshkruan Google në blogun dhe punimin e vet.

imazh

Dataseti i grumbulluar përbëhet nga 70 mijë skica, të cilat përfundimisht u bënë të disponueshme publikisht. Skicat nuk janë fotografi, por përfaqësime të detajuara vektoriale të vizatimeve (në të cilën përdoruesi e përdori “lapsin” e shtypur, e liroi aty ku linja ishte vizatuar, e kështu me radhë).

Hulumtuesit kanë trajnuar Sequence-to-Sequence Variational Autoencoder (VAE) duke përdorur RNN si mekanizëm për kodim/dekodim.

imazh

Përfundimisht, ashtu si i ka hije auto-encoder-it, modeli e pranoi një vektor latent që e karakterizon figurën origjinale.

imazh

Gjersa dekoderi mund ta nxjerrë një vizatim nga ky vektor, ju mund ta ndryshoni atë dhe të merrni skica të reja.

imazh

Dhe madje të kryeni aritmetikë vektoriale për ta krijuar një mace-derr:

imazh

 

3.5. GANs

Një nga temat më të nxehta në Deep Learning është Generative Adversarial Networks (Rrjetet Kundërshtuese Gjeneruese) (GANs). Më së shpeshti, kjo ide përdoret për të punuar me imazhe, kështu që unë do ta shpjegoj konceptin duke i përdorur ato.

Ideja është në garën e dy rrjeteve — gjeneratorit (prodhuesit) dhe diskriminuesit (dalluesit). Rrjeti i parë e krijon një fotografi dhe i dyti përpiqet ta kuptojë nëse fotografia është reale apo e gjeneruar.

Skematikisht duket kështu:

imazh

Gjatë trajnimit, gjeneratori e gjeneron një imazh nga një vektor i rastit (zhurma) dhe e ushqen atë me inputin e diskriminuesit, i cili thotë se a është e rrejshme apo jo. Diskriminuesit i janë dhënë gjithashtu edhe imazhe reale nga dataseti.

Është e vështirë të trajnohet një konstruktim i tillë, pasi që është e vështirë për ta gjetur pikën e ekuilibrit të dy rrjeteve. Më së shpeshti diskriminuesi fiton dhe trajnimi stagnon. Sidoqoftë, përparësia e sistemit është se mund t’i zgjidhim problemet në të cilat është e vështirë për ne ta caktojmë funksionin e humbjes (loss-function) (për shembull, përmirësimi i cilësisë së fotos) — këtë ia japim diskriminuesit.

Një shembull klasik i rezultatit të trajnimit GANs janë fotografitë e dhomave të gjumit ose të njerëzve.

imazh

imazh

Më parë, e konsideruam auto-kodimin (Sketch-RNN), i cili i kodon të dhënat origjinale në një përfaqësim latent. E njëjta gjë ndodh edhe me gjeneratorin.

Ideja e krijimit të një imazhi duke përdorur vektor tregohet qartë në këtë projekt në shembullin e fytyrave. Ju mund ta ndryshoni vektorin dhe ta shihni se si ndryshojnë fytyrat.

imazh

E njëjta aritmetikë funksionon në hapësirën latente: “një njeri me syze” minus “një njeri” plus një “grua” është e barabartë me “një grua me syze”.

imazh

 

3.6. Ndryshimi i moshës së fytyrës me GANs

Nëse gjatë trajnimit ia mësoni vektorit latent një parametër të kontrolluar, kur e gjeneroni atë, mund ta ndryshoni dhe kështu ta menaxhoni imazhin e nevojshëm në foto. Kjo qasje quhet GANs i kushtëzuar.

Kështu bënë edhe autorët e punimit “Face Aging With Conditional Generative Adversarial Networks.” (Plakja e fytyrës me rrjete të kushtëzuara gjeneruese kundërshtuese). Duke e stërvitur motorin në datasetin IMDB me mosha të njohura të aktorëve, hulumtuesve iu dha mundësia për ta ndryshuar moshën e fytyrës së personit.

imazh

 

3.7. Fotot profesionale

Google e ka gjetur një tjetër aplikim interesant për GANs — përzgjedhjen dhe përmirësimin e fotografive. GANs u trajnua në një dataset të fotove profesionale: gjeneratori përpiqet t’i përmirësojë fotot e këqija (të bëra profesionalisht dhe të degraduara me ndihmën e filterave të veçantë) dhe diskriminuesit — për t’i dalluar fotot “e përmirësuara” dhe ato reale profesionale.

Një algoritëm i trajnuar kaloi nëpër panoramat e Google Street View në kërkim të kompozimit më të mirë dhe i pranoi disa fotografi me cilësi profesionale dhe gjysëm-profesionale (sipas vlerësimit të fotografëve).

imazh

imazh

 

3.8. Sintetizimi i një imazhi nga një përshkrim i tekstit

Një shembull mbresëlënës i GANs është krijimi i imazheve duke e përdorur tekstin.

imazh

Autorët e këtij hulumtimi sugjerojnë përfshirjen e tekstit në inputin jo vetëm të gjeneruesit (GANs të kushtëzuar), por edhe të një diskriminuesi, ashtu që ai ta verifikojë korrespondencën e tekstit me figurën. Për të siguruar që diskriminuesi është mësuar ta kryejë funksionin e tij, përveç trajnimit ata shtuan edhe çifte me tekst të pasaktë për fotot reale.

 

3.9. Pix2pix

Një nga artikujt më tërheqës të vitit 2016 është “Image-to-Image Translation with Conditional Adversarial Networks” (Përkthimi Imazh-në-Imazh me rrjete të kushtëzuara kundërshtuese) nga Berkeley AI Research (BAIR). Hulumtuesit e zgjidhën problemin e krijimit Imazh-në-Imazh, kur, për shembull, u kërkua të krijohet një hartë duke e përdorur një imazh satelitor, ose sipërfaqe realiste e objekteve duke e përdorur skicën e tyre.

imazh

Ja një shembull tjetër i performancës së suksesshme të GANs të kushtëzuara. Në këtë rast, kushti vlen për tërë figurën. I njohur për segmentimin e imazheve, UNet u përdor si arkitekturë e gjeneratorit dhe një klasifikues i ri, PatchGAN, u përdor si diskriminues për t’i adresuar imazhet e turbullta (figura është prerë në N copa dhe parashikimi ‘e rrejshme/reale’ shkon veçmas për secilin nga ta).

Christopher Hesse e lansoi online një demo të maces së makthit, e cila tërhoqi interes të madh nga përdoruesit.

imazh

Kodin burimor mund ta gjeni këtu.

 

3.10. CycleGAN

Për ta aplikuar Pix2Pix, ju nevojitet një dataset me çiftet përkatëse të fotove nga lëmi të ndryshme. Për shembull, në rastin me karta të lojës, nuk është problem mblidhet një dataset i tillë. Mirëpo, nëse doni të bëni diçka më të komplikuar si “shndërrimi” i objekteve ose stilizimit, atëherë në princip nuk mund të gjenden çiftet e objekteve.

Prandaj, autorët e Pix2Pix vendosën ta zhvillojnë idenë e tyre dhe e zbuluan CycleGAN për transferim ndërmjet lëmive të ndryshme të imazheve pa çifte specifike —  “Unpaired Image-to-Image Translation.” (Përkthimi i paçiftuar Imazh-në-Imazh).

imazh

Ideja është të mësohen dy çifte gjenerator-diskriminues për ta transferuar imazhin nga një lëmi në tjetrën dhe prapa, gjersa kërkojmë konsistencë të ciklit — pas një aplikimi sekuencial të gjeneratorëve, duhet të kemi imazh të ngjashëm me humbjen origjinale L1. Kërkohet një humbje ciklike për të siguruar që gjeneratori nuk ka filluar thjesht t’i transferojë fotot e një lëmie në foto të një lëmie tjetër, të cilat janë plotësisht pa lidhje me imazhin origjinal.

imazh

Kjo qasje ju lejon ta mësoni mapimin kuajt -> zebrat.

Transformimet e tilla janë të jostabile dhe shpesh krijojnë opsione të pasuksesshme:

imazh

Kodin burimor mund ta gjeni këtu.

 

3.11. Zhvillimi i molekulave në onkologji

Machine learning tani po vjen në mjekësi. Përveç njohjes së ultrazërit, MRI dhe diagnozës, ai mund të përdoret edhe për të gjetur ilaçe të reja për ta luftuar kancerin.

Tashmë kemi raportuar detalisht në lidhje me këtë hulumtim. Shkurtimisht, me ndihmën e Adversarial Autoencoder (AAE), mund ta mësoni përfaqësimin latent të molekulave dhe pastaj ta përdorni atë për të kërkuar të reja. Si rezultat, u gjetën 69 molekula, gjysma e të cilave përdoren për ta luftuar kancerin dhe të tjerat kanë potencial serioz.

imazh

3.12. Sulmet-kundërshtuese (adversarial-attacks)

Temat me sulme kundërshtuese janë hulumtuar në mënyrë aktive. Cilat janë sulmet-kundërshtuese? Rrjetet standarde të trajnuara, për shembull, në ImageNet, janë krejtësisht të paqëndrueshme kur fotografisë së klasifikuar i shtohen zhurma të veçanta. Në shembullin më poshtë, shohim se për syrin e njeriut fotografia me zhurmë është pothuajse e pandryshuar, por modeli çmendet dhe parashikon një klasë krejtësisht tjetër.

imazh

Stabiliteti arrihet me, për shembull, Fast Gradient Sign Method (FGSM): duke pasur qasje në parametrat e modelit, ju mund t’i bëni një apo disa hapa të gradientit kah klasa e dëshiruar dhe ta ndryshoni figurën origjinale.

Njëra nga detyrat në Kaggle është e lidhur me këtë: pjesëmarrësit inkurajohen të krijojnë sulme/mbrojtje universale, të cilat në fund drejtohen kundër njëri-tjetrit për ta përcaktuar më të mirin.

Pse duhet t’i investigojmë fare këto sulme? Së pari, nëse duam t’i mbrojmë produktet tona, mund t’i shtojmë zhurmë captcha-s për t’i parandaluar spammerët që ta njohin automatikisht atë. Së dyti, algoritmet janë gjithnjë e më të përfshira në jetët tona — sistemet e njohjes së fytyrës dhe makinat vetë-vozitëse. Në këtë rast, sulmuesit mund t’i përdorin mangësitë e algoritmeve.

Ja një shembull se kur syzet e veçanta ju lejojnë ta mashtroni sistemin e njohjes së fytyrës dhe “ta kaloni veten si një person tjetër”. Pra, duhet t’i marrim parasysh sulmet e mundshme kur i mësojmë modelet.

imazh

Edhe manipulimet e tilla me shenja të trafikut nuk iu lejojnë atyre të njihen si duhet.

imazh

 

4. Reinforcement learning (Të mësuarit me përforcim)

Të mësuarit me përforcim (RL) është gjithashtu një nga qasjet më interesante dhe më aktive në zhvillimin e mësimit të makinës.

Thelbi i qasjes është ta mësosh sjelljen e suksesshme të agjentit në një ambient që jep shpërblim përmes përvojës — ashtu siç mësojnë njerëzit gjatë gjithë jetës së vet.

imazh

RL përdoret në mënyrë aktive në lojëra, robotë dhe menaxhim të sistemeve (trafik, për shembull).

Natyrisht, të gjithë kanë dëgjuar për fitoret e AlphaGo në lojë ndaj profesionistëve më të mirë. Artikulli është botuar në Nature: “Mastering the Game of Go”. Studiuesit e përdorin RL për trajnim: bot-i luajti me veten për t’i përmirësuar strategjitë e veta.

 

4.1. Reinforcement learning me detyra ndihmëse të pakontrolluara

Në vitet e mëparshme, DeepMind e kishte mësuar përdorimin e DQN për të luajtur lojra arcade më mirë se njerëzit. Aktualisht, algoritmet po mësohen të luajnë lojëra më komplekse si Doom.

Një pjesë e madhe e vëmendjes i kushtohet përshpejtimit të mësimit, sepse përvoja e agjentit në ndërveprim me ambientin kërkon shumë orë të trajnimit në GPU-të moderne.

blogun e tij, Deepmind raportoi se futja e humbjeve shtesë (detyrave ndihmëse), siç është parashikimi i një ndryshimi të frame-it (kontrolli i pixel-ave) në mënyrë që agjenti t’i kuptojë më mirë pasojat e veprimeve, e përshpejton mësimin në mënyrë të konsiderueshme.

Rezultatet e të nxënit:

 

4.2. Robotët që mësojnë

Në OpenAI, e kanë studiuar në mënyrë aktive trajnimin e një agjenti nga njerëzit në një ambient virtual, i cili është më i sigurt për eksperimente sesa në jetën reale.

Në një nga studimet, ekipi tregoi se është i mundur të mësuarit me një herë: një person tregon në VR si të kryhet një detyrë e caktuar, dhe një demonstrim mjafton që algoritmi ta mësojë atë dhe pastaj ta riprodhojë atë në kushte reale.

imazh

Sikur të ishte kaq e lehtë me njerëzit 😉

 

4.3. Mësimi nga preferencat e njerëzve

Këtu është hulumtimi i OpenAI dhe DeepMind në temën e njëjtë. Thelbi është se një agjent e ka një detyrë, algoritmi i ofron dy zgjidhje të mundshme për njeriun dhe tregon se cili është më i mirë. Procesi përsëritet iterativisht dhe algoritmi, me 900 bit feedback (markup binar) nga personi, mësoi se si ta zgjidhë problemin.

imazh

Si gjithmonë, njeriu duhet të jetë i kujdesshëm dhe të mendojë për atë se çka po i mëson makinës. Për shembull, vlerësuesi vendosi që algoritmi me të vërtetë donte ta mirrte objektin, por në fakt ai thjesht e simuloi këtë veprim.

imazh

 

4.4. Lëvizja në ambiente komplekse

Është një studim tjetër nga DeepMind . Për t’i mësuar robotit sjellje komplekse (ecje, kërcime, etj.) dhe madje ta bëjë atë ngjashëm me njeriun, duhet të jeni shumë i përfshirë në zgjedhjen e funksionit të humbjes, i cili do ta inkurajojë sjelljen e dëshiruar. Mirëpo, do të ishte e preferueshme që algoritmi ta mësonte vetë sjelljen komplekse duke u mbështetur në shpërblime të thjeshta.

Studiuesit ia dolën ta arrijnë këtë: ata i mësuan agjentët (emulues të trupit) të kryejnë veprime komplekse duke e ndërtuar një ambient kompleks me pengesa dhe një shpërblim të thjeshtë për përparimin në lëvizje.

imazh

Ju mund të shikoni video me rezultate mbresëlënëse. Megjithatë, është shumë më argëtuese ta shihni këtë me ton të mbivendosur 😉

 

Në fund, do ta jap një link për algoritmet e botuara kohëve të fundit për të mësuar RL nga OpenAI . Tani mund të përdorni zgjidhje më të avancuara sesa DQN standard.

 

5. Të tjera

5.1. Ftohja e qendrës së shënimeve

Në korrik 2017, Google raportoi se e shfrytëzoi zhvillimin e DeepMind në mësimin e makinës për të zvogëluar kostot e energjisë në qendrën e shënimeve.

Bazuar në informacionin e mijëra sensorëve në qendrën e shënimeve, zhvilluesit e Google-it e trajnuan një grup të rrjetit nervor për ta parashikuar PUE (Power Usage Effectiveness — Efikasitetin e përdorimit të energjisë) dhe menaxhimin më efikas të qendrës së shënimeve. Ky është shembull mbresëlënës dhe i rëndësishëm i zbatimit praktik të ML.

imazh

 

5.2. Një model për të gjitha detyrat

Siç e dini, modelet e trajnuara transferohen dobët nga detyra në detyrë, pasi secila detyrë duhet të trajnohet për një model specifik. Një hap i vogël kah universaliteti i modeleve është bërë nga Google Brain në artikullin e vet “Një model për t’i mësuar të gjithat”.

Hulumtuesit e kanë trajnuar një model që i kryen tetë detyra nga fusha të ndryshme (tekst, të folur dhe imazhe). Për shembull, përkthimi nga gjuhë të ndryshme, parsimi i tekstit, dhe njohja e imazhit dhe e zërit.

imazh

Për ta arritur këtë, ata e ndërtuan një arkitekturë komplekse të rrjetit me blloqe të ndryshme për të përpunuar të dhëna të ndryshme hyrëse dhe për ta gjeneruar një rezultat. Blloqet për encoder/dekoder bien në tri lloje: convolution, attention dhe gated mixture of experts (MoE).

imazh

imazh

Rezultatet kryesore të mësimit:

  • Janë fituar modele pothuajse të përsosura (autorët nuk i kanë korrigjuar hiperparametrat).
  • Ka transferim të njohurive midis fushave të ndryshme, domethënë, në detyrat me shumë shënime, performanca do të jetë pothuajse e njëjtë. Dhe është më e mirë në probleme të vogla (për shembull, në parsim).
  • Blloqet e nevojshme për detyra të ndryshme nuk përzihen me njëri-tjetrin dhe madje ndonjëherë ndihmojnë, për shembull, MoE – për detyrën Imagenet.

Meqë ra fjala, ky model është i pranishëm në tensor2tensor .

 

5.3. Trajnimi i Imagenet për një orë

Në postin e tyre, stafi i Facebook na tregoi se si inxhinierët e tyre ishin në gjendje ta mësonin modelin Resnet-50 në Imagenet për vetëm një orë. Ç’është e vërteta, kjo kërkonte cluster prej 256 GPU-sh (Tesla P100).

Ata përdorën Gloo dhe Caffe2 për Distributed Learning (mësim të shpërndarë). Për ta bërë procesin efektiv, ishte e nevojshme që strategjia e mësimit të përshtatej me një batch të madh (8192 elemente): mesatarizimi i gradientit, faza e nxemjes, shkalla speciale e mësimit etj. Lexo më shumë në këtë artikull.

Si rezultat, ishte e mundur të arrihej efikasitet prej 90% kur shkallëzohej nga 8 në 256 GPU. Tani hulumtuesit nga Facebook mund të eksperimentojnë edhe më shpejt, për dallim nga vdekatarët e thjeshtë pa cluster të tillë.

 

6. Risitë

6.1. Veturat vetë-vozitëse

Sfera e veturave vetë-vozitëse po zhvillohet intenzivisht dhe veturat po testohen në mënyrë aktive. Nga ngjarjet relativisht më të reja, mund të vërehet blerja e Intel MobilEye, skandalet rreth teknologjive Uber dhe Google të vjedhura nga ish punonjësi i tyre, vdekja e parë kur përdoret një autopilot dhe shumë të tjera.

Do ta theksoj një gjë: Google Waymo po e lanson një program beta. Google është pionier në këtë fushë dhe supozohet se teknologjia e tyre është shumë e mirë sepse makinat janë vozitur gati 5 milionë kilometra.

Sa i përket ngjarjeve më të fundit, makinat vetë-vozitëse janë lejuar të udhëtojnë nëpër të gjitha shtetet amerikane.

 

6.2. Kujdesi shëndetësor

Siç thashë, ML modern po fillon të futet në mjekësi. Për shembull, Google bashkëpunon me një qendër mjekësore për të ndihmuar në diagnostifikim.

imazh

Deepmind madje e ka krijuar edhe një njësi të veçantë.

imazh

Këtë vit, në kuadrin e programit të Data Science Bowl, u zhvillua një garë për ta parashikuar kancerin e mushkërive brenda një viti në bazë të imazheve të detajuara me një fond të shpërblimit prej një milion dollarë.

 

6.3. Investimet

Aktualisht, ka investime të mëdha në ML ashtu siç ishte më parë me BigData.

Kina investoi 150 miliardë dollarë në AI për t’u bërë lideri botëror në industri.

Për krahasim, Baidu Research punëson 1300 njerëz dhe në të njëjtën FAIR (Facebook) – 80. Në KDD-në e fundit, punonjësit e Alibaba-s folën për serverin e tyre parametrik KunPeng, që ekzekutohet në 100 miliardë mostra me një trilion parametra, e cila bëhet “detyrë e zakonshme” ©.

imazh

Mund t’i nxirrni vetë përfundimet tuaja, nuk është kurrë tepër vonë për të studiuar Machine Learning. Në një mënyrë apo tjetër, me kalimin e kohës, të gjithë zhvilluesit do ta përdorin Machine Learning, që do të bëhet një nga aftësitë e zakonshme, siç është sot  aftësia për të punuar me bazat e të dhënave.

Lidhja te posti origjinal.

Lidhja te posti i përkthyer anglisht.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s