Pagrindinis Naujovinti Naujas „Google“ teksto į kalbą intelektinis intelektas yra toks geras, kad statome, kad to negalite pasakyti iš tikro žmogaus

Naujas „Google“ teksto į kalbą intelektinis intelektas yra toks geras, kad statome, kad to negalite pasakyti iš tikro žmogaus

Jūsų Horoskopas Rytojui

Ar galite atskirti dirbtinio intelekto sukurtą kompiuterinę kalbą nuo tikro, gyvo žmogaus? Gal visada galvojai, kad gali. Galbūt jums patinka Alexa ir Siri, bet tikėkite, kad niekada jų nesupainiosite su tikra moterimi.

Viskas bus daug įdomiau. „Google“ inžinieriai sunkiai dirbo kurdami teksto į kalbą sistemą, vadinamą „Tacotron 2“ . Pasak a popieriaus jie paskelbė šį mėnesį, sistema pirmiausia sukuria teksto spektrogramą, vizualų vaizdą, kaip kalba turėtų skambėti. Tas vaizdas dedamas per esamą „Google“ algoritmą „WaveNet“, kuris naudoja vaizdą gamindamas itin natūraliai skambančią žmogaus kalbą.

Pernell Roberts sensta mirties metu

Naudodamiesi šiuo metodu, mokslininkai praneša: 'Mūsų modelis pasiekia vidutinį 4,53 nuomonės balą (MOS), palyginamą su 4,58 MOS už profesionaliai įrašytą kalbą'. (Vidutinis nuomonės balas yra telekomunikacijų terminas, vertinantis, kaip kažkas skamba tikroviškai.)

Kaip rodo „Google“ garso pavyzdžiai, „Tacotron 2“ iš konteksto gali aptikti daiktavardžio „dykuma“ ir veiksmažodžio „dykuma“, taip pat daiktavardžio „dabartis“ ir veiksmažodžio „esama“ skirtumą ir atitinkamai pakeisti jo tarimą. Tai gali pabrėžti didžiosiomis raidėmis rašomus žodžius ir, tinkamai sakydamas, užuot pasakęs, taiko tinkamą linksnį.

Ir tai gali sukurti tekstą, kuris skamba taip panašiai kaip žmogaus kalba, kad sunku ar neįmanoma žinoti skirtumą. Jei norite sužinoti, kaip sunku, eikite į „Google“ garso pavyzdžių puslapis ir slinkite žemyn iki paskutinio mėginių rinkinio, pavadinto „Tacotron 2 arba Human?“ Čia rasite „Tacotron 2“ ir tikrą asmenį, sakantį tokius sakinius: „Ta mergina padarė vaizdo įrašą apie„ Žvaigždžių karų “lūpų dažus.

SPOILERIO ĮSPĖJIMAS: norėdami išbandyti save, prieš perskaitydami likusią šio stulpelio dalį klausykite pavyzdžių ir atspėkite, kuris iš jų yra.

Taigi, kokie pavyzdžiai yra tekstas į kalbą, o kurie - tikras žmogaus balsas? „Google“ inžinieriai nesako, bet jie paliko labai didelę užuominą. Kiekvienas .wav failo pavyzdys turi failo pavadinimą, kuriame yra terminas „gen“ arba „gt“. Remiantis straipsniu, labai tikėtina, kad „gen“ reiškia „Tacotron 2“ sukurtą kalbą, o „gt“ yra tikra žmogaus kalba. („GT“ greičiausiai reiškia „pagrindinę tiesą“, mašininio mokymosi terminą, kuris iš esmės reiškia „realų sandorį“.)

Darant prielaidą, kad tai teisinga, pateikiami atsakymai į testą:

Joan Jett grynoji vertė 2018 m

'Ta mergina padarė vaizdo įrašą apie' Žvaigždžių karų 'lūpų dažus.'

1 pavyzdys: tikras žmogus

2 pavyzdys: takotronas 2

- Kolumbijos universitete ji įgijo sociologijos daktaro laipsnį.

1 pavyzdys: takotronas 2

2 pavyzdys: tikras žmogus

„Džordžas Vašingtonas buvo pirmasis JAV prezidentas.“

1 pavyzdys: takotronas 2

2 pavyzdys: tikras žmogus

Janice Dikinson grynoji vertė 2015 m

'Aš per daug užsiėmęs romantika.'

1 pavyzdys: tikras žmogus

2 pavyzdys: takotronas 2

Kiek tu teisingai supratai? O ar tikrai galėtumėte atskirti, ar tiesiog turėjote atspėti?