Foto til tale – ta bilde av en side og få den lest opp

TTS-lesere er populære, og det finnes mange alternativer. Men betyr det at all tekst til tale-teknologi gir like gode resultater? Mange TTS-skjermlesere kan lese digital tekst fra Microsoft Word-dokumenter, HTML-nettsider eller innlimte ord fra andre tekstfiler. Men bare noen få kan gjøre om låst digital og fysisk tekst fra bilder til naturlig opplesning. De som klarer dette bruker optisk tegngjenkjenning (OCR).

Hva er OCR?

OCR, eller optisk tegngjenkjenning (også kalt tekstgjenkjenning), er en teknologi utviklet for spesialisert datauttrekk. Den har mange ulike bruksområder både i arbeidslivet og i fritiden. Denne typen teknologi består som regel av to deler: maskinvare som skanner bilder, og programvare som trekker ut og gjenbruker data. Det er likevel programvaren som er den mest interessante og avanserte delen. OCR-programvare kan identifisere bokstaver og hele ord og sette dem sammen til setninger. I tillegg gjør den det mulig å redigere innhold som opprinnelig er låst, omtrent som å redigere en PDF-fil med låst tekst.

Slik fungerer OCR

Optisk tegngjenkjenning (OCR) er en teknologi som gjør om ulike dokumenttyper, som innskannede papirdokumenter, PDF-filer eller bilder tatt med digitalkamera, til redigerbare og søkbare data. Prosessen starter med at OCR-programvaren analyserer dokumentets bildestruktur og finner områder med tekst. Deretter deles disse områdene opp i linjer, ord og tegn. Hvert tegn sammenlignes med forhåndsdefinerte mønstre eller identifiseres ved hjelp av maskinlæringsmodeller for å gi maskinlesbar tekst. Denne konverteringen gjør at tekst i bilder kan redigeres, søkes opp og behandles digitalt.

Kombinere tekst til tale og OCR

Å kombinere optisk tegngjenkjenning med tekst til tale-teknologi gir et kraftig verktøy som gjør informasjon mer tilgjengelig og effektiv. OCR henter ut tekst fra skannede dokumenter, bilder eller trykt materiale og gjør den om til maskinlesbar tekst. Deretter kan teksten sendes inn i et TTS-system som gjør skriftlige ord om til lyd. Denne kombinasjonen kan for eksempel hjelpe synshemmede med å «lese» trykt materiale, gjøre bøker og dokumenter om til lydbøker, eller gi sanntids lydversjoner av trykte utenlandstekster. Ved å koble sammen OCR og TTS kan brukere samhandle med tekstinnhold på en mer dynamisk måte, og informasjon blir lettere tilgjengelig for alle – uavhengig av leseferdighet eller synsevne.

Bruksområder for tekst til tale-OCR

Å kombinere OCR og TTS-teknologi åpner mange muligheter for å gjøre informasjon mer tilgjengelig og enkel å få med seg i ulike situasjoner. Her er noen bruksområder for tekst til tale-OCR:

Hjelpeteknologi for synshemmede: Gjør skrevet innhold fra bøker, dokumenter eller skjermer om til tale, og hjelper personer med synshemning eller blindhet å «lese» innholdet.
Læring og utdanning:
- Støtte for elever med dysleksi: Hjelper elever med dysleksi eller andre leseutfordringer ved å gjøre skrevet tekst om til lyd.
- Multimodal læring: Lar elever både lese og lytte til innhold, noe som styrker forståelse og hukommelse.
Oversettelse og språklæring: Gjør skrevet tekst på fremmedspråk om til tale, noe som bidrar til bedre uttale og forståelse.
Digitale medier: Gjør bøker, nyhetsartikler og annet trykt innhold om til lydbøker eller podcaster som kan lyttes til på farten.
Dokumenttilgjengelighet: Gjør PDF-er, skannede dokumenter og andre ikke-redigerbare formater tilgjengelige for personer som foretrekker eller trenger lydinnhold.
Analyse av historiske dokumenter: Gjør gamle manuskripter eller arkivdokumenter om til lyd for forskere eller entusiaster som vil lytte til historiske tekster.
Forretning og produktivitet: Gjør trykte, ikke-digitale rapporter om til tale for travle profesjonelle.
Korrekturlesing: Hjelper forfattere eller redaktører med å oppdage feil i trykt innhold ved å lytte til teksten.

Underholdning: Gjør tegneserier, grafiske romaner eller andre hovedsakelig visuelle medier om til en lydopplevelse.

Slik får du tekst lest opp fra et bilde

Ikke alle brukere av Apple- og Android-enheter vet at appene deres kan ha innebygd OCR-teknologi og en TTS-leser som kan gjøre enkle tekst til tale-oppgaver. Se på de innebygde TTS-funksjonene som apper som kan lese for deg gratis, eller som en gratis app som leser tekst fra kameraet, men kvaliteten er likevel ikke like god som mer avansert tekst til tale-programvare. Slik får du tilgang til tekstopplesing fra bilder på Android- og Apple-enheter:

Android

Android-enheter, i hvert fall de som kjører Android 12 eller nyere, har innebygd TTS-leser. Det er et nyttig verktøy for navigering, lesing av liten skrift osv. Men du kan også bruke det til å lese tekst fra bilder. Slik setter du opp enheten din:

Gå til «Tilgjengelighet»-menyen via «Innstillinger».
Slå på «Trykk for å høre tekst»/"Select to Speak".
Gå til TTS-leserens innstillinger og skru på «Les tekst på bilder».
Gå tilbake til startskjermen og åpne «Kamera»-appen.
Rett kameraet mot en bok, avis eller en annen skjerm med digital tekst.
Trykk på «Trykk for å høre tekst» før du trykker på et ord i «Kamera»-appen.

TTS-leseren på Android begynner å lese fra det markerte ordet. Du kan velge tekstblokker ved å dra fingeren over skjermen, akkurat som i et tekstbehandlingsprogram.

Apple

For å lese fysisk tekst høyt med en iPhone trenger du et fungerende kamera, iOS 15 eller nyere, og å aktivere den innebygde TTS-leseren.

Gå til «Tilgjengelighet» i «Innstillinger».
Trykk på «Opplest innhold».
Slå på «Les opp valg» og «Les opp skjerm».
Gå tilbake til startskjermen og slå på kameraet.
Rett kameraet mot en side og vent til «Live Text»-knappen vises nederst.
Trykk på knappen for å aktivere OCR-skjermleser.
Sveip ned med to fingre for å starte opplesing fra toppen av siden.
Trykk på et ord eller marker tekst på skjermen for å få lest opp et bestemt ord, en setning eller et avsnitt.

Akkurat som på Android har iPad og iPhone begrensede OCR- og TTS-muligheter. Tekstgjenkjennelsen er relativt god, men stemmekvaliteten er ganske kunstig og robotaktig.

Speechify – beste tekst til tale med OCR-teknologi

Selv om innebygde TTS-lesere og OCR-programvare er kjekt å ha på mobilen, er kvaliteten og ytelsen ofte begrenset. Heldigvis finnes det et alternativ! Speechify er en tekst til tale-leser som kombinerer OCR-teknologi med avanserte AI-stemmer. Den har langt bedre funksjonalitet enn standard tekstlesere på mobilen og kan skanne hele bøker og dokumenter for å gjøre fysisk tekst om til digital tekst. Deretter bruker den avanserte algoritmer og naturlig klingende stemmer som du kan tilpasse og justere hastigheten på. Speechify tekst til tale er tilgjengelig på følgende plattformer:

Windows
macOS
Linux
iOS
Android

Enten du laster ned fra Apple App Store, Google Play eller desktop-versjonen for Mac, eller installerer Chrome-utvidelsen, holder det med én lisens for å bruke Speechify på både PC, Mac og mobilenheter. Det brukervennlige grensesnittet passer for alle aldersgrupper og teknologinivåer. Med Speechify OCR kan du også få sanntidsopplesning direkte på nett.

Speechify er utviklet for personer med dysleksi, nedsatt lesefunksjon, synshemning og for alle som liker å multitaske. Hjelpeteknologien deres gjør langt mer enn en vanlig skjermleser. Velg denne appen hvis du vil gjøre om digital og fysisk tekst til en lydbok, lage podcaster og forbedre leseferdighetene på en enklere og mer fokusert måte. Prøv Speechify tekst til tale-appen gratis og skreddersy en engasjerende leseopplevelse. Speechify tilbyr også en egen AI Voice Generator på nett der du kan teste stemmingene med din egen tekst.

Speechify er verdens ledende tekst-til-tale-plattform, med over 50 millioner brukere og mer enn 500 000 femstjerners vurderinger på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, webapp- og Mac-desktop-apper. I 2025 ga Apple Speechify den prestisjetunge Apple Design Award på WWDC, og kalte det «en kritisk ressurs som hjelper folk å leve livene sine». Speechify tilbyr over 1 000 naturtro stemmer på mer enn 60 språk, og brukes i nærmere 200 land. Kjendisstemmer inkluderer Snoop Dogg og Gwyneth Paltrow. For skapere og bedrifter gir Speechify Studio avanserte verktøy, inkludert AI voice generator, AI-stemmekloning, AI-dubbing og AI-stemmebytter. Speechify driver også ledende produkter med sitt høykvalitets, kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.

Foto til tale – ta bilde av en side og få den lest opp

Cliff Weitzman

Speechify, din Voice AI-assistent
Tekst til tale. Stemmeinnskriving. Raske svar.

Hva er OCR?

Slik fungerer OCR

Kombinere tekst til tale og OCR

Bruksområder for tekst til tale-OCR