Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte (eBook)

Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte (eBook)

GRIN Verlag
GRIN Verlag
Prezzo:
€ 13,99
Compra EPUB
Prezzo:
€ 13,99
Compra EPUB

Formato

:
EPUB
Cloud: Scopri di più
Lingua: Tedesco
Editore: GRIN Verlag
Codice EAN: 9783656969730
Anno pubblicazione: 2015
Scopri QUI come leggere i tuoi eBook

Note legali

NOTE LEGALI

a) Garanzia legale, Pagamenti, Consegne, Diritto di recesso
b) Informazioni sul prezzo
Il prezzo barrato corrisponde al prezzo di vendita al pubblico al lordo di IVA e al netto delle spese di spedizione
Il prezzo barrato dei libri italiani corrisponde al prezzo di copertina.
I libri in inglese di Libraccio sono di provenienza americana o inglese.
Libraccio riceve quotidianamente i prodotti dagli USA e dalla Gran Bretagna, pagandone i costi di importazione, spedizione in Italia ecc.
Il prezzo in EURO è fissato da Libraccio e, in alcuni casi, può discostarsi leggermente dal cambio dollaro/euro o sterlina/euro del giorno. Il prezzo che pagherai sarà quello in EURO al momento della conferma dell'ordine.
In ogni caso potrai verificare la convenienza dei nostri prezzi rispetto ad altri siti italiani e, in moltissimi casi, anche rispetto all'acquisto su siti americani o inglesi.
c) Disponibilità
I termini relativi alla disponibilità dei prodotti sono indicati nelle Condizioni generali di vendita.

Disponibilità immediata
L'articolo è immediatamente disponibile presso Libraccio e saremo in grado di procedere con la spedizione entro un giorno lavorativo.
Nota: La disponibilità prevista fa riferimento a singole disponibilità.

Disponibile in giorni o settimane (ad es. "3-5-10 giorni", "4-5 settimane" )
L'articolo sarà disponibile entro le tempistiche indicate, necessarie per ricevere l'articolo dai nostri fornitori e preparare la spedizione.
Nota: La disponibilità prevista fa riferimento a singole disponibilità.

Prenotazione libri scolastici
Il servizio ti permette di prenotare libri scolastici nuovi che risultano non disponibili al momento dell'acquisto.

Attualmente non disponibile
L'articolo sarà disponibile ma non sappiamo ancora quando. Inserisci la tua mail dalla scheda prodotto attivando il servizio Libraccio “avvisami” e sarai contattato quando sarà ordinabile.

Difficile reperibilità
Abbiamo dei problemi nel reperire il prodotto. Il fornitore non ci dà informazioni sulla sua reperibilità, ma se desideri comunque effettuare l'ordine, cercheremo di averlo nei tempi indicati. Se non sarà possibile, ti avvertiremo via e-mail e l'ordine verrà cancellato.
Chiudi

Descrizione

Studienarbeit aus dem Jahr 2012 im Fachbereich Ingenieurwissenschaften - Wirtschaftsingenieurwesen, Note: 1,0, Karlsruher Institut für Technologie (KIT) (Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)), Veranstaltung: Seminar Sprache und Semantik: statistische und symbolische Verfahren, Sprache: Deutsch, Abstract: Viele Kinder lernen es wahrscheinlich schon in der Grundschule: Mit bunten Farben werden die verschiedenen Wortarten in einem Satz unterstrichen. Das klingt eigentlich ganz einfach, doch für den Computer ist es nicht so leicht, Texte zu lesen und zu verstehen wie für den Menschen. Es bedarf zunächst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fähigkeit heranreicht und nach „Verstehen“ der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet. Das Internet nimmt einen immer größeren Raum in unserer Gesellschaft ein. Alle möglichen wichtigen und unwichtigen Informationen sind dort öffentlich zugänglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen können Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache übersetzen. Automatisches Part-of-Speech Tagging ermöglicht genau diese Zuordnung maschinell. Häufig wird Part-of-Speech-Tagging als „solved task“ bezeichnet, da die Exaktheit bis zu 98% beträgt. Allerdings muss man dabei berücksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschließlich Zeitungstexte oder in ähnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind. Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textgattungen, dazu kommen u.a. eine Menge Rechtschreibfehler, grammatikalisch nicht korrekte Sätze, untypische Wortverwendungen oder Dialekte. Es macht in der heutigen Zeit, die sich immer mehr um das Internet dreht, auf jeden Fall Sinn, das Taggen möglichst diesen Bedingungen anzupassen, um selbst bei umgangssprachlichen oder nicht ganz korrekten Sätzen eine möglichst hohe Fehlerfreiheit gewährleisten zu können. In dieser Arbeit geht es um mögliche Ansätze zur Verbesserung des POS-Tagging in Web-Texten. Dafür wird in Abschnitt 2 zuerst POS-Tagging allgemein vorgestellt, in Abschnitt 3 die Probleme, die bei Web-Texten auftreten, aufgezeigt und in Abschnitt 4 mögliche Lösungsansätze vorgestellt. Im letzten Abschnitt wird dann noch das Ergebnis zusammengefasst und ein Ausblick auf das weitere Vorgehen gegeben.