Statystyczne modelowanie zawartości dokumentów tekstowych

Statystyczne modelowanie zawartości dokumentów tekstowych

1 opinia

Format:

ibuk

W ABONAMENCIE

od 3,50

Masz już abonament? Zaloguj się

TA KSIĄŻKA JEST W ABONAMENCIE

Już od 49,00 zł miesięcznie za 5 ebooków!

WYBIERZ SWÓJ ABONAMENT

W monografii przedstawiono zagadnienia dotyczące opisu treści dokumentów tekstowych za pomocą modeli statystycznych. Modele te znajdują zastosowanie we wszystkich warstwach języka – od warstwy morfologicznej, przez warstwę frazeologiczną i syntaktyczną, aż po warstwę semantyczną. Są przydatne do rozwiązywania różnych typów zadań, przy czym za najważniejsze zadanie należy uznać wyznaczanie podobieństwa pomiędzy wyrazami, zdaniami czy całymi dokumentami. Odpowiednio skonstruowany model może z powodzeniem opisywać zawartość pojedynczego dokumentu lub zbioru dokumentów określanego mianem korpusu. Pozwala również na ekstrakcję, porównywanie czy klasyfikowanie informacji pochodzących z dokumentów. Może stanowić także narzędzie służące do zmiany ich formy, czego przykładem może być automatyczna identyfikacja słów kluczowych lub wizualizacja.
W pracy zaprezentowano wyniki przeprowadzonych prac obliczeniowych, które w każdym przypadku dotyczyły analizy dokumentów polskojęzycznych i zostały zrealizowane przy użyciu narzędzi dostępnych w języku R. Pozwoliło to na ocenę tych produktów pod względem ich przydatności do analizy tekstów przygotowanych w rodzimym języku. Przedstawione wyniki badań potwierdzają przydatność zaprezentowanych metod do analizy dokumentów przygotowanych w języku polskim.


Rok wydania2018
Liczba stron230
KategoriaZastosowania informatyki
WydawcaWydawnictwo Uniwersytetu Ekonomicznego w Krakowie
ISBN-13978-83-7252-755-4
Numer wydania1
Język publikacjipolski
Informacja o sprzedawcyePWN sp. z o.o.

Ciekawe propozycje

Spis treści

  Wstęp     9
  
  Rozdział 1. JĘZYK I JEGO BADANIE 13
    1.1. Język     13
      1.1.1. Uwagi ogólne     13
      1.1.2. Geneza języka i uniwersalia językowe     13
      1.1.3. Pojęcie i funkcje języka     15
      1.1.4. Pismo     18
    1.2. Językoznawstwo     19
      1.2.1. Definicja i struktura językoznawstwa     19
      1.2.2. Główne koncepcje w językoznawstwie współczesnym     20
    1.3. Znaczenie koncepcji modelu w badaniach nad językiem     29
  
  Rozdział 2. STATYSTYCZNE MODELE OPISU ZAWARTOŚCI DOKUMENTÓW I ICH TAKSONOMIA     31
    2.1. Model zawartości dokumentu tekstowego     31
    2.2. Wymiary klasyfikacji     32
    2.3. Poziom opisu lingwistycznego     34
      2.3.1. Poziom morfologiczny     34
      2.3.2. Poziom frazeologiczny     34
      2.3.3. Poziom syntaktyczny     35
      2.3.4. Poziom semantyczny     36
      2.3.5. Podsumowanie     36
    2.4. Przeznaczenie modelu     37
      2.4.1. Uwagi ogólne     37
      2.4.2. Szacowanie podobieństwa     38
      2.4.3. Wyszukiwanie informacji     39
      2.4.4. Streszczanie dokumentów     39
      2.4.5. Analiza wydźwięku     40
      2.4.6. Tłumaczenie maszynowe     40
      2.4.7. Podsumowanie     41
    2.5. Podstawy teoretyczne modelu     41
    2.6. Zakres wykorzystywanej wiedzy     43
  
  Rozdział 3. ANALIZA LINGWISTYCZNA TEKSTU 45
    3.1. Znakowanie dokumentu     45
    3.2. Segmentacja tekstu     46
    3.3. Lematyzacja     46
    3.4. Analiza morfologiczna     47
      3.4.1. Uwagi ogólne     47
      3.4.2. Regułowe metody ujednoznaczniania morfologicznego     48
      3.4.3. Model Markowa     49
      3.4.4. Ukryty model Markowa     50
      3.4.5. Wykorzystanie ukrytych łańcuchów Markowa do identyfikacji części mowy     61
      3.4.6. Odległość pomiędzy łańcuchami znaków     69
    3.5. Anotacja składniowa     73
      3.5.1. Gramatyki formalne i ich klasyfikacja     73
      3.5.2. Gramatyki formalne jako narzędzie opisu języków naturalnych     76
      3.5.3. Parsowanie języków bazkontekstowych     77
    3.6. Anotacja semantyczna i identyfikacja nazw własnych     87
  
  Rozdział 4. MODELE ALGEBRAICZNE     89
    4.1. Model przestrzeni wektorowej     89
    4.2. Modelowanie ukrytej struktury semantycznej     92
      4.2.1. Uwagi ogólne     92
      4.2.2. Analiza głównych składowych     93
      4.2.3. Analiza ukrytych wymiarów semantycznych     98
    4.3. Odległość pomiędzy dokumentami w modelach algebraicznych     102
    4.4. Wykorzystanie miar podobieństwa w procesie klasyfikacji bezwzorcowej dokumentów     105
    4.5. Analiza streszczeń artykułów publikowanych w czasopiśmie „Przegląd Organizacji”     111
  
  Rozdział 5. MODELE PROBABILISTYCZNE     121
    5.1. Podejście probabilistyczne w eksploracyjnej analizie dokumentów     121
    5.2. Probabilistyczna analiza ukrytych wymiarów semantycznych     124
    5.3. Wnioskowanie bayesowskie     126
      5.3.1. Ogólna charakterystyka wnioskowania bayesowskiego     126
      5.3.2. Metoda maksymalnego prawdopodobieństwa a posteriori     129
      5.3.3. Metoda oparta na aproksymacji Laplace’a     130
      5.3.4. Metody symulacyjne oparte na zastosowaniu łańcuchów Markowa     132
    5.4. Rozkład Dirichleta w modelowaniu zawartości dokumentów tekstowych     136
      5.4.1. Rozkład beta i rozkład Dirichleta     136
      5.4.2. Probabilistyczna analiza dokumentów monotematycznych     138
    5.5. Ukryta alokacja Dirichleta     141
      5.5.1. Postać modelu     141
      5.5.2. Rozkład a priori     143
      5.5.3. Funkcja wiarygodności     144
      5.5.4. Wnioskowanie     145
      5.5.5. Algorytm LDA     152
    5.6. Analiza streszczeń prac doktorskich     155
  
  Rozdział 6. METODY WYKORZYSTUJĄCE WIEDZĘ DZIEDZINOWĄ     170
    6.1. Wstępna charakterystyka ontologii     170
    6.2. Podobieństwo klas i instancji ontologii     174
      6.2.1. Uwagi ogólne     174
      6.2.2. Miary podobieństwa pomiędzy konceptami     174
      6.2.3. Uwzględnienie kontekstu w wyznaczaniu podobieństwa pomiędzy klasami     176
    6.3. Podobieństwo pomiędzy zbiorami klas     184
    6.4. Analiza i pomiar podobieństwa dokumentów oparty na modelu ontologicznym     187
    6.5. Analiza treści kształcenia wybranych przedmiotów akademickich     189
  
  Rozdział 7. OPIS ZAWARTOŚCI DOKUMENTÓW ZA POMOCĄ SŁÓW I FRAZ KLUCZOWYCH     197
    7.1. Klasyfikacja metod identyfikacji słów i fraz kluczowych     197
    7.2. Metody oparte na częstości występowania terminów indeksujących     199
    7.3. Metody oparte na teorii informacji     201
    7.4. Metody oparte na współwystępowaniu wyrazów     201
      7.4.1. Algorytm Matsuo-Ishizuki     201
      7.4.2. Algorytm RAKE     204
    7.5. Metody oparte na wynikach analizy taksonomicznej     206
    7.6. Algorytm KEA     208
  
  Rozdział 8. ANALIZA OPINII KONSUMENCKICH     210
    8.1. Przedmiot badań     210
    8.2. Rodzaje opinii i typy ich analizy     212
    8.3. Rodzaje analiz opinii konsumenckich     212
    8.4. Metody badawcze stosowane w analizie opinii     214
    8.5. Analiza opinii nabywców telefonów komórkowych     214
  
  Zakończenie     219
  
  Literatura     221
RozwińZwiń