Statystyczne modelowanie zawartości dokumentów tekstowych

ABONAMENT

Statystyczne modelowanie zawartości dokumentów tekstowych

1 opinia

Autor:

Paweł Lula

Wydawca:

Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie

Format:

ibuk

TA KSIĄŻKA JEST W ABONAMENCIE

Już od 49,00 zł miesięcznie za 5 ebooków!

WYBIERZ SWÓJ ABONAMENT

W monografii przedstawiono zagadnienia dotyczące opisu treści dokumentów tekstowych za pomocą modeli statystycznych. Modele te znajdują zastosowanie we wszystkich warstwach języka – od warstwy morfologicznej, przez warstwę frazeologiczną i syntaktyczną, aż po warstwę semantyczną. Są przydatne do rozwiązywania różnych typów zadań, przy czym za najważniejsze zadanie należy uznać wyznaczanie podobieństwa pomiędzy wyrazami, zdaniami czy całymi dokumentami. Odpowiednio skonstruowany model może z powodzeniem opisywać zawartość pojedynczego dokumentu lub zbioru dokumentów określanego mianem korpusu. Pozwala również na ekstrakcję, porównywanie czy klasyfikowanie informacji pochodzących z dokumentów. Może stanowić także narzędzie służące do zmiany ich formy, czego przykładem może być automatyczna identyfikacja słów kluczowych lub wizualizacja.
W pracy zaprezentowano wyniki przeprowadzonych prac obliczeniowych, które w każdym przypadku dotyczyły analizy dokumentów polskojęzycznych i zostały zrealizowane przy użyciu narzędzi dostępnych w języku R. Pozwoliło to na ocenę tych produktów pod względem ich przydatności do analizy tekstów przygotowanych w rodzimym języku. Przedstawione wyniki badań potwierdzają przydatność zaprezentowanych metod do analizy dokumentów przygotowanych w języku polskim.

Rok wydania	2018
Liczba stron	230
Kategoria	Zastosowania informatyki
Wydawca	Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie
ISBN-13	978-83-7252-755-4
Numer wydania	1
Język publikacji	polski
Informacja o sprzedawcy	ePWN sp. z o.o.

POLECAMY

Funkcjonalność informatycznych systemów...

Arkadiusz Januszewski

ibuk

w abonamencie

wypożycz »

Społeczeństwo informacyjne

Red. Joanna Papińska-Kacperek

ibuk

w abonamencie

wypożycz »

-20%

Business Intelligence

Jerzy Surma

epub, mobi

w abonamencie

43,20 zł54,00 zł

do koszyka

Systemy wspomagania decyzji

Anna M. Kwiatkowska

ibuk

w abonamencie

wypożycz »

Funkcjonalność informatycznych systemów...

Arkadiusz Januszewski

ibuk

w abonamencie

wypożycz »

Technologie informatyczne Firmy 2.0

Red. Krzysztof Kania

ibuk

w abonamencie

wypożycz »

Multimedia w kształceniu

Józef Bednarek

ibuk

w abonamencie

wypożycz »

-20%

Modelowanie systemów informatycznych w...

Andrzej Stasiak

epub, mobi

w abonamencie

31,20 zł39,00 zł

do koszyka

Kształcenie na odległość

Józef Bednarek

ibuk

w abonamencie

wypożycz »

Informatyka ekonomiczna 18. Systemy...

Red. Iwona Chomiak-Orsa

ibuk

Za darmo »

Podstawy statystyki w Excelu

Wiesława Regel

ibuk

w abonamencie

wypożycz »

Optymalizacja decyzji w arkuszu kalkulacyjnym

Cezary Dominiak

ibuk

w abonamencie

wypożycz »

Projektowanie portali korporacyjnych dla...

Ewa Ziemba

ibuk

w abonamencie

wypożycz »

-20%

Cyfrowa przestrzeń biznesowa

Matt Mayewski

epub, mobi

w abonamencie

23,92 zł29,90 zł

do koszyka

Ciekawe propozycje

Statystyczne metody klasyfikacji tekstów

Adam Idczak

Wydawnictwo Uniwersytetu Łódzkiego

ibuk

Statystyczne metody klasyfikacji tekstów

Adam Idczak

ibuk

Za darmo »

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody... więcej >

Statystyczne systemy uczące się. Wydanie...

Jacek Koronacki

Akademicka Oficyna Wydawnicza EXIT Andrzej Lang

ibuk

Statystyczne systemy uczące się. Wydanie...

Jacek Koronacki

ibuk

w abonamencie

wypożycz »

Książka jest nowoczesnym podręcznikiem statystycznego uczenia maszynowego, czyli statystycznej analizy danych wielowymiarowych rozpatrywanej z perspektywy popularnej dziś eksploracji danych (ang. data mining). Wyłożony materiał może być... więcej >

-15%

Doskonalenie jakości w bankach. Rozdział...

Opracowanie zbiorowe

CeDeWu

3,62 zł

4,26 zł

pdf

Doskonalenie jakości w bankach. Rozdział...

Opracowanie zbiorowe

pdf

3,62 zł4,26 zł

do koszyka

Na obecnym etapie rozwoju rynku usług bankowych w Polsce często w działalności banków nie wystarczy już tylko kształtowanie świadomości i postaw projakościowych pracowników banków oraz konstruowanie i wdrażanie systemów zarządzania... więcej >

Gospodarka zasobami ludzkimi w górnictwie...

Krystyna Melich-Iwanek

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

ibuk

Gospodarka zasobami ludzkimi w górnictwie...

Krystyna Melich-Iwanek

ibuk

w abonamencie

wypożycz »

Praca jest poświęcona analizie prawidłowości kształtowania się bardzo specyficznego rynku pracy, jakim jest górnictwo węgla kamiennego. Wybór przedmiotu badania wynika stąd, że poza rolnictwem żaden segment polskiej gospodarki, a tym... więcej >

Metody statystyczne w analizach...

Red. Paweł Jokiel

Wydawnictwo Uniwersytetu Łódzkiego

ibuk

Metody statystyczne w analizach...

Red. Paweł Jokiel

ibuk

Za darmo »

Od dawna wiadomo, że statystyki najlepiej uczyć się na przykładach. Zaproponowany podział treści książki, oparty na gruntownej analizie różnych problemów hydrologicznych, dobrze spełnia ten postulat, a dołączony rozdział metodyczny i... więcej >

-14%

Metody statystyczne w sterowaniu jakością...

Grzegorz Kończak

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

0,86 zł

1,00 zł

pdf

Metody statystyczne w sterowaniu jakością...

Grzegorz Kończak

pdf

w abonamencie

0,86 zł1,00 zł

do koszyka

Praca składa się z czterech części, które tworzy dziewiętnaście rozdziałów, oraz dodatku. W niniejszej pracy przedstawiono powszechnie znane klasyczne metody wspomagające zarządzanie jakością w przedsiębiorstwach o charakterze... więcej >

-14%

Myślenie statystyczne

Walenty Ostasiewicz

Wolters Kluwer Polska SA

29,24 zł

34,00 zł

pdf

Myślenie statystyczne

Walenty Ostasiewicz

pdf

29,24 zł34,00 zł

do koszyka

W obecnych czasach globalnego ryzyka społecznego myślenie statystyczne staje się coraz bardziej powszechnie potrzebną umiejętnością, pozwala bowiem pewnie się poruszać w świecie niepewnym. Dla jednych stanowi ono podstawę i sposób... więcej >

-14%

Nieklasyczne metody statystyczne w badaniach...

Grzegorz Kończak

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

12,90 zł

15,00 zł

pdf

Nieklasyczne metody statystyczne w badaniach...

Grzegorz Kończak

pdf

w abonamencie

12,90 zł15,00 zł

do koszyka

Celami monografii są przedstawienie charakterystyki i wskazanie zalet wybranych metod statystycznych, które ze względu na swą konstrukcję można określić jako nieklasyczne metody statystyczne – w niniejszym ujęciu będą to metody... więcej >

-20%

Podstawy statystyki dla socjologów Tom 2...

Grzegorz Lissowski

Wydawnictwo Naukowe Scholar

16,80 zł

21,00 zł

pdf

Podstawy statystyki dla socjologów Tom 2...

Grzegorz Lissowski

pdf

w abonamencie

16,80 zł21,00 zł

do koszyka

Przedstawiana w drugim tomie analiza zależności statystycznych między dwiema lub większą liczbą zmiennych to najczęściej stosowany przez socjologów rodzaj analiz statystycznych. Główną przyczyną trudności pojawiających się podczas... więcej >

Spis treści

Wstęp	9

Rozdział 1. JĘZYK I JEGO BADANIE 13
1.1. Język	13
1.1.1. Uwagi ogólne	13
1.1.2. Geneza języka i uniwersalia językowe	13
1.1.3. Pojęcie i funkcje języka	15
1.1.4. Pismo	18
1.2. Językoznawstwo	19
1.2.1. Definicja i struktura językoznawstwa	19
1.2.2. Główne koncepcje w językoznawstwie współczesnym	20
1.3. Znaczenie koncepcji modelu w badaniach nad językiem	29

Rozdział 2. STATYSTYCZNE MODELE OPISU ZAWARTOŚCI DOKUMENTÓW I ICH TAKSONOMIA	31
2.1. Model zawartości dokumentu tekstowego	31
2.2. Wymiary klasyfikacji	32
2.3. Poziom opisu lingwistycznego	34
2.3.1. Poziom morfologiczny	34
2.3.2. Poziom frazeologiczny	34
2.3.3. Poziom syntaktyczny	35
2.3.4. Poziom semantyczny	36
2.3.5. Podsumowanie	36
2.4. Przeznaczenie modelu	37
2.4.1. Uwagi ogólne	37
2.4.2. Szacowanie podobieństwa	38
2.4.3. Wyszukiwanie informacji	39
2.4.4. Streszczanie dokumentów	39
2.4.5. Analiza wydźwięku	40
2.4.6. Tłumaczenie maszynowe	40
2.4.7. Podsumowanie	41
2.5. Podstawy teoretyczne modelu	41
2.6. Zakres wykorzystywanej wiedzy	43

Rozdział 3. ANALIZA LINGWISTYCZNA TEKSTU 45
3.1. Znakowanie dokumentu	45
3.2. Segmentacja tekstu	46
3.3. Lematyzacja	46
3.4. Analiza morfologiczna	47
3.4.1. Uwagi ogólne	47
3.4.2. Regułowe metody ujednoznaczniania morfologicznego	48
3.4.3. Model Markowa	49
3.4.4. Ukryty model Markowa	50
3.4.5. Wykorzystanie ukrytych łańcuchów Markowa do identyfikacji części mowy	61
3.4.6. Odległość pomiędzy łańcuchami znaków	69
3.5. Anotacja składniowa	73
3.5.1. Gramatyki formalne i ich klasyfikacja	73
3.5.2. Gramatyki formalne jako narzędzie opisu języków naturalnych	76
3.5.3. Parsowanie języków bazkontekstowych	77
3.6. Anotacja semantyczna i identyfikacja nazw własnych	87

Rozdział 4. MODELE ALGEBRAICZNE	89
4.1. Model przestrzeni wektorowej	89
4.2. Modelowanie ukrytej struktury semantycznej	92
4.2.1. Uwagi ogólne	92
4.2.2. Analiza głównych składowych	93
4.2.3. Analiza ukrytych wymiarów semantycznych	98
4.3. Odległość pomiędzy dokumentami w modelach algebraicznych	102
4.4. Wykorzystanie miar podobieństwa w procesie klasyfikacji bezwzorcowej dokumentów	105
4.5. Analiza streszczeń artykułów publikowanych w czasopiśmie „Przegląd Organizacji”	111

Rozdział 5. MODELE PROBABILISTYCZNE	121
5.1. Podejście probabilistyczne w eksploracyjnej analizie dokumentów	121
5.2. Probabilistyczna analiza ukrytych wymiarów semantycznych	124
5.3. Wnioskowanie bayesowskie	126
5.3.1. Ogólna charakterystyka wnioskowania bayesowskiego	126
5.3.2. Metoda maksymalnego prawdopodobieństwa a posteriori	129
5.3.3. Metoda oparta na aproksymacji Laplace’a	130
5.3.4. Metody symulacyjne oparte na zastosowaniu łańcuchów Markowa	132
5.4. Rozkład Dirichleta w modelowaniu zawartości dokumentów tekstowych	136
5.4.1. Rozkład beta i rozkład Dirichleta	136
5.4.2. Probabilistyczna analiza dokumentów monotematycznych	138
5.5. Ukryta alokacja Dirichleta	141
5.5.1. Postać modelu	141
5.5.2. Rozkład a priori	143
5.5.3. Funkcja wiarygodności	144
5.5.4. Wnioskowanie	145
5.5.5. Algorytm LDA	152
5.6. Analiza streszczeń prac doktorskich	155

Rozdział 6. METODY WYKORZYSTUJĄCE WIEDZĘ DZIEDZINOWĄ	170
6.1. Wstępna charakterystyka ontologii	170
6.2. Podobieństwo klas i instancji ontologii	174
6.2.1. Uwagi ogólne	174
6.2.2. Miary podobieństwa pomiędzy konceptami	174
6.2.3. Uwzględnienie kontekstu w wyznaczaniu podobieństwa pomiędzy klasami	176
6.3. Podobieństwo pomiędzy zbiorami klas	184
6.4. Analiza i pomiar podobieństwa dokumentów oparty na modelu ontologicznym	187
6.5. Analiza treści kształcenia wybranych przedmiotów akademickich	189

Rozdział 7. OPIS ZAWARTOŚCI DOKUMENTÓW ZA POMOCĄ SŁÓW I FRAZ KLUCZOWYCH	197
7.1. Klasyfikacja metod identyfikacji słów i fraz kluczowych	197
7.2. Metody oparte na częstości występowania terminów indeksujących	199
7.3. Metody oparte na teorii informacji	201
7.4. Metody oparte na współwystępowaniu wyrazów	201
7.4.1. Algorytm Matsuo-Ishizuki	201
7.4.2. Algorytm RAKE	204
7.5. Metody oparte na wynikach analizy taksonomicznej	206
7.6. Algorytm KEA	208

Rozdział 8. ANALIZA OPINII KONSUMENCKICH	210
8.1. Przedmiot badań	210
8.2. Rodzaje opinii i typy ich analizy	212
8.3. Rodzaje analiz opinii konsumenckich	212
8.4. Metody badawcze stosowane w analizie opinii	214
8.5. Analiza opinii nabywców telefonów komórkowych	214

Zakończenie	219

Literatura	221

RozwińZwiń