Těžba textu (anglická verze)

Synonymtextmininggenerallyreferstotextmining(Englishversion)

Introduction

"TextMining(Englishversion)"isamasterpieceinthefieldoftextmining.Theauthorisaworld-renownedauthoritativescholar."TextMining(EnglishEdition)"isverysuitableforresearchersandpractitionersinthefieldoftextminingandinformationretrieval.Itisalsosuitableasatextbookfordataminingandknowledgediscoverycoursesforpostgraduatesincomputerandrelatedmajorsincollegesanduniversities.

Abouttheauthor

RonenFeIdmarl,apioneerinmachinelearning,dataminingandunstructureddatamanagement.SeniorLecturerintheDepartmentofMathematicsandComputerScienceatBar-liarlUniversity,Israel,DirectoroftheDataMiningLaboratory,Co-founderandChairmanofClearforestCompany(mainlydevelopingnext-generationtextminingapplicationsforenterprisesandgovernmentagencies),andnowamemberofNewYorkUniversity'sSternSchoolofBusinessAssociateProfessor.

JamesSangerventurecapitalist,arecognizedindustryexpertinthefieldsofbusinessdatasolutions,InternetapplicationsandITsecurityproducts.Heco-foundedABSVetlluresin1982.Priortothis,hewasthemanagingdirectorofDBCapitalNewYork.HegraduatedfromtheUniversityofPennsylvaniawithabachelor'sdegreeandgraduatedfromtheUniversityofOxfordandtheUniversityofLiverpool.HeisamemberofIEEEandtheAmericanAssociationforArtificialIntelligence(AAAI).

MediaRecommendation

"...koupil jsem tuto knihu. Tato kniha je rozhodně referenční knihou, kterou stojí za to mít."

——L.VenkataSubramaniam,IBMIndiaResearchLaboratory

"Anintroductiontotextminingwrittenbythemostimportantexpertinthefield.Thisbookisverywellwritten.Itperfectlycombinesthetheoryandpracticeoftextmining.Suitableforresearchersandpractitioners...Itishighlyrecommendedforthosewhodonothaveanycomputationallinguisticsbackgroundandwanttodelveintothefieldoftextminingtoreadthisbook."

——RadaMihalcea, University of NorthTexas

Textmininghasbecomeanexcitingnewresearchfield.Thisbookiswrittenbyworld-renownedauthoritativescholars.Inadditiontoexplainingcoretextminingandlinkdetectionalgorithmsandtechniques,italsointroducesadvancedpreprocessingtechniques.Andconsiderthefactorsofknowledgerepresentationandvisualizationmethods.also.Thebookalsodiscussestheapplicationofrelatedtechnologiesinpractice,takingintoaccountthetheoryandpracticeoftextmining.

Obsah

I.Úvod do textové těžby1

I.1DefiningTextMining1

I.2 Obecná architektura textových těžebních systémů13

II.CoreTextMiningOperations19

II.1Operace těžby základních textů19

II.2 Používání znalostí na pozadí pro těžbu textu41

II.3TextMiningQueryLanguages51

III.TextTěžbaPreprocessingTechniques57

III.1Přístupy zaměřené na úkoly58

III.2Další čtení62

IV.Kategorizace64

IV.1Aplikace kategorizace textu65

IV.2Definiceproblému66

IV.3Prohlášení o dokumentu68

IV.4 Znalostní inženýrský přístup k TC70

IV.5 Přístup ke strojovému učení TC70

IV.6 Použití UnlabeledDatatoImproveClassification78

IV.7HodnoceníKlasifikátorů textu79

IV.8 Citace a poznámky80

V.Clustering82

V.1ClusteringTasksinTextAnalysis82

V.2Obecný problém klastrování84

V.3Algoritmy shlukování85

V.4 Shlukování textových dat88

V.5 Citace a poznámky92

VI.Extrakce informací94

VI.1Úvod do získávání informací94

VI.2Historický vývoj IE:TheMessageUnderstandingConferencesandTipster96

VI.3IEPříklady101

VI.4Architektura IESystems104

VI.5AnaphoraResolution109

VI.6 Indukční algoritmy pro IE119

VI.7StrukturálníIE122

VI.8Další čtení129

VII. Pravděpodobnostní modely pro extrakci informací131

VII.1HiddenMarkovModels131

VII.2StochasticContext-FreeGrammars137

VII.3Modelování maximální entropie138

VII.4MaximalEntropyMarkovModels140

VII.5 Podmíněná náhodná pole142

VII.6Další čtení145

VIII.PreprocessingApplicationsUsingProbabilisticandHybridApproaches146

VIII.1Aplikace HMM na textovou analýzu146

VIII.2Použití MEMM pro extrakci informací152

VIII.3 Aplikace CRF na textovou analýzu153

VIII.4TEG: Použití pravidel SCFGR pro Hybrid Statistical–Knowledge-BasedIE155

VIII.5Bootstrapping166

VIII.6Další čtení175

IX.Úvahy o prezentační vrstvě pro prohlížení a upřesnění dotazů177

IX.1Procházení177

IX.2AccessingConstraintsandSimpleSpecificationFiltersatthePresentationLayer185

IX.3Přístup k základnímu dotazovacímu jazyku186

IX.4 Citace a poznámky187

X. Vizuální přístupy189

X.1Úvod189

X.2Architektonické úvahy192

X.3 Běžné vizualizační přístupy pro těžbu textu194

X.4VisualizationTechniquesinLinkAnalysis225

Příklad X.5 Real-World: TheDocumentExplorerSystem235

XI.LinkAnalýza244

XI.1Předběžné zápasy244

XI.2Automatické rozvržení sítí246

XI.3 Cesty a cykly v grafech250

XI.4Centralita251

XI.5Rozdělení sítí259

XI.6PatternMatchinginNetworks272

XI.7Softwarové balíčky pro LinkAnalysis273

XI.8 Citace a poznámky274

XII.TextMiningApplications275

XII.1Obecné úvahy276

XII.2 Podnikové finance: Literatura těžebního průmyslu pro obchodní zpravodajství281

XII.3A„Horizontální“TextTěžbaAplikace:PatentAnalýzaŘešeníVyužitíkomerčníTextAnalyticsPlatform297

XII.4 LifeSciences Research: MiningBiological PathwayInformation with GeneWays309

PřílohaA:DIAL:ADedicatedInformationExtractionLanguageforTextMining317

A.1Co je DIALLjazyk?317

A.2Extrakce informací v prostředí DIALE318

A.3TextTokenization320

A.4Struktura koncepce a pravidel320

A.5PatternMatching322

A.6PatternElements323

A.7RuleConstraints327

A.8ConceptGuards328

A.9CompleteDIALEpříklady329

Bibliografie337

Index 391