Introduction
"TextMining(Englishversion)"isamasterpieceinthefieldoftextmining.Theauthorisaworld-renownedauthoritativescholar."TextMining(EnglishEdition)"isverysuitableforresearchersandpractitionersinthefieldoftextminingandinformationretrieval.Itisalsosuitableasatextbookfordataminingandknowledgediscoverycoursesforpostgraduatesincomputerandrelatedmajorsincollegesanduniversities.
Abouttheauthor
RonenFeIdmarl,apioneerinmachinelearning,dataminingandunstructureddatamanagement.SeniorLecturerintheDepartmentofMathematicsandComputerScienceatBar-liarlUniversity,Israel,DirectoroftheDataMiningLaboratory,Co-founderandChairmanofClearforestCompany(mainlydevelopingnext-generationtextminingapplicationsforenterprisesandgovernmentagencies),andnowamemberofNewYorkUniversity'sSternSchoolofBusinessAssociateProfessor.
JamesSangerventurecapitalist,arecognizedindustryexpertinthefieldsofbusinessdatasolutions,InternetapplicationsandITsecurityproducts.Heco-foundedABSVetlluresin1982.Priortothis,hewasthemanagingdirectorofDBCapitalNewYork.HegraduatedfromtheUniversityofPennsylvaniawithabachelor'sdegreeandgraduatedfromtheUniversityofOxfordandtheUniversityofLiverpool.HeisamemberofIEEEandtheAmericanAssociationforArtificialIntelligence(AAAI).
MediaRecommendation
"...koupil jsem tuto knihu. Tato kniha je rozhodně referenční knihou, kterou stojí za to mít."
——L.VenkataSubramaniam,IBMIndiaResearchLaboratory
"Anintroductiontotextminingwrittenbythemostimportantexpertinthefield.Thisbookisverywellwritten.Itperfectlycombinesthetheoryandpracticeoftextmining.Suitableforresearchersandpractitioners...Itishighlyrecommendedforthosewhodonothaveanycomputationallinguisticsbackgroundandwanttodelveintothefieldoftextminingtoreadthisbook."
——RadaMihalcea, University of NorthTexas
Textmininghasbecomeanexcitingnewresearchfield.Thisbookiswrittenbyworld-renownedauthoritativescholars.Inadditiontoexplainingcoretextminingandlinkdetectionalgorithmsandtechniques,italsointroducesadvancedpreprocessingtechniques.Andconsiderthefactorsofknowledgerepresentationandvisualizationmethods.also.Thebookalsodiscussestheapplicationofrelatedtechnologiesinpractice,takingintoaccountthetheoryandpracticeoftextmining.
Obsah
I.Úvod do textové těžby1
I.1DefiningTextMining1
I.2 Obecná architektura textových těžebních systémů13
II.CoreTextMiningOperations19
II.1Operace těžby základních textů19
II.2 Používání znalostí na pozadí pro těžbu textu41
II.3TextMiningQueryLanguages51
III.TextTěžbaPreprocessingTechniques57
III.1Přístupy zaměřené na úkoly58
III.2Další čtení62
IV.Kategorizace64
IV.1Aplikace kategorizace textu65
IV.2Definiceproblému66
IV.3Prohlášení o dokumentu68
IV.4 Znalostní inženýrský přístup k TC70
IV.5 Přístup ke strojovému učení TC70
IV.6 Použití UnlabeledDatatoImproveClassification78
IV.7HodnoceníKlasifikátorů textu79
p>IV.8 Citace a poznámky80
V.Clustering82
V.1ClusteringTasksinTextAnalysis82
V.2Obecný problém klastrování84
V.3Algoritmy shlukování85
V.4 Shlukování textových dat88
V.5 Citace a poznámky92
VI.Extrakce informací94
VI.1Úvod do získávání informací94
VI.2Historický vývoj IE:TheMessageUnderstandingConferencesandTipster96
VI.3IEPříklady101
VI.4Architektura IESystems104
VI.5AnaphoraResolution109
VI.6 Indukční algoritmy pro IE119
VI.7StrukturálníIE122
VI.8Další čtení129
VII. Pravděpodobnostní modely pro extrakci informací131
VII.1HiddenMarkovModels131
VII.2StochasticContext-FreeGrammars137
VII.3Modelování maximální entropie138
VII.4MaximalEntropyMarkovModels140
VII.5 Podmíněná náhodná pole142
VII.6Další čtení145
VIII.PreprocessingApplicationsUsingProbabilisticandHybridApproaches146
VIII.1Aplikace HMM na textovou analýzu146
p>VIII.2Použití MEMM pro extrakci informací152
VIII.3 Aplikace CRF na textovou analýzu153
VIII.4TEG: Použití pravidel SCFGR pro Hybrid Statistical–Knowledge-BasedIE155
VIII.5Bootstrapping166
VIII.6Další čtení175
IX.Úvahy o prezentační vrstvě pro prohlížení a upřesnění dotazů177
IX.1Procházení177
IX.2AccessingConstraintsandSimpleSpecificationFiltersatthePresentationLayer185
IX.3Přístup k základnímu dotazovacímu jazyku186
IX.4 Citace a poznámky187
X. Vizuální přístupy189
X.1Úvod189
X.2Architektonické úvahy192
X.3 Běžné vizualizační přístupy pro těžbu textu194
X.4VisualizationTechniquesinLinkAnalysis225
Příklad X.5 Real-World: TheDocumentExplorerSystem235
XI.LinkAnalýza244
XI.1Předběžné zápasy244
XI.2Automatické rozvržení sítí246
XI.3 Cesty a cykly v grafech250
XI.4Centralita251
p>XI.5Rozdělení sítí259
XI.6PatternMatchinginNetworks272
XI.7Softwarové balíčky pro LinkAnalysis273
XI.8 Citace a poznámky274
XII.TextMiningApplications275
p>XII.1Obecné úvahy276
XII.2 Podnikové finance: Literatura těžebního průmyslu pro obchodní zpravodajství281
XII.3A„Horizontální“TextTěžbaAplikace:PatentAnalýzaŘešeníVyužitíkomerčníTextAnalyticsPlatform297
XII.4 LifeSciences Research: MiningBiological PathwayInformation with GeneWays309
PřílohaA:DIAL:ADedicatedInformationExtractionLanguageforTextMining317
A.1Co je DIALLjazyk?317
A.2Extrakce informací v prostředí DIALE318
A.3TextTokenization320
A.4Struktura koncepce a pravidel320
A.5PatternMatching322
A.6PatternElements323
A.7RuleConstraints327
A.8ConceptGuards328
A.9CompleteDIALEpříklady329
Bibliografie337
Index 391