Копаене на текст (английска версия)

Synonymtextmininggenerallyreferstotextmining(Englishversion)

Introduction

"TextMining(Englishversion)"isamasterpieceinthefieldoftextmining.Theauthorisaworld-renownedauthoritativescholar."TextMining(EnglishEdition)"isverysuitableforresearchersandpractitionersinthefieldoftextminingandinformationretrieval.Itisalsosuitableasatextbookfordataminingandknowledgediscoverycoursesforpostgraduatesincomputerandrelatedmajorsincollegesanduniversities.

Abouttheauthor

RonenFeIdmarl,apioneerinmachinelearning,dataminingandunstructureddatamanagement.SeniorLecturerintheDepartmentofMathematicsandComputerScienceatBar-liarlUniversity,Israel,DirectoroftheDataMiningLaboratory,Co-founderandChairmanofClearforestCompany(mainlydevelopingnext-generationtextminingapplicationsforenterprisesandgovernmentagencies),andnowamemberofNewYorkUniversity'sSternSchoolofBusinessAssociateProfessor.

JamesSangerventurecapitalist,arecognizedindustryexpertinthefieldsofbusinessdatasolutions,InternetapplicationsandITsecurityproducts.Heco-foundedABSVetlluresin1982.Priortothis,hewasthemanagingdirectorofDBCapitalNewYork.HegraduatedfromtheUniversityofPennsylvaniawithabachelor'sdegreeandgraduatedfromtheUniversityofOxfordandtheUniversityofLiverpool.HeisamemberofIEEEandtheAmericanAssociationforArtificialIntelligence(AAAI).

Препоръка за медиите

"...Купих тази книга. Тази книга определено е справочник, който си струва."

——L.VenkataSubramaniam, IBMIndiaResearchLaboratory

"Anintroductiontotextminingwrittenbythemostimportantexpertinthefield.Thisbookisverywellwritten.Itperfectlycombinesthetheoryandpracticeoftextmining.Suitableforresearchersandpractitioners...Itishighlyrecommendedforthosewhodonothaveanycomputationallinguisticsbackgroundandwanttodelveintothefieldoftextminingtoreadthisbook."

——Rada Mihalcea, Университет на Северен Тексас

Textmininghasbecomeanexcitingnewresearchfield.Thisbookiswrittenbyworld-renownedauthoritativescholars.Inadditiontoexplainingcoretextminingandlinkdetectionalgorithmsandtechniques,italsointroducesadvancedpreprocessingtechniques.Andconsiderthefactorsofknowledgerepresentationandvisualizationmethods.also.Thebookalsodiscussestheapplicationofrelatedtechnologiesinpractice,takingintoaccountthetheoryandpracticeoftextmining.

Съдържание

I.Въведение в TextMining1

I.1 Дефиниране на TextMining1

I.2Обща архитектура на системите за копаене на текст13

II.CoreTextMiningOperations19

II.1Операции за извличане на основен текст19

II.2 Използване на фонови знания за копаене на текст41

II.3Езици за заявки за извличане на текст51

III. Техники за предварителна обработка на извличане на текст57

III.1Подходи, ориентирани към задачи58

III.2 Допълнително четене62

IV.Категоризация64

IV.1 Приложения на текстова категоризация65

IV.2 Дефиниция на проблема66

IV.3 Представяне на документ68

IV.4 Подход на инженерството на знанията към TC70

IV.5 Подход на машинно обучение към TC70

IV.6 Използване на немаркирани данни за подобряване на класификацията78

IV.7 Оценка на текстови класификатори79

IV.8 Цитати и бележки80

V.Клъстериране82

V.1 Клъстерни задачи в анализ на текст82

V.2 Общият проблем с групирането84

V.3 Алгоритми за групиране85

V.4 Групиране на текстови данни88

V.5 Цитати и бележки92

VI.Извличане на информация94

VI.1 Въведение в извличането на информация94

VI.2Историческа еволюция на IE: TheMessageUnderstandingConferencesandTipster96

VI.3IEПримери101

VI.4Архитектура на IES системите104

VI.5 Резолюция на анафора109

VI.6 Индуктивни алгоритми за IE119

VI.7Структурен IE122

VI.8 Допълнително четене129

VII. Вероятностни модели за извличане на информация131

VII.1 Скрити модели на Марков131

VII.2 Стохастични граматики без контекст137

VII.3 Моделиране на максимална ентропия138

VII.4Марковски модели на максимална ентропия140

VII.5Условни произволни полета142

VII.6 Допълнително четене145

VIII.PreprocessingApplicationsUsingProbabilisticandHybridApproaches146

VIII.1 Приложения на HMM към текстов анализ146

VIII.2 Използване на MEMM за извличане на информация152

VIII.3 Приложения на CRF за текстов анализ153

VIII.4TEG: Използване на SCFGПравила за хибриден статистически–базиран на знания IE155

VIII.5 Стартиране166

VIII.6 Допълнително четене 175

IX. Съображения на презентационния слой за сърфиране и уточняване на заявки 177

IX.1Сърфиране177

IX.2AccessingConstraintsandSimpleSpecificationFiltersatthePresentationLayer185

IX.3 Достъп до основния език на заявката186

IX.4 Цитати и бележки187

X.Подходи за визуализация189

X.1Въведение189

X.2Архитектурни съображения192

X.3 Общи подходи за визуализация за извличане на текст194

X.4 Техники за визуализация при анализ на връзки 225

X.5Пример от реалния свят: Системата за изследване на документи 235

XI.LinkAnalysis244

XI.1Предварителни 244

XI.2Автоматично оформление на мрежите246

XI.3Пътища и цикли в графики250

XI.4 Централност251

XI.5 Разделяне на мрежи 259

XI.6 Съвпадение на шаблони в мрежи 272

XI.7 Софтуерни пакети за анализ на връзки 273

XI.8 Цитати и бележки 274

XII.TextMiningApplications275

XII.1Общи съображения276

XII.2Корпоративни финанси: Литература за минна индустрия за бизнес разузнаване 281

XII.3A „Хоризонтално“ Приложение за копаене на текст: Решение за анализ на патенти Използване на Платформа за анализ на търговски текст 297

XII.4LifeSciencesResearch: MiningBiologicalPathwayInformationwithGeneWays309

Приложение A:DIAL:ADedicatedInformationExtractionLanguageforTextMining317

A.1Какъв еезик за НАБИРАНЕ?317

A.2Извличане на информация в средата DIAL318

A.3TextTokenization320

A.4 Концепция и структура на правило 320

A.5Съвпадение на шаблони322

A.6Елементи на модела323

A.7Ограничения на правило 327

A.8ConceptGuards328

A.9CompleteDIALExamples329

Библиография337

Индекс391