Google Forschung startete gerade seine wiwilinks Corpus, eine massive eines neuen Datensatzes für Entwickler und Forscher, die es einfacher, intelligente Begriffsklärung hinzuzufügen und Querverweise auf ihre Anwendungen machen könnte. Die Daten könnten beispielsweise erleichtern herausfinden, wenn zwei Websites von der gleichen Person oder Konzept sprechen, sagt Google. Insgesamt eindeutig bestimmt die Korpus-Features 40 Millionen Erwähnungen innerhalb 10 Millionen Webseiten gefunden. Google Notizen, dadurch "über 100-mal größer als die nächste größte Korpus," die Funktionen von weniger als 100.000 Nennungen. Für Google ist Begriffsklärung natürlich etwas, das eine Kernfunktion des Projektes wissen Graph, mit dem Sie Google mitteilen, ob Sie suchen für Links mit Bezug zu den Planeten, Auto oder chemisches Element, wenn Sie zum Beispiel nach 'Quecksilber' suchen. Es dauert einen großen bestand wie diese ein und die Fähigkeit zu verstehen, was jede Web-Seite wirklich rund ist, damit dies geschieht. Um diese Datengruppe zu konstruieren, sah Google Links zu Wikipedia-Seiten "wo entspricht der Anchor-Text des Links den Titel der Zielseite Wikipedia." Es gibt eine hohe Wahrscheinlichkeit, dass diese Anker-Text einen Hinweis auf die entsprechende Entität ist, die Fokus der Entität ist, die in der Wikipedia-Eintrag erläutert wird. Die 10 Millionen kommentierte Web-Seiten, nicht Teil des Korpus leider wegen Urheberrechtsfragen, aber die UMass Wikilinks Projektfeatures alle notwendigen Werkzeuge, um diese Daten von Grund auf neu zu erstellen. Das UMass-Team veröffentlicht auch ein Papier, das den Prozess erläutert, die mit diesem Datensatz im Detail (PDF) erstellt wurde. Im vergangenen Jahr Google veröffentlicht einen ähnlichen Satz von Daten, beim Start einer Datenbank mit mehr als 7,5 Millionen Konzepte und 175 Millionen einzigartige Textzeichenfolgen, die ähnelt, was Google selbst verwendet, um zielgerichtete Keywords für AdWords-Kunden vorzuschlagen. Diesem Satz auch entstand durch einen Blick in Wikipedia-Artikeln um Konzepte zu identifizieren und der Anker-links, die andere Websites mit ihnen verknüpft.]]>
View the Original article
Home
Corpus
Erwähnungen
Forschung
Google
M-Entitäten
wiwilinks
Google Forschung frei wiwilinks Corpus mit Erwähnungen von 40 M und 3 M-Entitäten
Google Forschung frei wiwilinks Corpus mit Erwähnungen von 40 M und 3 M-Entitäten
Friday, 8 March 2013
Labels:
Corpus,
Erwähnungen,
Forschung,
Google,
M-Entitäten,
wiwilinks