最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

數據集哪里找?專(zhuān)用搜索引擎來(lái)了!

優(yōu)采云 發(fā)布時(shí)間: 2022-07-01 05:39

  數據集哪里找?專(zhuān)用搜索引擎來(lái)了!

  一起努力

  1995年,正是互聯(lián)網(wǎng)方興未艾之時(shí),雅虎橫空出世,雅虎以提供互聯(lián)網(wǎng)各種信息目錄起家,迅速崛起成為世界互聯(lián)網(wǎng)巨頭,整個(gè)互聯(lián)網(wǎng)行業(yè)也迎來(lái)了門(mén)戶(hù)網(wǎng)站時(shí)代。彼時(shí)的第一批互聯(lián)網(wǎng)居民,要想在互聯(lián)網(wǎng)上獲取信息,就需要登錄雅虎等門(mén)戶(hù)網(wǎng)站,一頁(yè)頁(yè)地翻找目錄。即使這樣,也極大地方便了大家獲取信息。

  然而,隨著(zhù)互聯(lián)網(wǎng)信息爆炸式增長(cháng),門(mén)戶(hù)網(wǎng)站的這種收錄目錄的形式根本不能適應日漸暴漲的互聯(lián)網(wǎng)內容。于是,以谷歌為代表的搜索引擎公司,一方面通過(guò)爬蟲(chóng)實(shí)時(shí)抓取互聯(lián)網(wǎng)信息,一方面通過(guò)智能搜索算法,根據用戶(hù)搜索關(guān)鍵詞,匹配最合適的網(wǎng)頁(yè),谷歌也借此超越各大門(mén)戶(hù)網(wǎng)站,躋身成新的互聯(lián)網(wǎng)巨頭。

  在機器學(xué)習和人工智能的學(xué)習過(guò)程中,數據集是橫亙在初學(xué)者之間的一座大橋,已在知乎文章:

  機器學(xué)習超詳細實(shí)踐攻略(1):盤(pán)點(diǎn)scikit-learn里那些有趣又有用的彩蛋級入門(mén)數據集

  中已經(jīng)介紹了一些初學(xué)者尋找數據集的網(wǎng)站和思路。但是,這些方法尋找數據集的時(shí)候需要登錄不同的網(wǎng)站,然后在里邊翻找自己可能用到的數據集??梢哉f(shuō),在尋找數據集方面,這些方法仍然停留在“門(mén)戶(hù)網(wǎng)站”的1.0時(shí)代。

  其實(shí),數據集本質(zhì)上也是一種信息,如果需要從網(wǎng)上找到某個(gè)知識,或者某一張圖片,只需要搜索引擎輸入關(guān)鍵字就可以了。那是否可以輸入一個(gè)關(guān)鍵字,就可以找到這個(gè)領(lǐng)域的所有數據集呢?

  如今,經(jīng)過(guò)一年的測試,谷歌正式推出了一款名為“Google Dataset Search”的數據集專(zhuān)用搜索引擎,目前已經(jīng)涵蓋了2500萬(wàn)個(gè)數據集,以后需要數據集,只需要從這個(gè)統一入口尋找就可以了,徹底讓尋找數據集進(jìn)入“搜索時(shí)代”。網(wǎng)站界面如下所示:

  主頁(yè)

  目前,搜索引擎收錄的數據集涵蓋了地球科學(xué)、生物學(xué)和農業(yè)等各種領(lǐng)域。包含了世界上大多數政府、科研機構、大學(xué)等機構發(fā)布的數據集,而且數據集的數量繼續增加。并且支持普通人按照的開(kāi)放標準添加和上傳數據集。

  利用這個(gè)數據集搜索工具,我們可以通過(guò)簡(jiǎn)單的關(guān)鍵字來(lái)查找全網(wǎng)中的數據集。對初學(xué)者來(lái)說(shuō),可以更方便地尋找自己感興趣的數據集,對于整個(gè)人工智能行業(yè)來(lái)說(shuō),一方面形成一個(gè)數據共享生態(tài)系統,鼓勵數據發(fā)布者按照規定格式存儲和發(fā)布數據;另一方面也為數據科學(xué)家提供相應平臺,方便大家引用他們創(chuàng )建的數據集,以使他們的研究成果獲得更大的影響力。

  

  一、使用方法1、搜索方法

  進(jìn)入““Google Dataset Search”網(wǎng)站(網(wǎng)站地址:Dataset Search),這里,我們搜索一下經(jīng)典的“泰坎尼克號”數據集,可以看到,左側列出了很多數據集來(lái)源。點(diǎn)擊排在第一位的kaggle源,還可以查看該數據集的作者、支持下載的格式、數據集的說(shuō)明、數據集大小等信息。

  Titanic搜索結果

  再搜索一個(gè)鳶尾花數據集看看結果:

  iris搜索結果2、篩選搜索結果

  對于搜索結果,還可以根據更新日期、下載格式、使用權限、是否免費四個(gè)條件進(jìn)行篩選。進(jìn)一步定位我們需要的數據集。

  isis搜索結果

  從以上搜索流程中可以看到,數據集的搜索和我們平常的搜索習慣和方式并沒(méi)有什么不同。

  3、其他應用

  發(fā)布數據集的網(wǎng)站,很多都是諸如kaggle這樣的競賽網(wǎng)站,還是以泰坦尼克號數據集為例,點(diǎn)擊這個(gè)數據集,直接跳轉到了kaggle的主頁(yè),下載數據集的時(shí)候,還可以順便研究一下其他人的實(shí)現代碼。

  

  查看其他人的實(shí)現代碼

  也就是說(shuō),通過(guò)這個(gè)搜索引擎,不僅可以找到數據集,還可以找到對應的數據比賽以及一些選手的思路,即找問(wèn)題,又能順便找到答案。

  二、不足

  對于國內使用者來(lái)說(shuō),目前有兩點(diǎn)不足,一是對中文支持不是很友好。比如,搜索鳶尾花數據集的時(shí)候,如果輸入中文,則提示:找不到匹配的數據集。

  圖片來(lái)源網(wǎng)絡(luò )

  二是需要一些上網(wǎng)技巧才能訪(fǎng)問(wèn)這個(gè)網(wǎng)站。

  現在擺在我們面前的障礙,只有需要一些上網(wǎng)技巧和語(yǔ)言限制了。

  寫(xiě)在最后

  以搜索起家的谷歌,近年來(lái)在人工智能方面也是碩果累累,Tensorflow深度學(xué)習框架、Colab免費云計算實(shí)驗室、各種頂會(huì )里的論文以及前幾年流行一時(shí)的“你畫(huà)我猜”等人工智能小程序,皆出自谷歌之手。甚至開(kāi)發(fā)了Alphago,帶動(dòng)人工智能領(lǐng)域大火的 DeepMind公司,也被谷歌收入麾下。

  在學(xué)習人工智能知識方面,數據集搜索絕對是剛需,搜索引擎出身的谷歌,也必然有實(shí)力讓搜索數據集和搜索普通知識一樣簡(jiǎn)單。

  掃掃關(guān)注,不走丟

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区